/lenta_short_sentences

Dataset extracted by analyzing and processing Lenta news dataset for Russian Language, to be used in my research for text generation

Primary LanguagePython

lenta_short_sentences

Dataset extracted by analyzing and processing Lenta news dataset for Russian Language, to be used in my research for text generation

Статистика

Чтобы выразить наш полученный набор данных, мы создали некоторую статистику. Эти статистические данные предназначены для выражения и общего представления набора данных, а также для сопоставления с сгенерированными образцами использованных моделей.

таблица суммирует статистику о нашем датасете, показывает общее количество слов, уникальных слов, длину предложений, и т. д.

Количество слов в предложении:

  • Распределение вероятностей количества слов в предложении для каждой части набора данных.

  • График Box Plot, который показывает наиболее важную статистику для количества слов в предложении

Облако слов, представляет наиболее частые слова в каждом наборе данных.