hackaton_new_data_tech: A Jupyter Notebook repository from tumanov-a

Ссылка на работу https://hackathon.digitalleader.org/contest-photo/13/

Идея

Моя идея заключалась в том, чтобы проанализировать информационный фон одного из американских СМИ - NY Times, который в принципе может являться отражением того, что происходит в мире, на предмет употребления слов положительного и негативного окраса, на основе модели машинного обучения. А также сделать вывод, опираясь на динамику изменения их употребления.

Датасет

Датасетом был взят архив публикаций газеты NY Times в период с 1920 по 2020 год. В качестве анализируемого контента использовались заголовки и выдержки статей в среднем на 234 символа.

Ссылка на описание датасета: https://developer.nytimes.com/docs/archive-product/1/overview

Методология обработки данных

Повторю описанное в Notebook-е более подробно.

Исходные данные состояли из 101 датасета, каждый из которых отвечал за определенный год в промежуток с 1920 по 2020 год. В общей сумме ~17 млн строк.

Где в качестве анализируемого предложения использовался заголовок + выдержка из статьи.

Каждое анализируемое предложение в датасете было представлено в виде векторов с помощью TfidfVectorizer.

После чего была построена предсказательная модель, где в качестве фичей являлись отдельные слова, а таргетом был год. Итоговой целью построения данной модели являлось не предсказание года по вектору слов, а вытаскивание коэффициентов перед отдельной фичей (по аналогии с линейной регрессией), где большее значение коэффициента говорило бы о важности данного слова для временного промежутка.

Для оценки отрицательного или положительного фона использовался файл EmotionLookupTable.txt, представляющий собой словарь, с уже размеченными словами. Данный словарь был взят с сайта http://sentistrength.wlv.ac.uk/, можно было бы воспользоваться уже написанной программой на Python, но она оказалась платной.

Потом были подсчитаны для каждого временного промежутка суммарные баллы за использование позитивных или негативных слов в словарях наиболее важных слов предсказательной модели.

Для того, чтобы учесть относительный, а не абсолютный балл, итоговый график был построен по следующей формуле neg_scores / sum(neg_scores) * 100.

Вывод работы

Итоговый вывод можно сделать следующий, что с 1920 по 2020 год наблюдается рост употребления в СМИ как положительных, так и негативных формулировок, что в свою очередь может влиять на настроение в обществе. Причем не понятно то ли дело действительно в том, что наша жизнь становится более насыщенной на различные события, или в том, что люди больше привыкли говорить о том, что у них происходит в жизни, а СМИ опять же как зеркало отражает мысли общества. Но в любом случае тренд на упоминание положительных слов не может не радовать и, по моему мнению, целью новых поколений должно являться улучшение этой динамики с помощью постоянных открытий в области науки, медицины, исследованиях и т.д.

tumanov-a/hackaton_new_data_tech