social_journalism_corpus

Данный проект представляет собой корпус публицистических текстов в жанре социальной журналистики изданий "Нож", "Батенька, да вы трансформер", "Холод" и "Такие дела". Общий объём корпуса: 259 текстов.
Программа состоит из 3 модулей:

  • NLP_project_data-scratching.ipynb — краулеры для сбора текстов с сайтов изданий
  • NLP_project_morphology.ipynb — сегментация по предложениям, токенизация, лемматизация и морфологический анализ
  • NLP_project_final_search.ipynb — поиск по корпусу (он может работать с подготовленной двумя предыдущими модулями базой данных project_nlp.db автономно)

Проект выполнили студенты группы БКЛ182 Катя Гриневская, Рома Казаков, Ксюша Петухова и Ника Смилга.

База данных доступна по ссылке: project_nlp.db.