Данный проект представляет собой корпус публицистических текстов в жанре социальной журналистики изданий "Нож", "Батенька, да вы трансформер", "Холод" и "Такие дела". Общий объём корпуса: 259 текстов.
Программа состоит из 3 модулей:
- NLP_project_data-scratching.ipynb — краулеры для сбора текстов с сайтов изданий
- NLP_project_morphology.ipynb — сегментация по предложениям, токенизация, лемматизация и морфологический анализ
- NLP_project_final_search.ipynb — поиск по корпусу (он может работать с подготовленной двумя предыдущими модулями базой данных project_nlp.db автономно)
Проект выполнили студенты группы БКЛ182 Катя Гриневская, Рома Казаков, Ксюша Петухова и Ника Смилга.
База данных доступна по ссылке: project_nlp.db.