Код для тьюториала в рамках Третьей Московско-тартуской школы по цифровым гуманитарным исследованиям
https://hum.hse.ru/digital/summerschool2018
Код:
requirements.txt
- необходимые библиотекиhelpers.py
- полезные вспомогательные функции.play_with_model.py
- демо-скрипт для работы с дистрибутивными моделями в Gensimtrain_word2vec.py
- скрипт для обучения дистрибутивной модели на своём корпусеcompare_model.py
- сравнение семантики слов в нескольких моделях. Графики соседей слова в разных моделях и изменения коэффициента Жаккарда.stance_detection.py
- обучение LSTM на размеченном корпусе для классификации позиций в текстахdemo_stance.py
- интерактивный режим классификации позиций в текстах. Загружает натренированную модель, спрашивает у пользователя текст, сообщает
Данные: - http://rusvectores.org/news_history/
models
- обученные на разных корпусах модели.newspapers
- модели для различных новостных изданий,years
- модели за разные года.ukraina
- материалы для создания модели, которая определяет выраженную в тексте позицию относительно Украиныtagged
- лемматизированные корпуса с разметкой частей речиsource_datasets
- исходные текстыReferences
- полезные статьи