cornhedgehog/compling_nlp_hse_course

Материалы курса по компьютерной лингвистике Школы Лингвистики НИУ ВШЭ

Jupyter Notebook

Темы

📒 Предобработка текста и простая классификация (tokens, lemmas, Bag-of-words)

Доп. тетрадка с сегментацией предложений

📒 Определение языка (char ngram, wiki data)

📒 Извлечение ключевых слов (tfidf ranking, randow walk on word graph, graph centrality for ranking)

📒 Определение и исправление опечаток (char ngram, norwig algorithm, word edit distances)

📒 Тематическое моделирование (gensim + sklearn, lda, nmf)

📒 Тематическое моделирование (BigARTM, regularizer)

📒 Векторные представления (matrix factorization, word2vec, fastext, paraphrase detection)

📒 Дизамбигуация значений слов - WSD (lesk, adagram, context clustering)

📒 Определения части речи (viterbi, memm classifier)

📒 Извлечение именованных сущностей Natasha

Извлечение именованных сущностей эвристики, готовые решения

📒 Извлечение отношений (context embedding + classification)

📒 Вопросно-ответные системы (SQUAD dataset, span prediction)

📒 Определение семантических ролей (qa-like task)

📒 Коллокации (gensim phraser, pmi)

📒 Деревья зависимостей (dependency collocation, tree edit distance)

📒 Stacking, aproximate nearest neighbours, eli5