Темы 📒 Предобработка текста и простая классификация (tokens, lemmas, Bag-of-words) Доп. тетрадка с сегментацией предложений 📒 Определение языка (char ngram, wiki data) 📒 Извлечение ключевых слов (tfidf ranking, randow walk on word graph, graph centrality for ranking) 📒 Определение и исправление опечаток (char ngram, norwig algorithm, word edit distances) 📒 Тематическое моделирование (gensim + sklearn, lda, nmf) 📒 Тематическое моделирование (BigARTM, regularizer) 📒 Векторные представления (matrix factorization, word2vec, fastext, paraphrase detection) 📒 Дизамбигуация значений слов - WSD (lesk, adagram, context clustering) 📒 Определения части речи (viterbi, memm classifier) 📒 Извлечение именованных сущностей Natasha Извлечение именованных сущностей эвристики, готовые решения 📒 Извлечение отношений (context embedding + classification) 📒 Вопросно-ответные системы (SQUAD dataset, span prediction) 📒 Определение семантических ролей (qa-like task) 📒 Коллокации (gensim phraser, pmi) 📒 Деревья зависимостей (dependency collocation, tree edit distance) 📒 Stacking, aproximate nearest neighbours, eli5