История и основные понятия машинной обработки естественных языков;
Формальные грамматики и их свойства;
Неоднозначность на всех уровнях языка;
Основные задачи машинной обработки естественного языка;
Основные подходы к решению задач: правила, написанные вручную и машинное обучение;
Машинное представление текста на естественном языке;
Предобработка текста: токенизация и сегментация;
Нормализация слов: стеммеры, лемматизаторы, морфологические анализаторы;
Векторная модель One Hot Encoding;
Модель Тf-idf.
N-граммы Языковые модели и перплексия Тематическое моделирование
Регулярные выражения;
Фразовые запросы и ранжированный информационный поиск;
Методы оценки качества поисковых машин;
Синтаксис составляющих и синтаксис зависимостей;
Контекстонезависимые грамматики;
Вероятностный подход к парсингу;
Лексикализованные вероятностные грамматики;
Применение парсинга в различных задачах.
Линейный softmax классификатор;
Обучение линейного классфикатора;
Многослойный персептрон;
Рекуррентные сети.
Значение и смысл;
Тезаурусные и дистрибуционные (корпусные) методы;
Измерение семантической близости;
Ембеддинги Word2Vec и Glove;
Задачи и проблемы классификации;
Анализ тональности;
Классические подходы: пословный, трансферный, интерлингвальный;
Статистический машинный перевод;
Выравнивание текстов;
Оценка качества машинного перевода;
Нейросетевой машинный перевод;
Алгоритмы декодирования.
Генерация текстов;
Системы автоматической генерации ответов на вопросы.