/15-MAG-PMI

Corpus linguistics models

Primary LanguageJupyter Notebook

15-MAG-PMI

Corpus linguistics models

Корпусная лингвистика

ДЗ1. Провести кластеризацию коллекции текстов 20newsgroup. В качестве признаков текстов использовать TFIDF. Визуализировать результат кластеризации и существующие классы на двумерном графике используя известный Вам метод сокращения размерности.

КР1. Собрать коллекцию текстов на английском языке содержащие как минимум два класса.

КР2. Провести поиск семантически близких текстов (по коллекции 20newsgroup) поступающем запросу. В качестве меры семантической близости использовать два подхода: TFIDF + косинусное расстояние и BM25

КР3. Собрать коллекцию русскоязычных текстов содержащих как минимум два класса. Вычислить перплексию для всех классов отдельно используя параметры языковой модели оцененные по НКРЯ.

Распознавание речи

КР1. При помощи PRAAT записать два гласных звука «А», «И» с параметрами 16 бит, 16 КГц. Определить Форманты этих звуков используя спектр. Изменить ширину окна коротковременного спектра (с 0,001 сек. на 0,01 сек.) и пронаблюдать принцип неопределенности на спектрограмме.

КР2. Сделать звуковую запись с параметрами 16 бит, 16 КГц. Применить коротковременные оконные функции и визуализировать одно окно во временной и частотной области используя Matlab. В частотной области по оси Х – цифровая частота, по оси Y мощность гармоники в децибелах.

КР3. Записать несколько фонем с параметрами 16 бит, 16 КГц. Сделать распознаватель фонем используя авторегрессионные коэффициенты и обеляющий фильтр