Решение задач порождения текста и исправления ошибок орфографии с помощью нейросетевых языковых моделей.
sudo apt-get install python3-venv
python3 -m venv diploma_project
source diploma_project/bin/activate
pip install -r requirements.txt
python -m ipykernel install --user --name diploma_paper
jupyter notebook --no-browser
Cover instruction:
sudo apt-get update -y
sudo apt-get install -y swig3.0
pip install jamspell
.
|-- 01. Report I (19.02.21)
|-- 01. Языковые модели
|-- 01. Языковые модели (13.02.2020)
| 01. Языковые модели.ipynb:
- TITLE: Языковые модели. Предсказание следующего слова
- DONE:
- Реализация счётчика N-грамм из текста;
- Реализация предсказания следующего слова по предыдущему слову;
- Реализация предсказания следующего слова по m предыдущих слов;
- Реализация предсказания следующего слова с учётом порядка предшествующих слов путём оценки расстояния до каждого из предшествующих слов;
|-- theory
| Языковые модели.pdf
|-- 02. Базовые идеи Word2Vec
|-- img
| word2vec.png
|-- theory
| Языковые модели (+word2vec).pdf
| 02. Базовые идеи Word2Vec.ipynb:
- TITLE: Базовые идеи модели Word2Vec
- DONE:
- Теоретическое объяснение модели Word2Vec;
- Математическое обоснование и вывод градиентов в модели Word2Vec
| 02. W2V.ipynb:
- TITLE: Реализация модели Word2Vec:
- DONE:
- Реализация и обучение модели Word2Vec на корпусе слов;
- Реализация визуализация эмбеддингов слов и похожих слов;
- Реализация предсказания следующего слова с помощью модели Word2Vec
| w2v: обученная модель w2v
| W2V.py: реализация модели Word2Vec
|-- 02. Report II (12.04.21)
|-- 01. Исправление пробелов
|-- theory
| 4.1 Восстановление пробелов I.nb
| Вероятностные подходы.pdf
| 04.1. Восстановление пробелов в тексте. Алгоритмы на основе корпуса слов.ipynb:
- DONE:
- Реализация алгоритма максимального соответствия
- Реализация обратного алгоритма максимального соответствия
- Реализация двунаправленного алгоритма максимального соответствия
- Реализация алгоритм построения деревая разбиения слова с возможностью выбора подходящего разбиения с наименьшем количеством слов;
| 04.2. Восстановление пробелов в тексте. Вероятностные модели.ipynb
- DONE:
- Реализация алгоритма выбора наиболее вероятной подполследовательности с применением сглаживания Лапласа
- Реализация алгоритма максимизации вероятности первого встречаемого слова + лучшее разбиение оставшихся букв с применением мемоизации
- Реализация алгоритма превращения одного слова в другое с помощью динамического программирования
- Реализация алгоритма выбора наиболее вероятной подпоследовательности с помощью перемножения вероятностей биграмм
| 04.3. Реализация алгоритмов.ipynb
| download_text.py
|-- 02. Исправление опечаток
|-- 04.2. Исправление опечаток.ipynb
TITLE: Исправление опечаток - алгоритм Питера Норвига:
DONE:
- Реализация алгоритма исправления опечаток Питера Норвига, основанного на расстоянии Левенштейна
|-- 03. conference (17.04.21)
|-- diploma_project -- виртуальное окружение
|--resources -- оформление README.md
|.gitignore
|README.md
requirements.txt