/comma_net

NN for punctuation mark placement

Primary LanguageJupyter Notebook

Comma Net

Нейросеть для расстановки знаков препинания

Модель на основе DeepPavlov/rubert-base-cased-sentence.

Статья, с которой все началось. Репозиторий ребят. Постарался упростить их реализацию.

Обучение происходило на датасете новостей Ленты.

Для запуска пайплайна обучения: dvc repro

Для запуска с обученной моделью: python src/model/predict.py. Входной текст задается в этом же файле.

Планы по улучшению:

  • сделать валидацию
  • сделать тестирование и сохранять confusion matrix
  • обучить модель на GPU на большем числе образцов и эпох
  • переписать predict для удобного инференса
  • добавить поддержку новых знаков препинации (и адекватно написать их в коде)
  • обновить документацию и вывести статистику по метрикам