Сравнение результатов работы стеммера на словах с ошибками и опечатками и исправленных словах.
Используется библиотека Languagetool
Стемминг с помощью Стеммера Портера
- Склонируйте репозиторий
$ git clone https://github.com/GuminEgor/StemmingAndSpellChecking.git
- Загрузите train.csv с сайта SNA Hakathon 2014 и поместите в директорию resources
- Запустите Main.java
- В результате работы будет сгенерирован файл res.csv, опираясь на который Вы сможете построить диаграмму частотности (пример в файле Diagram.xlsx)