bakwc/JamSpell

Failed to train new Russian Model

BobkovS opened this issue · 2 comments

Здравствуйте. Я пытаюсь обучить модель на названиях организаций Юр. Лиц РФ. На данный момент у меня есть файл с 400+к названиями фирм на русском языке. При создании модели по алгоритму, описанному у вас, создается файл model2.bin, но не создается файл model2.bin.spell, который существует для ваших готовых моделей (возможно проблема в этом).

./main/jamspell train ~/JamSpell/build/alphabet_ru.txt ~/JamSpell/build/traindata.txt model2.bin
[info] loading text
[info] generating N-grams 1
[info] generating keys
[info] ngrams1: 352949
[info] ngrams2: 486152
[info] ngrams3: 491682
[info] total: 1330783
[info] generating perf hash
[info] finished, buckets: 1663481
[info] buckets filled

При попытке загрузить данную модель в программу Python, ничего не происходит. Т.е модель не загружается. При попытке запуска скрипта evaluate.py так же висит надпись loading models. Ждал загрузки примерно час, но это ничего не дало.
На ваших моделях все работает исправно.
traindata.txt
model2.zip
alphabet_ru.txt

bakwc commented

Странно, обычно при первой загрузке модели создается .spell файл. За час точно должен был создастся. Проверю.

С вопросом разобрался, спасибо. Пришлось подождать в районе двух часов, хоть модель и достаточно маленькая. Видимо проблема в скорости работы виртуальной машины.
Попутный вопрос, если в названиях фирм присутствует, к примеру знак "тире", его не следует добавлять в алфавит?