Æ missing from the Norwegian language training data
luddiluddludde opened this issue · 4 comments
The Norwegian character Æ is missing from the language files for Norwegian. Performing OCR where the Æ is present results in either /E or AE.
Some samples:
Ærfuglveien 44 er adressen jeg bor på.
Min adresse er Ærfuglgaten 73.
Ærlighet varer lengst.
Ærfuglen er den største andearten i vårt land.
Ærekrenkelse er en handling som består i å krenke en annens æresfølelse, eller opptre på en måte som er egnet til å skade en annens gode navn og rykte eller til å utsette ham for hat, ringeakt eller tap av den for hans stilling eller næring fornødne tillit.
Æsene lå i kamp med en annen gudeslekt, vanene.
Ærgjerrighet har vært viktig for mange av oss og da vi var småjenter, skjønte vi at det er viktig å arbeide hardt og bli til noe.
Det var Æsene som var snille.
@theraysmith
Please see https://groups.google.com/forum/#!topic/tesseract-ocr/l33zsTEPj70 for additional discussion
Other case É of é is not in unicharset
Other case Ö of ö is not in unicharset
Other case Ä of ä is not in unicharset
Should these also be included?
Add top layer worked for adding the missing character Æ to nor.traineddata.
For non-latin languages the process has been getting an error but for latin characterset it worked fine.
I have uploaded the modified nor.traineddata at
https://github.com/Shreeshrii/tessdata4alpha/blob/master/nor.traineddata
Training (having created the box/tiff pairs earlier) took about 9 hours on my pc - I created the traineddata from norlayer0.853_1615.lstm i.e. 0.853 % character error rate at iteration number 1615.
Fixed. Will be included in next training.