Æ missing from the Norwegian language training data

Question

Æ missing from the Norwegian language training data

luddiluddludde opened this issue 8 years ago · 4 comments

The Norwegian character Æ is missing from the language files for Norwegian. Performing OCR where the Æ is present results in either /E or AE.

Some samples:
Ærfuglveien 44 er adressen jeg bor på.
Min adresse er Ærfuglgaten 73.
Ærlighet varer lengst.
Ærfuglen er den største andearten i vårt land.
Ærekrenkelse er en handling som består i å krenke en annens æresfølelse, eller opptre på en måte som er egnet til å skade en annens gode navn og rykte eller til å utsette ham for hat, ringeakt eller tap av den for hans stilling eller næring fornødne tillit.
Æsene lå i kamp med en annen gudeslekt, vanene.
Ærgjerrighet har vært viktig for mange av oss og da vi var småjenter, skjønte vi at det er viktig å arbeide hardt og bli til noe.
Det var Æsene som var snille.

Answer 1 · 2017-01-06T03:25:40.000Z

@theraysmith
Please see https://groups.google.com/forum/#!topic/tesseract-ocr/l33zsTEPj70 for additional discussion

Answer 2 · 2017-01-06T03:46:38.000Z

@luddiluddludde

Other case É of é is not in unicharset
Other case Ö of ö is not in unicharset
Other case Ä of ä is not in unicharset

Should these also be included?

Answer 3 · 2017-01-06T13:53:35.000Z

Add top layer worked for adding the missing character Æ to nor.traineddata.

For non-latin languages the process has been getting an error but for latin characterset it worked fine.

I have uploaded the modified nor.traineddata at

https://github.com/Shreeshrii/tessdata4alpha/blob/master/nor.traineddata

Training (having created the box/tiff pairs earlier) took about 9 hours on my pc - I created the traineddata from norlayer0.853_1615.lstm i.e. 0.853 % character error rate at iteration number 1615.

Answer 4 · 2017-01-11T22:04:44.000Z

Fixed. Will be included in next training.