Zemberek sözlüğü yaygın olarak yanlış yazılan kelimeleri içeyor.
ahmetaa opened this issue · 0 comments
Bu, #8 ile ortaya çıktı.
Zemberek NLP projesine kolaylık sağlaması için ayrı yazılması gerekirken yaygın olarak bitişik yazılan ya da yaygın kullanılan ama dil bilgisi açısından doğru olmayan bazı kelimeleri "EXT" etiketi ile, yani TDK dışı olarak işaretleyip yarı otomatik bir şekilde eklemiştik. Bu kelimeleri zemberek projesindeki non-tdk.dict içerisinde görebilirsiniz. (Proje içinde iki kere sihtf'e basıp dosyayı arayabilirsiniz)
Bağlantı: https://github.com/ahmetaa/zemberek-nlp/blob/master/morphology/src/main/resources/tr/non-tdk.dict
Örneğin:
hayvanbilim [A:Ext]
hazırgiyim [A:Ext]
hazırol [A:Ext]
hazırolmak [A:Ext]
haznedarlık [A:Ext]
helallaşmak [A:Ext]
helisel [A:Ext]
hemşeri [A:Ext]
hercaimenekşe [A:Ext]
hergün [A:Ext]
herkül [A:Ext]
herşey [A:Ext]
heryer [A:Ext]
herzaman [A:Ext]
Bu kelimelerin hepsi imla açısından yanlış. Bunun yanında, bazı kelimeler de TDK'da yer almıyor ama muhtemelen doğru. Bunlar genelde alana özel kelimeler
hidrobiyolog [A:Ext]
hidrofilik [A:Ext]
hidrosefali [A:Ext]
hidrofobik [A:Ext]
hidrofobisite [A:Ext]
hidrografik [A:Ext]
hidrojeolog [A:Ext]
hidroklorür [A:Ext]
gibi. Bu konudaki çözüm alternatifleri:
- İlk etapta bu listede yer alan kelimeleri çözümlemeye dahil etmemek
- Bu listeyi elden geçirip makul kelimeleri bırakıp hatalı olanları başka bir dosyaya aktarmak. Gerçekten hatalı olanlara bir de "INFORMAL" etiketi eklemek. Bu dosyada 3500 civarında kelime bulunuyor.