roshan-research/hazm

عدم توانایی ریشه یابی صحیح متن محاوره ای

Closed this issue · 1 comments

سلام lemmatize در کتابخانه hazm در ریشه یابی کردن واژه هایی که به شکل محاوره ای نوشته می شوند مثل "خونه" مشکل دارد و قادر به ریشه یابی صحیح نیست (منظور از ریشه یابی صحیح یعنی ریشه واژه را در شکل رسمی آن برگرداند؛ در این مثال "خانه").

>>> hazm.Lemmatizer().lemmatize("خونه")
expected output :   "خانه"
but current output is: "خونه"

برای این کار می‌تونید از کلاس InformalLemmatizer استفاده کنید که واژه‌های محاوره‌ای را ریشه‌یابی می‌کند. مثل زیر:

ilemmatizer = InformalLemmatizer()
ilemmatizer.lemmatize('خونه‌ها') 

یا این که از کلاس InformalNormalizer برای تبدیل محاوره به معیار استفاده کرده و سپس ریشه‌یابی را با کلاس Stemmer انجام دهید. مثال:

from hazm.stemmer import Stemmer
stemmer = Stemmer()
stemmer.stem(inormalizer.normalize('خونه‌ها')[0][0][0])