pattern 对部分 s 结尾的单词 词形还原出错
Steven-AA opened this issue · 2 comments
Steven-AA commented
pattern 对部分 s 结尾的单词 词形还原出错
ninja33 commented
英语的话,建议可以使用完整的lemmatization list而不要使用stemmer,也就是用所谓的暴力全量映射表,而不要用算法,效果会很好。
list 可以看看这个 http://www.lexiconista.com/datasets/lemmatization/
python的NTLK包,应该也自带了一个基于wordnet的lemmatizer
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
wordnet_lemmatizer.lemmatize(‘dogs’)
// u’dog’
wordnet_lemmatizer.lemmatize(‘churches’)
// u’church’
wordnet_lemmatizer.lemmatize(‘aardwolves’)
// u’aardwolf’
for detail: http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization
Steven-AA commented
pattern 的 lemma 只是还原动词的
pattern#221
等我空了,就去试试NLTK