Steven-AA/find-all-the-new-words

pattern 对部分 s 结尾的单词 词形还原出错

Steven-AA opened this issue · 2 comments

pattern 对部分 s 结尾的单词 词形还原出错

英语的话,建议可以使用完整的lemmatization list而不要使用stemmer,也就是用所谓的暴力全量映射表,而不要用算法,效果会很好。

list 可以看看这个 http://www.lexiconista.com/datasets/lemmatization/
python的NTLK包,应该也自带了一个基于wordnet的lemmatizer

from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
wordnet_lemmatizer.lemmatize(‘dogs’)
// udogwordnet_lemmatizer.lemmatize(‘churches’)
// uchurchwordnet_lemmatizer.lemmatize(‘aardwolves’)
// uaardwolf

for detail: http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization

pattern 的 lemma 只是还原动词的
pattern#221
等我空了,就去试试NLTK