/Dict

NJU-NLP-2019-HW1

Primary LanguagePython

词形还原

环境

  • python3.7

字典数据

  • dict.txt:dic_ec.txt 编码转换后的文件。
  • dict_noun.txt:网络爬虫爬取的名词还原字典。
  • dict_verb.txt:网络爬虫爬取的动词还原字典。

基于词典的词形还原算法

  • 通过维基词典爬取英语不规则复数变换表。
  • 通过百度百科爬取英语不规则动词变换表。
  • 创建三个字典:原始字典 all ,不规则名词词典 noun ,不规则动词词典 verb 。
  • 用户输入 W。
  • 若 W 存在于 all 中,则直接输出 W 和 all 中 W 对应的 value。
  • 若 W 不存在于 all 中,则判断 W 是否存在于 noun中。
  • 若 W 存在于 noun 中,则输出 W 和其还原后的词形 W ’,和 all 中 W ' 对应的 value。
  • 若 W 不存在于 noun中,则判断 W 是否存在于 verb 中。
  • 若 W 存在于verb 中, 则输出 W 和其还原后的词形 W ’,和 all 中 W ' 对应的 value。
  • 若 W 不存在于verb中,则输出 W 和按规则还原后的词形 W ’,和 all 中 W ' 对应的 value。
  • 如果以上任何一种对 W 的处理得到 W ’ 后,W ‘ 不存在于all 中,则输出<未登录词模块>。