/entity_relation_extraction

基于依存分析的实体关系抽取简单实现,即抽取事实三元组

Primary LanguageJava

基于依存句法分析的实体关系抽取

写在前面

此项目不再维护,由于当时水平有限,里面代码写的极其糟糕,几百行的函数等等都是不符合设计的,希望小伙伴不要把这种习惯带入到自己的代码中 如果程序遇到问题,建议你看一下 API 有没有更新之类的,毕竟是用的两年前的版本。

功能

使用依存句法分析抽取非结构化数据中的事实三元组(实体,关系,实体),详细内容可以查看实体关系抽取

使用

  • 项目需要安装HanLP,相关说明请参见HanLP使用文档
  • 然后运行main/Main.class即可
  • 建议导入用户词典

实验效果

输入:刘小绪非常喜欢跑步
    > 刘小绪,喜欢,跑步
    > 刘小绪,非常喜欢,跑步

输入:刘小绪和李华是朋友
    > 刘小绪,朋友,李华

输入:刘小绪生于四川
    > 刘小绪,生于,四川

输入:刘小绪洗干净了衣服
    > 刘小绪,洗,衣服
    > 刘小绪,洗干净了,衣服

输入:海洋由水组成
    > 水,组成,海洋

输入:父亲是来自肯尼亚的留学生
    > 父亲,是,留学生

输入:刘小绪就职于学校
    > 刘小绪,就职于,学校

输入:**的首都是北京
    > **,首都,北京
    > 首都,是,北京

使用建议

1.导入用户词典,在使用的过程中,我发现有很多命名实体HanLP无法识别,导入用户词典的准确率更高。

2.尽量把句子切分为短句,因为是基于HanLP提供的依存句法分析工具,HanLP无法识别多个独立句子的组合。

Dependency

HanLP依存句法分析

参考

基于依存分析的开放式中文实体关系抽取方法

事实三元组抽取