/RE

关系抽取实验

Primary LanguagePython

影视领域实体关系抽取实验

##关系抽取实验

  • Django
  • python
  • bootstrap
  • relation extraction

##特征工程 ###特征类型的定义(43维特征,第42和43维特征暂时没有提取)

  • F1:ARG1的实体类型,注意F1还可能是代词。
  • F2:ARG2的实体类型,注意F2还可能是代词。
  • F3:ARG1和ARG2两个实体类型的组合。
  • F4:ARG1词本身。
  • F5:ARG2词本身。
  • F6:ARG1和ARG2的位置关系,由于实体对不存在包含关系,所以位置关系只有两种:ARG1在前,ARG2在后,F6取真;ARG2在前,ARG1在后,F6取假。
  • F7:ARG1之前的第一个词。
  • F8:ARG1之前的第一个词的词性。
  • F9:ARG1之前的第二个词。
  • F10:ARG1之前的第二个词的词性。
  • F11:ARG2之后的第一个词。
  • F12:ARG2之后的第一个词的词性。
  • F13:ARG2之后的第二个词。
  • F14:ARG2之后的第二个词的词性。
  • F15:ARG1的实体类型和ARG1之前的第一个词的词性的组合。
  • F16:ARG2的实体类型和ARG2之后的第一个词的词性的组合。
  • F17:ARG1和ARG2之间是否存在其他词。当两个实体之间没有单词时F17为真,否则F17为假。
  • F18:当ARG1和ARG2之间只有一个词时,F18为该词,否则为空。
  • F19:当ARG1和ARG2之间只有一个词时,F19为该词的词性,否则为空。
  • F20:当ARG1和ARG2之间只有一个词时,F20为ARG1实体类型和该词的词性的组合。
  • F21:当ARG1和ARG2之间只有一个词时,F21为ARG2实体类型和该词的词性的组合。
  • F22:当ARG1和ARG2之间至少有两个词时,F22为其中的第一个词。
  • F23:当ARG1和ARG2之间至少有两个词时,F23为其中的第一个词的词性。
  • F24:当ARG1和ARG2之间至少有两个词时,F24为其中的第一个词的词性和ARG1实体类型的组合。
  • F25:当ARG1和ARG2之间至少有两个词时,F25为其中的第一个词的词性和ARG2实体类型的组合。
  • F26:当ARG1和ARG2之间至少有两个词时,F26为其中的最后一个词。
  • F27:当ARG1和ARG2之间至少有两个词时,F27为其中的最后一个词的词性。
  • F28:当ARG1和ARG2之间至少有两个词时,F28为其中的最后一个词的词性和ARG1实体类型的组合。
  • F29:当ARG1和ARG2之间至少有两个词时,F29为其中的最后一个词的词性和ARG2实体类型的组合。
  • F30:当ARG1和ARG2之间只有三个词时,取中间的词。
  • F31:当ARG1和ARG2之间只有三个词时,取中间的词的词性。
  • F32:当ARG1和ARG2之间至少有四个词时,取ARG1之后的第二个词。
  • F33:当ARG1和ARG2之间至少有四个词时,取ARG1之后的第二个词的词性。
  • F34:当ARG1和ARG2之间至少有四个词时,取ARG2之前的第二个词。
  • F35:当ARG1和ARG2之间至少有四个词时,取ARG2之前的第二个词的词性。
  • F36:ARG1和ARG2之间靠近ARG1的第一个动词。
  • F37:ARG1和ARG2之间靠近ARG2的第一个动词。
  • F38:ARG1和ARG2之间词的个数。
  • F39:ARG1和ARG2之间其他实体的个数。
  • F40:ARG1和ARG2之间动词的个数。
  • F41:ARG1和ARG2之间代词的个数。
  • F42:在依存句法分析树中,ARG1和ARG2之间的最短依存句法路径(Dependency-tree paths)。
  • F43:在依存句法分析树中,ARG1和ARG2之间的树距离(Tree distance),即最短句法路径长度。

###特征抽取 抽取过程如下: 最后一步执行的代码为:FeaturesExtraction_RE.exe "新浪/nz 娱乐/vn 讯/ng 由/p <Na>尔冬升</Na> 监制/vn 、/x 罗志良/Na 导演/v ,/x 刘青云/Na [/x 微/a 博/n ]/x 、/x 林家栋/Na 、/x 李小璐/Na [/x 微/a 博/n ]/x 、/x 江一燕/Na [/x 微/a 博/n ]/x 、/x 郭晓东/Na 、/x 凤小岳/Na [/x 微/a 博/n ]/x 主演/n 的/uj 动作悬疑大片/Nt 《/x <Nf>消失的凶手</Nf> 》/x 公布/v 了/ul 一组/m 新/a 的/uj 人物/n 海报/n ,/x 黑白/z 色调/n 的/uj 海报/n 上/f ,/x 众/ng 主演/n 身处/s 狭小/b 的/uj 空间/n ,/x 藏/j 于/p 内心/n 不为人知/i 的/uj 一面/m 也/d 尽显/v 无遗/v" 便可得到相应的特征(41维)。