##关系抽取实验
- Django
- python
- bootstrap
- relation extraction
##特征工程 ###特征类型的定义(43维特征,第42和43维特征暂时没有提取)
- F1:ARG1的实体类型,注意F1还可能是代词。
- F2:ARG2的实体类型,注意F2还可能是代词。
- F3:ARG1和ARG2两个实体类型的组合。
- F4:ARG1词本身。
- F5:ARG2词本身。
- F6:ARG1和ARG2的位置关系,由于实体对不存在包含关系,所以位置关系只有两种:ARG1在前,ARG2在后,F6取真;ARG2在前,ARG1在后,F6取假。
- F7:ARG1之前的第一个词。
- F8:ARG1之前的第一个词的词性。
- F9:ARG1之前的第二个词。
- F10:ARG1之前的第二个词的词性。
- F11:ARG2之后的第一个词。
- F12:ARG2之后的第一个词的词性。
- F13:ARG2之后的第二个词。
- F14:ARG2之后的第二个词的词性。
- F15:ARG1的实体类型和ARG1之前的第一个词的词性的组合。
- F16:ARG2的实体类型和ARG2之后的第一个词的词性的组合。
- F17:ARG1和ARG2之间是否存在其他词。当两个实体之间没有单词时F17为真,否则F17为假。
- F18:当ARG1和ARG2之间只有一个词时,F18为该词,否则为空。
- F19:当ARG1和ARG2之间只有一个词时,F19为该词的词性,否则为空。
- F20:当ARG1和ARG2之间只有一个词时,F20为ARG1实体类型和该词的词性的组合。
- F21:当ARG1和ARG2之间只有一个词时,F21为ARG2实体类型和该词的词性的组合。
- F22:当ARG1和ARG2之间至少有两个词时,F22为其中的第一个词。
- F23:当ARG1和ARG2之间至少有两个词时,F23为其中的第一个词的词性。
- F24:当ARG1和ARG2之间至少有两个词时,F24为其中的第一个词的词性和ARG1实体类型的组合。
- F25:当ARG1和ARG2之间至少有两个词时,F25为其中的第一个词的词性和ARG2实体类型的组合。
- F26:当ARG1和ARG2之间至少有两个词时,F26为其中的最后一个词。
- F27:当ARG1和ARG2之间至少有两个词时,F27为其中的最后一个词的词性。
- F28:当ARG1和ARG2之间至少有两个词时,F28为其中的最后一个词的词性和ARG1实体类型的组合。
- F29:当ARG1和ARG2之间至少有两个词时,F29为其中的最后一个词的词性和ARG2实体类型的组合。
- F30:当ARG1和ARG2之间只有三个词时,取中间的词。
- F31:当ARG1和ARG2之间只有三个词时,取中间的词的词性。
- F32:当ARG1和ARG2之间至少有四个词时,取ARG1之后的第二个词。
- F33:当ARG1和ARG2之间至少有四个词时,取ARG1之后的第二个词的词性。
- F34:当ARG1和ARG2之间至少有四个词时,取ARG2之前的第二个词。
- F35:当ARG1和ARG2之间至少有四个词时,取ARG2之前的第二个词的词性。
- F36:ARG1和ARG2之间靠近ARG1的第一个动词。
- F37:ARG1和ARG2之间靠近ARG2的第一个动词。
- F38:ARG1和ARG2之间词的个数。
- F39:ARG1和ARG2之间其他实体的个数。
- F40:ARG1和ARG2之间动词的个数。
- F41:ARG1和ARG2之间代词的个数。
- F42:在依存句法分析树中,ARG1和ARG2之间的最短依存句法路径(Dependency-tree paths)。
- F43:在依存句法分析树中,ARG1和ARG2之间的树距离(Tree distance),即最短句法路径长度。
###特征抽取
抽取过程如下:
最后一步执行的代码为:FeaturesExtraction_RE.exe "新浪/nz 娱乐/vn 讯/ng 由/p <Na>尔冬升</Na> 监制/vn 、/x 罗志良/Na 导演/v ,/x 刘青云/Na [/x 微/a 博/n ]/x 、/x 林家栋/Na 、/x 李小璐/Na [/x 微/a 博/n ]/x 、/x 江一燕/Na [/x 微/a 博/n ]/x 、/x 郭晓东/Na 、/x 凤小岳/Na [/x 微/a 博/n ]/x 主演/n 的/uj 动作悬疑大片/Nt 《/x <Nf>消失的凶手</Nf> 》/x 公布/v 了/ul 一组/m 新/a 的/uj 人物/n 海报/n ,/x 黑白/z 色调/n 的/uj 海报/n 上/f ,/x 众/ng 主演/n 身处/s 狭小/b 的/uj 空间/n ,/x 藏/j 于/p 内心/n 不为人知/i 的/uj 一面/m 也/d 尽显/v 无遗/v"
便可得到相应的特征(41维)。