CS_736_project
-
NLP基础知识汇总:
-
NLP全中文讲解(李宏毅2020)[B站链接]
-
2019版CS224N[课件][课程视频(中文字幕)]
-
2017版CS224N[课件][课程视频(中文字幕)]
19和17版的区别
17版课程作业用的是tensorflow, 19版用的是pytorch19版里多了character models, transformers, multitask learn等内容
-
一些有用的链接
-
论文阅读
- 关系抽取-RE(Relation Extraction)
-
笔记
关系抽取是指从文本中抽取关系事实.现如今由于网络文本爆发式增长,所以需要构建更有效的模型。优化方向具体分为三类:
- 如何利用更多的数据
远程监督(即自动标记),但是会出现很多noise,所以需要使用种种方式来去噪 - 当样本不足时,如何更有效的利用现有的数据
few shot:使用优质资源训练出更robust的模型然后套用到新任务上:
1.metric learning:度量现有数据和训练示例的距离,然后对查询进行分类
2.meta-learning:元学习 - 如何处理更复杂的上下文
1.提取句子内关系
2.构建句子间实体图 - 如何面向更多的开放域(现实中不断有新的关系生成)
关系抽取流程: - 一个命名体识别器,用于从文本中识别命名实体.
- 一个实体连接器,用于将实体连接到现有知识图谱
- 一个关系分类器,用于确定给定上下文的实体之间的关系(最难,因为需要理解上下文)
- 如何利用更多的数据
-
- 命名实体识别-NER(Named Entity Recognition)
- 文本分类-TC(Text Classification)
- 关系抽取-RE(Relation Extraction)