本项目基于tensorflow
,实现一些论文提出的基于深度学习的分词、命名实体识别和实体关系抽取模型。
本项目是在DNN_CWS的基础上进行开发。增加了实体关系抽取。
本项目目前有重构的计划
本项目迁移至DeepLearning_NLP,故本项目暂时停止维护
- 中文分词
- 命名实体识别
- 实体关系抽取
- python >= 3.5
- tensorflow>=1.2.0
- matplotlib>=1.5.3
文件夹corpus
下:
- pku_training.utf8、pku_test.utf8: sighan 2005 bakeoff 北大分词库
- msr_training.utf8、msr_test.utf8: sighan 2005 bakeoff 微软亚洲研究院分词库
- msr_ner_training.utf8: sighan 2006 bakeoff 微软亚洲研究院命名实体识别语料库
- semeval_relation.utf8: International Workshop on Semantic Evaluation (SemEval) 2010 task 8 关系抽取数据集
- deep learning for chinese word segmentation and pos tagging (已完全实现,文件
dnn.py
) - Long Short-Term Memory Neural Networks for Chinese Word Segmentation (完全实现,需要调参,文件
dnn.py
) - Max-Margin Tensor Neural Network for Chinese Word Segmentation (正在实现,文件
mmtnn.py
)
- 支持
pip