- 获取数据:用scripy爬取财经类网站的新闻信息;
- 图谱设计:由金融方面的专业人士进行图谱的设计;
- 命名实体识别:使用word2vec方法训练语料,使用tensorflow构建双向LSTM + CRF深度学习模型进行命名实体识别,将非结构化数据转化为结构化数据(找到图谱中的节点);
- 关系抽取:用snowball方式,手工标注少量实体对,抽取相关句子集合,基于这些句子抽取相关模式,相当于人与机器共同工作,半自动循环迭代实现关系抽取(图谱中的边);
- 知识推理:基于isA关系和相似实体进行知识推理对幂律分布中的长尾实体关系进行补全;
- 图谱存储:使用Neo4j单机版进行图谱存储;
- 语义搜索:使用ElasticSearch构建语义搜索框架。
本库中主要存储命名实体识别相关代码及思路