baike_triples

爬取百度百科词条，抽取三元组，构建知识图谱

1.首先运行spider/spider_main迭代地抓取原始词条的网页,爬取的html文件放到spider/webpages文件夹里面

2.运行ie/extract-table.py进行网页的解析，并将每个词条的信息存入txt文件，放到info-table文件夹里面

3.运行kg/build-triple-from-table.py生成三元组文件triples.txt,放到kg/triple.txt里面

4.运行insert_to_neo4j.py将三元组存入neo4j数据库（注意这一步之前要现在本地主机打开neo4j数据库，否则会提示连接不上的错误）

brightgems/baike_triples