notanevan/Movie-Industry-Knowledge-Graph

PythonMIT

知识图谱课程设计 - 电影知识图谱构建 - 第15组

使用方法

安装依赖
- 所需依赖模块列于requirements.txt中
下载中文维基百科原始dump数据库文件保存至./data/wiki.xml
将繁体汉字转换为简体
```
python convert.py
rm ./data/wiki.xml
```
- 生成的文件保存于./data/wiki_simple.xml

将原始dump文件切分为页面

mv ./data/wiki.xml ./data/page.xml
python XML_split.py ./data/page.xml page 1
rm ./data/page.xml

生成的文件保存于./data/page*.xml

筛选电影相关页面（类别推断）
```
python filter.py
```
- 页面按类别保存于./filtered_data/actor/page*.xml、./filtered_data/director/page*.xml、./filtered_data/writer/page*.xml
根据已有本体进行事实抽取
```
python fact_extract.py
```
- 得到的初步图谱数据保存于./graph/graph_base.csv
属性清洗
```
python data_normalize.py
```
- 得到的清洗后图谱数据保存于./graph/graph.csv
补全、可视化等
- 将图谱csv文件导入至neo4j中进行后续操作（详见报告）
- ./graph/graph.csv去除一些特殊字符后得到./graph/graph.csv
- 运行neo4j服务器
- 导入节点
```
python visualize.py
```