Hou-jing/Draft_KG2

HTML

Draft_KG2

整个过程面向标准PDF文件，构建知识图谱。整个过程大致分为3部分：一是PDF可编辑转换，二是结构化信息提取，三是图谱构建。为了保证整个文件的内容无缺失性，在构造中，将文件内容分为纯文本、表格、图片三部分，分类整理。内容结构框架如下，其中，中英文名称识别，采用了bert二分类的方式（效果还可以）。在范围内容整理时，参考了标准导则中的编写规则，如下：

内容部分

程序执行

GJBremove.py——移除国军标文件

pdf2word.py

文档提取图片.py

文档读取表格.py

文档内容提取.py——先word2TXT

文档语言判别.py——判断标准是中文or外文

文档内容提取.py——在extract(分章节和模块粗提取)

封面结构化信息提取.py

文档术语提取.py

标准前言信息提取.py

图片链接生成.py

parser_1.py——对上述结构化信息再整理

图谱搭建.py

技术路线

本体构建

图谱效果

单个标准文件

标准与标准之间

git地址：本机地址：E:\python project\pythonProject_draftKG\文件信息结构化