Draft_KG2

整个过程面向标准PDF文件,构建知识图谱。 整个过程大致分为3部分:一是PDF可编辑转换,二是结构化信息提取,三是图谱构建。 为了保证整个文件的内容无缺失性,在构造中,将文件内容分为纯文本、表格、图片三部分,分类整理。 内容结构框架如下,其中,中英文名称识别,采用了bert二分类的方式(效果还可以)。 在范围内容整理时,参考了标准导则中的编写规则,如下: 在这里插入图片描述

内容部分

在这里插入图片描述

程序执行

GJBremove.py——移除国军标文件

pdf2word.py

文档提取图片.py

文档读取表格.py

文档内容提取.py——先word2TXT

文档语言判别.py——判断标准是中文or外文

文档内容提取.py——在extract(分章节和模块粗提取)

封面结构化信息提取.py

文档术语提取.py

标准前言信息提取.py

图片链接生成.py

parser_1.py——对上述结构化信息再整理

图谱搭建.py

技术路线

在这里插入图片描述

本体构建

在这里插入图片描述 请添加图片描述

图谱效果

单个标准文件

请添加图片描述

标准与标准之间

请添加图片描述 git地址: 本机地址:E:\python project\pythonProject_draftKG\文件信息结构化