LawAnalyzer 是一个用于解析和提取 .docx
格式法律文件的 Python 代码库。本项目旨在从法律文件中抽取结构化信息,例如法条、章节、层次结构以及所属法律等,以方便进一步的分析、处理和利用。
- 支持
.docx
格式的法律文件 - 提取法条、章节、层次结构和所属法律
- 将提取的结构化信息导出到指定的输出文件中
在运行本项目之前,请确保您已安装 Python,并安装了以下依赖库:
- json
- docx
- re
- copy
可以使用下列命令安装 docx
依赖库:
pip install python-docx
将需要解析的 .docx
格式法律文件放入项目的 assets
文件夹下,例如:
./assets/劳动合同法.docx
输入的法条可以直接从国家法律法规数据库中,下载对应的法律文本,如《民法典》
在代码中修改输入文件和输出文件的路径,例如:
output_path = "./output.txt"
doc = docx.Document("./assets/劳动合同法.docx")
运行代码,将会抽取法律文件中的结构化信息,并将结果输出到指定文件中。
在指定的输出文件中,你将会看到类似以下格式的结构化信息
下方是抽取出的单条法律:
{
"id": 59,
"text": [
"劳务派遣单位派遣劳动者应当与接受以劳务派遣形式用工的单位(以下称用工单位)订立劳务派遣协议。劳务派遣协议应当约定派遣岗位和人员数量、派遣期限、劳动报酬和社会保险费的数额与支付方式以及违反协议的责任。",
"用工单位应当根据工作岗位的实际需要与劳务派遣单位确定派遣期限,不得将连续用工期限分割订立数个短期劳务派遣协议。"
],
"chapter_id": [
5,
2
],
"hierarchy": [
"特别规定",
"劳务派遣"
],
"law": "中华人民共和国劳动合同法"
}