/Data_Science_2021

2021年秋 - 南京大学软件学院数据科学基础大作业 - 司法大数据自动化标注与分析

Primary LanguagePython

2021秋 数据科学基础大作业项目使用手册

开源地址

Pengzna/Data_Science_2021: 2021年秋 - 南京大学软件学院数据科学基础大作业 - 司法大数据自动化标注与分析 (github.com)

项目技术栈

  • 前端:Vue,Axios,ElementUI

  • 后端:flask

    • NLP :hanlp、TF-IDF、textrank、朴素贝叶斯、机器学习

    • 爬虫:Selenium

代码结构

|-- data-science # 前后端分离项目
    |-- .idea
    |-- flask_backend # 后端文件
    |   |-- app.py # 后端主入口
    |   |-- .idea
    |   |-- case_txt
    |   |-- crawler # 爬虫
    |   |-- handle_data # 数据统计分析
    |   |-- json_result # 前端标注结果
    |   |-- mark # NLP
    |   |-- test_case
    |   |-- util
    |   |-- word_cloud # 数据可视化
    | 
    |-- vue_frontend # 前端文件    
        |-- babel.config.js
        |-- package-lock.json
        |-- package.json
        |-- vue.config.js
        |-- .idea
        |-- public
        |-- src
            |-- App.vue
            |-- main.js
            |-- assets # 静态资源
            |-- components # 前端组件
            |-- router # 路由

项目启动

后端:

  • 进入flask_backend文件夹,点击右上角修改编译配置,确保项目working directory位于目录flask_backend
    • 7ss8oj.png
    • 7ss1eg.png
  • 使用pip install xxx命令安装缺失的依赖(可根据pycharm IDE提示安装)
  • 进入flask_backend文件夹,运行app.py文件,可见后台运行于http://127.0.0.1:5000/

前端:

  • 进入vue_frontend文件夹,执行命令:
npm install
npm run serve

即可于http://localhost:8080/ 启动前台vue工程

项目功能

✅ 自动爬取选定日期区间的裁判文书并保存于本地

🙌 对键入或者上传的裁判文书按照词性进行分词

👍 支持用户手动标注,并可保存标注结果于本地

✨ 对分词结果进行自动标注,供用户参考

🎁 对自动分词结果生成可视化图片,供用户参考

如何使用

  • 访问http://localhost:8080/ 进入项目,前台页面如下

7fm9mt.png

  • 选定具体时间区间,自动化爬取选定时间区间的案例文书

7ssQOS.png

  • 在文本框手动输入案例或者上传本地案例文件,点击“开始分词”进行自动化分词

7ss3wQ.png

7sstWq.png

  • 随后可以在页面看到后端的分词结果,用户可以进行手动标注。点击下方按钮保存标注结果。标注结果将以json格式保存到本地。如果用户认为后台的分词不准确,可以根据案例文本在下方输入框手动添加标记。

7hehgH.png

7hef8e.png

7ssyk9.png

  • 同时,前端会显示后端基于hanlp和反馈学习的自动化标注结果,并展示词云可视化结果,供用户参考

7ssdyT.png

7ssDw4.png

7ssBmF.png

7ssrTJ.png

开发者

刘心怡、彭俊植、郑周斌(按姓名拼音排序)

©南京大学软件学院