Data annotation

Members

김한성	염성현	이재욱	최동민	홍인희

Github	Github	Github	Github	Github

Wrap up report

project report 바로가기

프로젝트 개요

본 대회에서 제공받은 데이터는 대학 데이터셋입니다. 이번 대회에 더 몰입하기 위해 제공 받은 데이터와 추가로 크롤링한 데이터를 바탕으로 대학에서 배울 수 있는 학문 데이터 셋을 구축했습니다.

자연어처리를 통해 대학 학문 관계 그래프를 만드는 이유는 대학에서 배우는 여러 학문에 대한 구분이 명확하지 않다고 판단했기 때문입니다. 기존 분류에 대한 의견 및 이론 정립은 자주 나왔음에도 불구하고 많은 학생들이 여전히 명확한 구분을 하지 못하고 있습니다. 대량의 정보량을 토대로 자연어 학습을 하게 된다면 ‘실제로 쓰이는 바’를 토대로 지식그래프를 구축할 수 있게 됩니다.

대학에서 배울 수 있는 학문들의 관계를 추출하고자 하는 연구자 분들에게 도움이 될 것이고 이외 학문에 대한 지식 그래프 및 유관 분야 소개 등으로의 확장 또한 가능할 것입니다.

프로젝트 절차 (22/12/5 ~ 22/12/15)

문장 추출 및 관계 brainstorming
relation set 기반 pilot tagging
relation map 및 가이드라인 작성
main tagging
데이터 제작의 신뢰성 확인 IAA
- IAA : 0.88
이전 대회 비교를 통한 성능 비교(f1-score)
- baseline : 54.45
- rbert : 83.417
제작한 데이터를 통한 지식그래프 구축
- networkx, pyvis를 통한 지식 그래프 구축

지식 그래프 구축 예시

Type별 시각화

Word별 시각화

for_Data Project/
│
├── calculate_IAA/ 
│   ├── calculate_IAA.ipynb
│   └── 수정후_relation.xlsx
│
│
├── notebook/ - for some_test
│   ├── json_pd.ipynb
│   └── network.ipynb
│
│
├── rbert/ - for further reading
│   ├── ...
│   └── model for some code check more detail..
│
│
├── src/ - for some visualization
│   ├── ...
│   └── some html ... png
│
│
├── config/ - abstract all config for each model
│   ├── config : for binary
│   ├── config_for_per
│   └── config_for_org
│
├── data/ 새로 추출한 데이터 
|
├── .gitignore
├── load_data.py
├── train.py
├── data_aug.py
├── README.md
│
│  
└── thanks for comming I'm Yeombora