나무위키 덤프를 읽어와서 각 문장마다 혐오발언인지 체크하고 DB에 넣는 스크립트
폴더 안에 namu.json으로 나무위키의 덤프파일을 집어넣으세요. 구조는 일단 최신 덤프와 맞춰 놓음
maxprocess : 총 프로세스 수, 너무 많으면 out of memory 걸림. cuda 가능하면 TextClassificationPipeline의 device를 수정하시오.
transformers, sqlalchemy, ijson, kss
https://github.com/sgunderscore/hatescore-korean-hate-speech/
- 태그 스트립
- 좀 더 분석하기 편한 형태로 넣기