- 원시 데이터 : 일베(일간베스트 저장소) 댓글 약 120만개
- 훈련 및 테스트 :
- 훈련 집합 (train set) : 구축된 데이터 셋 중 약 34만개의 문장 (None 22만개, Hate 12만개)
- 테스트 집합 (test set) : 구축된 데이터 셋 중 약 38000개의 문장 (None 25000개, Hate 13000개)
- 정확도 : 약 75%
- 데이터 셋 구축 방법 :
Dataset_building.py
파일 및 논문 참고
-
구성 파일:
- word2vec_model.zip : ilbe 댓글의 nouns만 추출하여 학습한 Word2vec 모델 (Vector_size = 300, window = 5, Min_count = 3, sg = 0, epochs = 100) - Dataset_building.py : 데이터 셋 구축 파일 - ilbe_comments_None+Hate.txt : ilbe 댓글에 대해 Hate와 None으로 label된 파일 - data/train.dat, data/test.dat : SVM 분류기 실험에 사용된 train set과 test set