/ilbe_comments_dataset

Building ilbe comment dataset using Word2vec

Primary LanguagePython

Hate Comments Dataset

ilbe 댓글 데이터를 이용한 혐오 데이터 셋

 

  • 원시 데이터 : 일베(일간베스트 저장소) 댓글 약 120만개

 

  • 훈련 및 테스트 :
   - 훈련 집합 (train set) : 구축된 데이터 셋 중 약 34만개의 문장 (None 22만개, Hate 12만개)
    

   - 테스트 집합 (test set) : 구축된 데이터 셋 중 약 38000개의 문장 (None 25000개, Hate 13000개)
   
   
   - 정확도 : 약 75%

 

  • 데이터 셋 구축 방법 : Dataset_building.py 파일 및 논문 참고

 

  • 구성 파일:  

    - word2vec_model.zip : ilbe 댓글의 nouns만 추출하여 학습한 Word2vec 모델
    	(Vector_size = 300, window = 5, Min_count = 3, sg = 0, epochs = 100)
    	
    	
    - Dataset_building.py : 데이터 셋 구축 파일
    
    
    - ilbe_comments_None+Hate.txt : ilbe 댓글에 대해 Hate와 None으로 label된 파일
    
    
    - data/train.dat, data/test.dat : SVM 분류기 실험에 사용된 train set과 test set