/Curse-detection-data

문장의 욕설 여부를 분류한 한글 데이터셋입니다.

MIT LicenseMIT

욕설 감지 데이터셋

문장의 욕설 여부를 분류한 한글 데이터셋입니다.

데이터

일간베스트(일베), 오늘의 유머와 같은 각종 커뮤니티 사이트의 댓글에 대해 총 5,825문장을 분류했습니다.

수직선 기호( | )를 기준으로 좌측에는 댓글 내용, 우측에는 욕설 여부(0,1)가 기록되어 있습니다.

분류 기준

분류 기준은 다음과 같습니다.

단순 욕설, 인종 차별적인 말, 정치적 갈등을 조장하는 말, 성적·성차별적인 말, 타인을 비하하는 말, 그 외에 불쾌감을 주거나 욕설로 판단되는 말

  • 일베에서 흔히 말 끝에 '-노'를 붙이는 것은 고 노무현 대통령을 희화화하기 위한 의도이므로 욕설로 봐야 하지만 경상도 사투리 '-노'와 구분하기 어렵다는 점에서 다른 욕설 없이 '-노'만 붙인 문장들은 욕설로 분류하지 않았습니다.

  • '존맛', '개이득' 등의 말은 비속어를 포함하고 있으므로 욕설이라 볼 수 있으나 최근에는 강조의 의미로 흔히 쓰이고 있으므로 악의가 없는 단순 강조의 의미로 쓰였다고 판단될 경우 욕설로 분류하지 않았습니다.

  • 상황에 따라 욕일 수도 있고, 아닐 수도 있는 댓글은 최대한 비욕설로 구분했습니다.