/2023-2-PSAT-team-timeseries

판례 데이터 기반 고소 확률 예측 서비스

Primary LanguageJupyter Notebook

2023-2-PSAT-team-timeseries

2023년 2학기 성균관대학교 통계분석학회 P-SAT 시계열자료분석팀 주제분석

💻 프로젝트 소개

<판례 데이터 기반 고소 확률 예측 서비스> 최근 사회적으로 문제가 되고 있는 악성 댓글을 해결하기 위한 프로젝트입니다! 네이버와 카카오의 악성 댓글 대응방식을 분석해 AI 필터링 서비스의 장점을 활용하면서도 기존 방식의 단점을 보완할 수 있는 방법을 고안하였습니다😊

판례 데이터로부터 추출한 댓글과 발언은 1로, 온라인 구어체 말뭉치에서 추출한 일반 댓글은 2로 라벨링하여 고소 예측 모델링을 진행하였습니다.

본 서비스 모델의 핵심 기능은 3가지로, 댓글의 고소 확률 제공, 욕설 또는 비방의 목적을 가진 표현 감지, 고소 확률 확인 횟수 제한입니다. 해당 기능들을 통해 표현의 자유를 보장하면서 작성자 스스로 악플을 작성하지 않도록 유도하는 동시에 횟수 제한을 통해 악용 가능성까지 차단하였습니다.

  • 활용 데이터: 판례 데이터, 온라인 구어체 말뭉치, 감성 말뭉치 데이터
  • 데이터 출처: 로앤비, AI HUB

개발 기간: 23.10.25 ~ 23.11.17

❤️ 팀 구성 및 역할

  • 장다연(팀장): 데이터 수집, 데이터 전처리, 텍스트 증강, KoBERT 감성분석, LRT 가설검정, 예측 확률값 Platt Scaling
  • 심현구: 주제 아이디어 제시, 데이터 수집, 데이터 전처리, glm 가설검정, DNN, CNN, KlueBERT+LGBM, SHAP, 예측 확률값 백분율 재조정
  • 윤세인: 데이터 수집, 데이터 전처리, 나이브베이즈, 로지스틱, 랜덤포레스트
  • 이동기: 데이터 수집, 데이터 전처리, KoBERT 감성분석, Bert 임베딩
  • 천예원: 데이터 수집, 데이터 전처리, KR-SBERT 유사도 계산, 욕설탐지 알고리즘, LIME, 파이프라이닝

🔍 분석 흐름

  1. 데이터 수집
  2. 데이터 전처리 (판례 필터링, 댓글 클렌징, 대조군 댓글 분야 선정 및 유사도 계산, 불용어 제거)
  3. 변수 생성 (year, length, KoBERT 감성분석, 욕설탐지)
  4. 변수 선택 및 모델 선정
  5. 고소 확률 예측 모델링
  6. 예측 결과 시각화 및 결과 분석

🎁 분석 결과

분석결과

🌟 기대효과

  1. 악플 생성량 감소
  2. 악플로 인한 불필요한 사회경제적 비용 감소
  3. 건전한 인터넷 문화 형성
  4. 시대 흐름을 반영한 사회문제 해결