전북대학교 통계학과 빅데이터 분석 경진대회(2회), 우수상
자세한 내용은 ppt 참고바랍니다!
코로나 데이터를 분석하는 문제.
'감정'에 초점을 맞추어 문제 분석 및 해결방안을 제시
코로나 누적 확진자수와 월별 온라인 카드 소비 / 월별 자살자수와 월별 온라인 카드 소비가 매우 높은 상관관계를 보임
-
언론에서의 부정적 단어들은 수용자들에게 부정적 감정을 일으킨다.
-
코로나 이전에 비해 부정적 기사가 1.73배 증가했다.
감정소비와 우울증에 관한 대책마련 필요성을 느낌
- 코로나19 관련 기사를 분류
- 기사의 긍·부정을 분류
- 긍·부정적 기사의 노출 순서를 조절
- 데이터는 공공데이터 포털에서 제공하는 뉴스 빅데이터를 전처리하여 사용
- 분류모델은 BERT 사용
- 각 분야별 뉴스 6800개와 코로나 관련 기사 4000개를 훈련자료로 사용
- KNU 감성사전을 이용하여 부정어 구축
- Train 데이터 긍·부정 분류, 라벨링 후 학습
- 정확도를 말할 때 imbalance 함을 명시.
- 상관관계 말고 causality 분석했으면 더 좋았을 듯