Melon chart manipulation classifier

딥러닝(BERT) 기반 멜론 음원 사재기 판별 시스템

Yonsei Univ. Data Science Lab 21-1 모델링 프로젝트

2.2021 ~ 3.2021

4기 서기원, 4기 호은재, 5기 김현준, 5기 류세화

"" 왜 내가 모르는 가수가 멜론 차트 1위를 하는걸까? ""

음원 사재기란, 브로커에게 일정 금액의 돈을 지불한 뒤, 특정 가수의 특정 음원을 연속 재생하여 음악 순위 목록 및 실시간 스트리밍 순위 등을 조작하는 행위입니다. 스트리밍 서비스 사용자의 이용료가 듣는 음원의 아티스트에게 돌아가지 않는다는 점, 차트 형평성에 있어 큰 문제로 화두되었습니다. 이어 2019년 가을 가수 박0씨의 트위터 글과 2020년 1월 그것이 알고싶다의 음원 사재기 폭로로 본격적인 수사 착수에 들어섰고, 현재까지도 음원 사재기 현상의 존재 여부에 대한 논란은 계속되고 있습니다. (음원 사재기 논란 더 알아보기)

저희는 음원 사재기 의혹이 가장 컸던 국내 최대 규모의 스트리밍 사이트인 멜론의 곡 리뷰 분석을 통해 곡의 사재기 여부를 판단하는 모델을 만들어보기로 하였습니다. 양방향 문장 정보를 활용하는 언어 이해 모델인 BERT와 KoBERT를 사용하여 분석을 진행했습니다.

해당 프로젝트는 딥러닝 모델 학습에 의한 결과 제시 및 모델의 정확도 비교분석의 목적을 가지고 있으며, 언급된 가수와 곡들에 대한 사재기 단언이 아님을 강조합니다.

데이터 수집 및 전처리

Training Data: 꾸준히 논란이 되었던 사재기 의혹 가수 5인의 멜론 앨범 리뷰 데이터 2000개 + 사재기 의혹이 없는 가수 4인의 멜론 앨범 리뷰 데이터 2000개를 추천순으로 크롤링하여 각 리뷰들이 사재기 의혹을 제기한다면 1, 사재기에 무관한 리뷰/사재기가 아니라고 말하는 리뷰를 0으로 라벨링하였습니다. 트레이닝의 정확도를 높이기 위해 리뷰 데이터에 한해 초성치환(ㄴㄱ -> 누구, ㄹㅇ -> 진짜 등), 이모티콘 삭제, 스팸성/도배성 리뷰 제거, 리뷰 길이 제한 등의 전처리 과정을 거쳤습니다.

Test Data: 멜론 2019년 연간차트의 1~20위 곡의 각 100개 리뷰를 크롤링 하여 훈련시킨 BERT, KoBERT 모델을 적용시켜 사재기 판별을 진행했습니다. Training Data에서 거친 전처리 과정을 동일하게 진행했습니다. 곡 당 1로 레이블링 된 리뷰의 수가 50개 이상이면 사재기로 판단하였습니다.