- Member : 김경록
- Status : Complete
- Tag : Competition
- 사용언어 / 핵심 라이브러리 : python(3.8) / Pandas, LightGBM
OTT 플랫폼에 신규 가입한 구독자의 3주간의 시청 기록을 활용하여, 1개월 뒤 OTT 서비스를 다시 결제를 할 것인지를 사전 분류함.
[그룹사 경진대회 데이터 제공] (데이터 외부 유출 금지 -> 미 업로드, 관련 결과 삭제)
(a). Data Preprocessing
- EDA : 고객 결제 사항 + 시청 기록 데이터
- 변수 내 항목 간소화 : 결제 코드, 결제 등록 기기, 컨텐츠별 시청 기기
- 파생변수 생성 : 최신 컨텐츠 시청 기간 그룹화, 컨텐츠 길이 대비 시청 퍼센트, 결제 후 마지막 시청일자 gap 계산
- Data Reduction : 유저별 과도한 컨텐츠 시청 수 및 최신 컨텐츠 과다 시청 수 절삭
(b). Model & Algorithms
- LightGBM 1차, 2차 수행 --> 최적의 parameter 확인(gridsearch + 5-fold) --> 최적의 threshold 확인(5-fold)
- Xgboost, Randomforest 모델링 후, ensemble 수행 --> 예측률 저하로 최종 제외
(c). Report & Review
- 최종 등수 : 27등/248팀 (1등과 f1-score 0.01 차이)
- 긍정적 사항 : 컨텐츠 길이 대비 시청 퍼센트(시청 시간/컨텐츠 길이) 파생 변수 생성으로 모델 성능 향상
- 피드백 : 결제 후, 마지막 시청일자 gap 파생변수 영향도 << 주차별 시청 시간 증가/감소 여부
- Futher Research : 해당 주차 드라마/영화 순위(외부 데이터) 활용한 인기 콘텐츠 선호도,
+ (ott내 영화 추가 구매 여부, 코인 추가 거래 내역 등) 플랫폼 적극적 이용 수치 인사이트 개발 가능 예상
보러가기: ott 재구독 여부 분류 코드
문의 후, 보기 가능(private): ott 재구독 여부 실제 코드