/ott_subscription_exit_rate

ott 신규 가입자의 1달 뒤, 재 구독 여부를 분류한 모델입니다.

Primary LanguageJupyter Notebook

1. OTT 신규 가입 후, 이탈자 파악을 위한 재 구독 여부 분류 모델 구현

  • Member : 김경록
  • Status : Complete
  • Tag : Competition
  • 사용언어 / 핵심 라이브러리 : python(3.8) / Pandas, LightGBM

2. Why

OTT 플랫폼에 신규 가입한 구독자의 3주간의 시청 기록을 활용하여, 1개월 뒤 OTT 서비스를 다시 결제를 할 것인지를 사전 분류함.

3. Data

[그룹사 경진대회 데이터 제공] (데이터 외부 유출 금지 -> 미 업로드, 관련 결과 삭제)

4. 분석 방법

(a). Data Preprocessing

- EDA : 고객 결제 사항 + 시청 기록 데이터

- 변수 내 항목 간소화 : 결제 코드, 결제 등록 기기, 컨텐츠별 시청 기기

- 파생변수 생성 : 최신 컨텐츠 시청 기간 그룹화, 컨텐츠 길이 대비 시청 퍼센트, 결제 후 마지막 시청일자 gap 계산

- Data Reduction : 유저별 과도한 컨텐츠 시청 수 및 최신 컨텐츠 과다 시청 수 절삭

(b). Model & Algorithms

- LightGBM 1차, 2차 수행 --> 최적의 parameter 확인(gridsearch + 5-fold) --> 최적의 threshold 확인(5-fold)

- Xgboost, Randomforest 모델링 후, ensemble 수행 --> 예측률 저하로 최종 제외

(c). Report & Review

- 최종 등수 : 27등/248팀 (1등과 f1-score 0.01 차이)

- 긍정적 사항 : 컨텐츠 길이 대비 시청 퍼센트(시청 시간/컨텐츠 길이) 파생 변수 생성으로 모델 성능 향상

- 피드백 : 결제 후, 마지막 시청일자 gap 파생변수 영향도 << 주차별 시청 시간 증가/감소 여부

- Futher Research : 해당 주차 드라마/영화 순위(외부 데이터) 활용한 인기 콘텐츠 선호도,

+ (ott내 영화 추가 구매 여부, 코인 추가 거래 내역 등) 플랫폼 적극적 이용 수치 인사이트 개발 가능 예상

보러가기: ott 재구독 여부 분류 코드

문의 후, 보기 가능(private): ott 재구독 여부 실제 코드