빅데이터를 활용한 영화 흥행 예측

기존 영화 예측 모델에 새로운 변수를 추가

기존 변수

배우, 감독, 장르, 배급사, 평점, 국적, 관람등급, 배우, 흥행요인 등등 

새로운 변수

영화 포스터 [인물 수, 색감 등]
개봉 후 날씨 및 기온
연휴 수
개봉 전 후 일주일 간의 경쟁작

모델링

1. Random forest

2. Random forest CV [과적합 방지]

3. Boosting CV

4. XGBoost CV

모델 적용 결과

사용 Tool

  • 데이터 크롤링 [Selenium] [github link]

    pip install selenium
    
  • R Script

참조 링크

영화 진흥 위원회

  1. 영화진흥위원회

  2. 영화 DB 검색

  3. 영화 연도별 월별 공식 통계

  4. 박스오피스 월간 순위

  5. IPTV, VOD 순위 [월별]

참조 기사