/data-analysis

DataFrame Configuration, Statistical Analysis

Primary LanguageJupyter Notebook

데이터 분석


⚒ Stacks

Python Jupyter Notebook selenium beautifulsoup

numpy pandas seaborn matplotlib


🎬 기본 영화 데이터 수집

  • KOBIS에서 기본적인 영화 데이터를 스크래핑 수행
  • 17~20년도, 총 4개년에서 개봉한 영화 중 누적 관람객수 상위 50개의 영화를 선정

Features

name desc
movie_name 영화의 제목
release 영화의 개봉일
take 영화의 총 매출액
audience 영화의 총 누적 관람객수
nation 영화가 제작된 나라
distribution_company 영화의 배급사 리스트
code KOBIS 내의 영화 코드
genre 영화의 장르
kind 영화의 종류
scale 영화의 스케일
running_time 영화의 상영 시간
age 영화의 연령 제한
actor 영화의 주연 배우 리스트

Code

file name desc
KOBIS_Webscraping.ipynb KOBIS 웹 사이트에서 기본적인 영화 데이터를 스크래핑
DF_Configuration.ipynb 영화 데이터와 바이럴 데이터를 통합 및 정제

💪 배우 영향력 계산

  • 주연 배우의 경우 기본 영화 데이터에서 수집된 형태는 리스트
  • 리스트 자체로 데이터를 사용할 수 없기 때문에 데이터의 변환이 필요함
  • 관람객수 예측을 주제로한 많은 논문을 참고하여 "해당 영화의 주연 배우 2명이 3년간 주연으로 출연한 영화의 누적 관람객 수 평균"을 사용

Code

file name desc
actor_power.ipynb 1. 기준으로 하는 영화에서 주연 배우 2명가 주연으로 출연한 영화 데이터를 모두 스크래핑
2. 기준으로 하는 영화 개봉일 기준으로 이전 3년간 출연한 배우 2명의 누적 관람객수 평균 계산

🔥 EDA

Features Selection

name desc selected reason
movie_name 영화명
release 개봉일 모델링 할 때 제외
take 수익(매출액) 종속 변수로 사용될 수도 있음
audience 관객수
nation 대표국가
distribution_company 배급사
code KOBIS 기준 영화 코드
genre 장르
kind 영화종류 (일반영화/예술영화/예술,독립영화) 대부분 일반영화(94개 중 91개)
scale 장편/단편 모두 장편
running_time 상영시간
age 연령
actor 주연배우 actor power로 데이터 변환
youtube_comment_count 영화 관련 유튜브 컨텐츠 댓글 수
youtube_view_sum 영화 관련 유튜브 컨텐츠 조회수 합
youtube_view_mean 영화 관련 유튜브 컨텐츠 조회수 평균
mean_score 댓글감성분석 score 평균 평균/제곱합평균/절댒값평균 중 선택
sqr_mean_score 댓글감성분석 score 제곱 평균 평균/제곱합평균/절댒값평균 중 선택
abs_mean_score 댓글감성분석 score 절댓값 평균
actor_power 주연배우 2명의 영화 이전 3년간 영화 관객수 평균

data transformation

  1. 관람객 수, Log transformation

    image image

  2. 조회수 평균, Log transformation

    image image

  3. 댓글 수, Sqrt transformation

    image image

  4. 배우 영향력, Sqrt transformation

    image image

  5. 감성 점수 절댓값 평균, Sqrt transformation

    image image