/kmdb_topics

Primary LanguageJupyter Notebook

Topic Model을 이용한 한국고전영화 추천 시스템

2018년 11월 26일

개요

한국영상자료원이 운영하는 한국영화데이터베이스(KMDb)에서 최근 한국고전영화 VOD 서비스를 전면 무료로 전환했다. 하지만 90년대 이전에 제작된 한국영화는 젊은 이용자들에게는 낯설다. 일부 영화의 상세정보에는 영자원의 관리자에 의한 키워드, 장르 정보가 제공되며 전문가들이 정리한 시놉시스도 제공된다. 이를 이용해 아이템 중심의 추천시스템을 개발한다면 이용자들이 더 용이하게 작품을 브라우징할 수 있어 접근성이 증대될 것으로 예상된다. 아직 영화에 대한 이용자들의 평점 정보가 없는 상황에서 영화상세정보의 키워드, 장르, 시놉시스를 Topic Model로 분석, 유사한 소재와 주제를 가진 영화들을 묶어 추천해줄 수 있을 것이다.

목표

  1. 1999년 이전에 한국에서 제작된 극영화, 애니메이션, 다큐멘터리 영화의 상세정보를 KMDb 영화상세정보 API로 수집, 잠재 디리클레 할당(LDA)으로 내용적으로 관련이 있는 영화를 묶어줄 topic을 추출한다.

  2. 특정 고전영화의 영화제목과 개봉년도를 “{영화제목}, {개봉년도}” 의 형식으로 입력 받아 같은 topic을 가진 고전영화 10개의 간략한 정보와 vod 서비스 링크를 출력한다.

데이터 설명

1999년 이전에 한국에서 제작된 극영화, 애니메이션, 다큐멘터리 영화 6504편의 영화 상세정보.

  • 데이터 수
극영화 애니메이션 다큐멘터리 총계
5860 363 281 6504
  • 변수
변수명 설명 데이터형
movieId 영화 고유 Id 한 자리 문자열 (ex. ‘A’, ‘K’)
movieSeq 등록Seq (Id와 결합되는 고유값) 숫자로 이루어진 5자리 문자열
title 제목 문자열
year 제작년도 정수
genre 장르 문자열
keywords 키워드 문자열
genre 장르 문자열
plot 줄거리 문자열

마일스톤

1. KMDb 영화상세정보 API를 이용한 데이터 수집 (11.04 ~ 11.21)

JSON 출력값을 불러오는 API를 이용해 총 6504편의 영화 상세정보를 수집.

2. 잠재 디리클레 할당(LDA) 방식을 이용한 topic 추출 (11.25 ~)

가장 정확하게 유관한 영화들을 묶어줄 최적의 topic수를 탐색.

topic 수에 따른 모델의 성적

topic 별 주요단어

2차원으로 나타낸 토픽 별 영화의 분포

3. 입력값을 받아 관련 topic을 가진 영화 10개를 출력

영화의 줄거리, 장르, 키워드 안에 내재되어있을 것으로 예상되는 토픽들의 할당 확률이 유사한 두 영화는 주제적으로 유사하다고 가정, 할당 확률을 코사인 유사도로 유사성을 평가해 가장 유사한 10개의 영화를 출력해 보여준다.

flask 웹 게시

준비 중