Topic Model을 이용한 한국고전영화 추천 시스템
2018년 11월 26일
한국영상자료원이 운영하는 한국영화데이터베이스(KMDb)에서 최근 한국고전영화 VOD 서비스를 전면 무료로 전환했다. 하지만 90년대 이전에 제작된 한국영화는 젊은 이용자들에게는 낯설다. 일부 영화의 상세정보에는 영자원의 관리자에 의한 키워드, 장르 정보가 제공되며 전문가들이 정리한 시놉시스도 제공된다. 이를 이용해 아이템 중심의 추천시스템을 개발한다면 이용자들이 더 용이하게 작품을 브라우징할 수 있어 접근성이 증대될 것으로 예상된다. 아직 영화에 대한 이용자들의 평점 정보가 없는 상황에서 영화상세정보의 키워드, 장르, 시놉시스를 Topic Model로 분석, 유사한 소재와 주제를 가진 영화들을 묶어 추천해줄 수 있을 것이다.
-
1999년 이전에 한국에서 제작된 극영화, 애니메이션, 다큐멘터리 영화의 상세정보를 KMDb 영화상세정보 API로 수집, 잠재 디리클레 할당(LDA)으로 내용적으로 관련이 있는 영화를 묶어줄 topic을 추출한다.
-
특정 고전영화의 영화제목과 개봉년도를 “{영화제목}, {개봉년도}” 의 형식으로 입력 받아 같은 topic을 가진 고전영화 10개의 간략한 정보와 vod 서비스 링크를 출력한다.
1999년 이전에 한국에서 제작된 극영화, 애니메이션, 다큐멘터리 영화 6504편의 영화 상세정보.
- 데이터 수
극영화 | 애니메이션 | 다큐멘터리 | 총계 |
---|---|---|---|
5860 | 363 | 281 | 6504 |
- 변수
변수명 | 설명 | 데이터형 |
---|---|---|
movieId | 영화 고유 Id | 한 자리 문자열 (ex. ‘A’, ‘K’) |
movieSeq | 등록Seq (Id와 결합되는 고유값) | 숫자로 이루어진 5자리 문자열 |
title | 제목 | 문자열 |
year | 제작년도 | 정수 |
genre | 장르 | 문자열 |
keywords | 키워드 | 문자열 |
genre | 장르 | 문자열 |
plot | 줄거리 | 문자열 |
JSON 출력값을 불러오는 API를 이용해 총 6504편의 영화 상세정보를 수집.
가장 정확하게 유관한 영화들을 묶어줄 최적의 topic수를 탐색.
topic 별 주요단어
2차원으로 나타낸 토픽 별 영화의 분포
영화의 줄거리, 장르, 키워드 안에 내재되어있을 것으로 예상되는 토픽들의 할당 확률이 유사한 두 영화는 주제적으로 유사하다고 가정, 할당 확률을 코사인 유사도로 유사성을 평가해 가장 유사한 10개의 영화를 출력해 보여준다.
준비 중