Storyline Generation Model based on KoGPT2
한국어 사전학습 언어모델인 KoGPT2를 기반으로 한 스토리라인 생성 모델입니다.
사전학습모델은 SKTAI의 KoGPT2를 사용하였습니다. (https://github.com/SKT-AI/KoGPT2)
위 그림과 같이 장르 정보를 받고 그에 맞는 스토리 라인을 출력하도록 설계하였습니다.
먼저, Github 저장소를 본인의 디렉토리에 받아주세요.
$git clone https://github.com/jucho2725/KoGPT2_storyline_generation.git
필수 패키지를 설치하기 위해 다음을 실행해주세요.
패키지의 버젼이 적힌 것과 다를시 다양한 오류가 발생할 수 있습니다.
$pip install -r requirements.txt
학습하기 위한 간단한 예제입니다.
$python train.py --data_path your_file
자세한 arguments 는 $python train.py -h
를 통해 확인해주세요.
모델에서 학습에 사용된 데이터는 네이버 영화 줄거리이며, 크롤링한 데이터 중 장르 정보가 있는 데이터 약 4만7천여 건입니다.
훈련된 모델로 텍스트를 생성하기 위해선 inference.py
를 실행해주세요
$python inference.py
훈련된 모델은 데모 페이지 링크에서 확인해볼 수 있습니다. (http://115.145.173.133:1994/)
링크에서 'Ver2. KoGPT2-Storyline' 모델을 확인해주세요
(주의: 언제든 데모 페이지 사용이 종료될 수 있습니다.)
Transformers 에서 데이터 생성 후처리를 위해 generation 관련 util 들을 수정했습니다. modeling_utils.py
의 generation 함수에서 확인 가능합니다.
데이터셋 수집: 이정훈 (https://github.com/vhrehfdl) 모델 설계 및 구현: 조진욱
관련된 문의는 cju2725@gmail.com 으로 부탁드립니다.
“이 기술은 과학기술정보통신부 및 정보통신기획평가원의 인공지능핵심인재양성사업(인공지능대학원지원(성균관대학교), No.2019-0-00421)의 연구결과로 개발한 결과물입니다.”