/KoBertSum

KoBertSum은 BertSum모델을 한국어 데이터에 적용할 수 있도록 수정한 한국어 요약 모델입니다.

Primary LanguageJupyter NotebookMIT LicenseMIT

KoBertSum

Text Summarization 모델을 구현하는데 관심이 많아 uoneway님의 KoBertSum 레포를 포크해 활용한 기록을 담았습니다.

  1. KoBertSum을 활용해 dacon 에서 진행된 "훈민정음에 스며들다"-문서요약 역량평가(링크)에 참여했습니다.
    • 팀명: 자연강양제 (전체 35위/99팀)
    • 스코어: ROUGE_1 (0.43593), ROUGE_2 (0.26948), ROUGE_L (0.36673)
    • 위 대회에서 기존 코드를 일부 변경하여 활용한 내용을 "dacon_hunmin" 폴더에 공유합니다. 변경 내용은 make_data.py 에서 jsonl 이 아닌 csv 로부터 dataframe을 생성하는 코드, original_sents_list 에서 preprocessing을 하는 코드입니다.
    • 그 외 submission 코드 등은 기타 상황에 따라 수정해주었으나 위의 내용만 공유합니다. make_data.py 에서 bert 모델에 입력하기 위한 전처리 과정이 대회에서 중요한 부분이었기 때문입니다.
    • dacon_hunmin.ipynb 파일은 대회에서 제공된 데이터셋을 전처리하고, KoBertSum 모델 fine-tuning한 코드 과정을 기록했습니다. 전체 데이터셋을 fine-tuning 하기에는 코랩 무료버전으로 감당이 되지 않아 일부만 학습했다는 아쉬움이 남습니다.