Text Summarization 모델을 구현하는데 관심이 많아 uoneway님의 KoBertSum 레포를 포크해 활용한 기록을 담았습니다.
- KoBertSum을 활용해 dacon 에서 진행된 "훈민정음에 스며들다"-문서요약 역량평가(링크)에 참여했습니다.
- 팀명: 자연강양제 (전체 35위/99팀)
- 스코어: ROUGE_1 (0.43593), ROUGE_2 (0.26948), ROUGE_L (0.36673)
- 위 대회에서 기존 코드를 일부 변경하여 활용한 내용을 "dacon_hunmin" 폴더에 공유합니다. 변경 내용은 make_data.py 에서 jsonl 이 아닌 csv 로부터 dataframe을 생성하는 코드, original_sents_list 에서 preprocessing을 하는 코드입니다.
- 그 외 submission 코드 등은 기타 상황에 따라 수정해주었으나 위의 내용만 공유합니다. make_data.py 에서 bert 모델에 입력하기 위한 전처리 과정이 대회에서 중요한 부분이었기 때문입니다.
- dacon_hunmin.ipynb 파일은 대회에서 제공된 데이터셋을 전처리하고, KoBertSum 모델 fine-tuning한 코드 과정을 기록했습니다. 전체 데이터셋을 fine-tuning 하기에는 코랩 무료버전으로 감당이 되지 않아 일부만 학습했다는 아쉬움이 남습니다.