시립대학교 IDB Lab
2023.06.01 ~ 2023.12.31 기간의 인턴 업무 기록입니다.
- 약 6달(2023.07.01 ~ 2023.12.20)
- 영어 교재 제작 보조용 언어 모델 학습에 참여
- 교과서 및 평가원 문제들을 pandas를 활용해 전처리하고, 이를 통해 instruction tuning dataset 제작
- 분류 테스트 과제(Tips)를 수행하기 위해 모델을 학습하고 비교 평가를 수행
- 언어모델을 Hugging Face의 PEFT(Parameter Efficient Tuning) 방법을 사용하여 튜닝
- GPT-4.0 API와 프롬프트 튜닝한 모델의 multi-label(17 class) 분류 정확도를 비교
- 약 6주(2023.10.16 ~ 2023.11.31)
- 설문조사 응답 데이터를 언어 모델에 적용해보려는 연구 과제
- BERT, SentenceTransformer, MentalBERT 모델을 사용하여 설문 결과를 예측(분류 성능으로 평가)
- 모델 학습 후 설문조사 질문별로 언어 모델 예측치에 영향을 주는 기여도 분석(Top-N 비교, t-SNE 작성)
- GPU 메모리 제한(OOM)의 한계를 극복하기 위해, PEFT의 LoRA(Low-Rank Adaptation) 방법과 유사하게 학습 진행