팀 단위의 프로젝트인만큼 최대한 다양한 시도를 분업하여 서로의 내용이 겹치지 않도록 진행하였습니다. 이때 업무를 정확한 기준으로 구분하기보다 모두가 자유롭게 EDA부터 전처리, 모델 실험, 모델 튜닝까지 end-to-end로 경험하는 것을 목표로 협업하였습니다. ‘하나에 꽂히면 끝까지 판다’는 공통점을 가진 저희 팀원들의 강한 책임감과 아이디어를 향한 끈질긴(?) 애정 덕분에 성공적으로 프로젝트를 마무리할 수 있었습니다.
👼Member's role
Member
Role
김동현
EDA(데이터 셋 특성 분석), 데이터 증강(back translation), 모델링 및 튜닝(Bert, Roberta, Albert, SBERT, WandB)
김유민
EDA(label-pred 분포 분석), 데이터 증강(back translation/nnp_sl_masking/어순도치/단순복제), 모델 튜닝(roberta-large, kr-electra-discriminator)
박산야
EDA(label 분포 및 문장 길이 분석), 데이터 증강(sentence swap), 모델링 및 튜닝(KoSimCSE-roberta, 해당 모델 기반 Siamese Network 적용 모델)
이종원
EDA(label 분포 분석, label-pred 분포 분석), 데이터 전처리(hanspell), 데이터 증강(/swap sentence/copied sentence/SR/random masking), 모델 튜닝(roberta-large, electra-kor-base, kr-electra-discriminator), 앙상블(soft voting, weight voting), 코드 리팩토링
황기중
데이터 전처리(띄어쓰기 통일), 데이터 증강(부사/고유명사 제거 Augmentation), 모델링(KoSimCSE-roberta), 앙상블(variance-based ensemble)
황예원
모델링 및 튜닝(RoBERTa, T5, SBERT), 모델 경량화(Roberta-large with deepspeed)
🏃Project process
🖥️ Project Introduction
개요
Description
프로젝트 주제
STS(Semantic Text Similarity) : 두 문장의 유사도 정도를 수치로 추론하는 Task
프로젝트 목표
두 문장(sentence1, sentence2)이 주어졌을 때, 이 두 문장의 유사도를 0~5사이의 점수로 추론한는 AI 모델 제작.
프로젝트 평가지표
실제 값과 예측값의 피어슨 상관 계수(Pearson Correlation Coefficient)
개발 환경
GPU : Tesla V100 Server 6대, IDE : Vscode, Jupyter Notebook
협업 환경
Notion(진행 상황 공유), Figma(진행 상황 시각화 공유), Github(코드 및 데이터 공유), Slack(실시간 소통)
📅Project TimeLine
프로젝트는 2023-12-11 ~ 2023 12-21 약 11일간 진행되었습니다.
🕵️What we did
프로젝트를 진행하며 단계별로 실험해 보고 적용해 본 내용들은 아래와 같습니다.
Process
What we did
EDA
데이터 분포 분석, Baseline 모델 예측과 실제값 차이 분석
Preprocessing
emotion normalize, repeat normalize, 특수문자 제거, 영어 소문자 처리, hanspell(맞춤법검사)
Augmentation
SR(Synonym Replacement), Swap Sentence, Copied Sentence, NNP, SL Masking, Back Translation, 어순 도치, 단순 복제