Beomi/KcELECTRA

vocab.txt 관련하여 질문 드립니다.

upskyy opened this issue · 1 comments

안녕하세요!

좋은 repo 공개해주셔서 정말 감사드립니다.
vocab.txt 관련하여 궁금한 점이 생겨 이슈 올리게 되었습니다.

repo에는 Vocab Size가 30000이고 한자를 제외하셨다고 되어있는데,
huggingface.co에서 vocab.txt를 다운받아 확인해보니 50135개이고 한자도 조금 포함되어있는 것을 알 수 있었습니다.

혹시 어떤 vocab으로 진행하신 것인지 알 수 있을까요? 또한 차이가 왜 발생한건지 조금 궁금합니다.

답변 주시면 감사하겠습니다 : )

Beomi commented
그 중 BertWordPieceTokenizer 를 이용해 학습을 진행했고, Vocab Size는 30000으로 진행했습니다.
Tokenizer를 학습하는 것에는 전체 데이터를 통해 학습을 진행했고, 모델의 General Downstream task에 대응하기 위해 KoELECTRA에서 사용한 Vocab을 겹치지 않는 부분을 추가로 넣어주었습니다. (실제로 두 모델이 겹치는 부분은 약 5000토큰이었습니다.)

학습 데이터에서 3만개 생성 + KoELECTRA에서 토큰 가져옴 = 약5만개 입니다 :)