ko-alpaca 1.0 데이터셋 관련 문의
Closed this issue · 1 comments
JH-lee95 commented
안녕하세요, 번역해주신 데이터셋 감사히 잘 사용하고 있습니다!
다름이 아니라, 원본 영어 데이터셋과 한국어 데이터셋 pair를 짓고자 하는데,
두 데이터셋의 사이즈가 다른 문제가 있습니다.
한국어 데이터셋이 약 3천개 정도 부족한데,
혹시 그 이유와, 올바르게 pair 짓는 방법을 알려주실 수 있을까요?
예를 들면 번역하실 때 사용하신 raw number나 index라도 있으면 좋을 것 같습니다.
감사합니다!
Beomi commented
안녕하세요.
번역시 일부 잘리는 부분 데이터가 있어 수량이 맞지 않습니다.
데이터 제작시에 id값을 잃어버려서 현재로는 1:1 매칭이 어렵습니다.