ko-alpaca 1.0 데이터셋 관련 문의

Question

Closed this issue 7 months ago · 1 comments

안녕하세요, 번역해주신 데이터셋 감사히 잘 사용하고 있습니다!

다름이 아니라, 원본 영어 데이터셋과 한국어 데이터셋 pair를 짓고자 하는데,

두 데이터셋의 사이즈가 다른 문제가 있습니다.

한국어 데이터셋이 약 3천개 정도 부족한데,

혹시 그 이유와, 올바르게 pair 짓는 방법을 알려주실 수 있을까요?

예를 들면 번역하실 때 사용하신 raw number나 index라도 있으면 좋을 것 같습니다.

감사합니다!

Answer 1 · 2024-05-30T06:05:41.000Z

안녕하세요.

번역시 일부 잘리는 부분 데이터가 있어 수량이 맞지 않습니다.

데이터 제작시에 id값을 잃어버려서 현재로는 1:1 매칭이 어렵습니다.