mjkmain/BOK-VQA

Data: data ID mismatch (.csv <- > AI HUB)

Closed this issue · 2 comments

BOKVQA_data_*.csv와 img_ID와 AI-HUB에서 가져왔던 img_ID가 불일치 하여 load가 불가능합니다.

ex) BOKVQA_data_ko.csv 파일에는 ID 번호로 110101320220620112316.jpg가 존재하지만 AI-HUB에서 가져온 이미지 파일에는 110101320220620112316.jpg 이미지가 존재하지 않습니다.

따라서, 아래의 두 가지를 요청을 드리고 싶습니다.

  1. 실제 논문에서 훈련 시에 사용하였던 이미지 파일 데이터를 얻을 수 있을까요?

  2. 본 논문에서는 17836개의 이미지가 사용되었는데 현재 ai hub에서는 약 50000개 이상의 이미지 데이터가 존재하는데 이는 논문에 사용할 데이터는 ai hub에서 제공된 데이터를 추출하여 훈련을 진행한 것인지 여쭙고 싶습니다.

감사합니다.

안녕하세요, 저희 BOK-VQA 데이터에 관심을 가져주셔서 감사드립니다.

본 논문 작성과 데이터 구축이 동시에 진행되었습니다. 따라서 최종적으로 AI-hub에 업로드된 데이터셋과 본 논문에서 활용한 데이터셋은 다른 버전으로 구성되어 있습니다. 혼란을 드려 죄송한 마음을 전합니다.

  1. 실제 논문에서 훈련 시에 사용하였던 이미지 파일 데이터를 얻을 수 있을까요?

본 레포지토리의 readme 부분에 이미지 파일이 있는 G-drive 링크를 업로드했습니다.

  1. 본 논문에서는 17836개의 이미지가 사용되었는데 현재 ai hub에서는 약 50000개 이상의 이미지 데이터가 존재하는데 이는 논문에 사용할 데이터는 ai hub에서 제공된 데이터를 추출하여 훈련을 진행한 것인지 여쭙고 싶습니다.

해당 논문에서는 AI-hub에 업로드된 "외부지식기반 멀티모달 질의응답 데이터셋"에서 외부 지식이 "triple"로 구성된 데이터를 추출하여 활용했습니다. 언급한 바와 같이, 데이터 구축과 논문 작성이 병행으로 진행되었기 때문에 AI-hub의 데이터셋과 업로드된 데이터셋이 외부 지식을 구성하고 있는 언어 또한 다르다는 점 참고 바랍니다.

감사합니다.

답변 감사합니다 :)