데이터셋

Question

2KangHo opened this issue 4 years ago · 5 comments

혹시 대회에서 학습 및 테스트에서 사용했던 데이터셋 공유 가능하신가요??

Answer 1 · 2020-08-28T06:08:54.000Z

안녕하세요. 기관에서 대회에 사용한 데이터를 차후 다른 대회 등에서도 활용할 수 있다고 생각하여 학습 및 테스트데이터는 공개하지 않는 것으로 결정했습니다. 사용한 데이터의 명세에 대해 개략적으로 설명드리면 아래와 같습니다.

AI Hub 사물데이터의 모든 클래스가 비슷한 숫자의 이미지를 갖게끔 data augmentation 적용
생성한 balanced data를 클래스 별로 uniform sampling (학습데이터: 클래스당 1000장, 테스트데이터: 클래스당 100장)
=> 이 데이터만으로 약 0.76의 점수를 기록
일부 클래스에만 약간의 crawling data 추가
=> 약 0.82로 성능 상승

Answer 2 · 2020-08-28T06:15:09.000Z

참고로 대회에서 사용한 코드는 ai_challenge 브랜치에서 확인 가능하십니다.

Answer 3 · 2020-08-28T06:29:15.000Z

답변 감사합니다.
데이터에 대한 접근 방법도 확실히 좋았던 것 같네요.

혹시 크롤링은 어디서 하셨는지 알 수 있을까요?

Answer 4 · 2020-08-28T06:35:38.000Z

크롤링은 네이버에서 취득한 데이터를 사용하였습니다!

Answer 5 · 2020-08-28T06:51:02.000Z

답변 감사합니다!

close하셔도 됩니다