데이터셋
2KangHo opened this issue · 5 comments
2KangHo commented
혹시 대회에서 학습 및 테스트에서 사용했던 데이터셋 공유 가능하신가요??
Curt-Park commented
안녕하세요. 기관에서 대회에 사용한 데이터를 차후 다른 대회 등에서도 활용할 수 있다고 생각하여 학습 및 테스트데이터는 공개하지 않는 것으로 결정했습니다. 사용한 데이터의 명세에 대해 개략적으로 설명드리면 아래와 같습니다.
- AI Hub 사물데이터의 모든 클래스가 비슷한 숫자의 이미지를 갖게끔 data augmentation 적용
- 생성한 balanced data를 클래스 별로 uniform sampling (학습데이터: 클래스당 1000장, 테스트데이터: 클래스당 100장)
=> 이 데이터만으로 약 0.76의 점수를 기록 - 일부 클래스에만 약간의 crawling data 추가
=> 약 0.82로 성능 상승
Curt-Park commented
참고로 대회에서 사용한 코드는 ai_challenge 브랜치에서 확인 가능하십니다.
2KangHo commented
답변 감사합니다.
데이터에 대한 접근 방법도 확실히 좋았던 것 같네요.
혹시 크롤링은 어디서 하셨는지 알 수 있을까요?
hoonyyhoon commented
크롤링은 네이버에서 취득한 데이터를 사용하였습니다!
2KangHo commented
답변 감사합니다!
close하셔도 됩니다