Detect-to-Retrieve: Efficient Regional Aggregation for Image Search
chullhwan-song opened this issue · 1 comments
chullhwan-song commented
chullhwan-song commented
Abstract
- DL 이전의 vision 검색 알고리즘 개념을 차용한 연구
- Google Landmarks dataset에서, box정도가 있는 5k unique landmark가 포함된 86k images를 이용하여, regional representations하기 위해 이용.
- https://github.com/cvdfoundation/google-landmark 여기에 없던데..?? 공개 여부를 더 찾아봐야할듯.. (아래에 찾아서언급했음)
- regional aggregated selective match kernel (R-ASMK) 제안.
- ASMK는 Vlad 계열의 연구로, 이전 연구에서 존재
개념
- 젤 아래 노란색 region이 궁금하다 ? > 찾아보니, 이 포스트 에서 보니, kaggle site에 공개
Regional Search and Aggregation
- 기본적으로 bag of word + vlad + asmk 이어지는 개념
- local descriptor 대신 delf 이용하여 aggregated selective match kernels (ASMK)
Background
- delf에서 image X에서 M개의 local descriptor를 수출
- k-mean를 이용한 C 크기의 codbook or centorid 생성 > C개의 visual word
- 각 M개의 local descriptor 는 가장 가까운 centorid에 mapping하게 된다.
- 이를 기반으로 두개의 이미지 X, Y의 similiarity를 구한다면,
- 이때, Vlad는 와 의미적으로 같은(매핑된)
- 모든 centroid와의 거리를 측정하는 형태..
- 이를 수식 1)에 대응되어 만든다.
- 이후, ASMK는, 다음을 추가하여 최종적으로 정의 > polynomial selectivity function 적용
Regional Search
- query X에 N개의 DB 이미지()에서 찾는 조건
- 한 이미지에는 sub-region이 있고, 즉, query 와 DB 사이에는 여러 벡터가 존재하게 된다. 1 vs 1 가 이닌, 이를 regional search라고 정의하는 것 같다.
- 기본적으로 r-mac의 개념이 추가된 것 같고, 더 나아가, 찾는 object외의 noise(background)를 최대한 제거하여 찾는 개념?
Regional Aggregated Match Kernels
- 위의 region search 개념에다가, ASMK 개념으로 확장
- 이를 위해 수식 4의 average pooling 방식을 기반으로 수식 1과 확장.
- 이외 R-ASMK, R-AMK 변형본들이 있음.
실험
- query contains a well-localized region-of-interest > 의 5.1장에 설명되어 있음
- Mobilenet-V2-SSD
- Resnet-50-Faster-RCNN
- 결과
결론
- regional 개념을 "Fine-tuning CNN Image Retrieval with No Human Annotation" 에 적용해도..비슷하게 나오지 않았을까? 아니 적용해보면 좋을듯도 보임.