chullhwan-song/Reading-Paper

Detect-to-Retrieve: Efficient Regional Aggregation for Image Search

chullhwan-song opened this issue · 1 comments

Abstract

  • DL 이전의 vision 검색 알고리즘 개념을 차용한 연구
  • Google Landmarks dataset에서, box정도가 있는 5k unique landmark가 포함된 86k images를 이용하여, regional representations하기 위해 이용.
  • regional aggregated selective match kernel (R-ASMK) 제안.
    • ASMK는 Vlad 계열의 연구로, 이전 연구에서 존재

개념

image

  • 젤 아래 노란색 region이 궁금하다 ? > 찾아보니, 이 포스트 에서 보니, kaggle site에 공개
    image

Regional Search and Aggregation

  • 기본적으로 bag of word + vlad + asmk 이어지는 개념
  • local descriptor 대신 delf 이용하여 aggregated selective match kernels (ASMK)

Background

  • delf에서 image X에서 M개의 local descriptor를 수출
    image
  • k-mean를 이용한 C 크기의 codbook or centorid 생성 > C개의 visual word
  • 각 M개의 local descriptor 는 가장 가까운 centorid에 mapping하게 된다.
    image
  • 이를 기반으로 두개의 이미지 X, Y의 similiarity를 구한다면,
    image
    • image은 aggregated vector representation, 라 표현했는데, bag of word를 이용한 global feature를 의미하는듯한다.
  • 이때, Vlad는 image와 의미적으로 같은(매핑된)
    image
    • 모든 centroid와의 거리를 측정하는 형태..
    • 이를 수식 1)에 대응되어 만든다.
  • 이후, ASMK는, 다음을 추가하여 최종적으로 정의 > polynomial selectivity function 적용
    image

Regional Search

  • query X에 N개의 DB 이미지(image)에서 찾는 조건
    • query contains a well-localized region-of-interest > 이게 다? 있는것이 ??
    • DB 에서 landmark detector를 이용하여 reion을 찾는게??
      • 그래서, DB 이미지를 sub-region으로 확장하는 개념 image 으로 확장
    • 계속 ?? 표시하는 이유는 실제 서비스에선 scale 문제, 찾는 문제가 존재할 것 같다.
  • 한 이미지에는 sub-region이 있고, 즉, query 와 DB 사이에는 여러 벡터가 존재하게 된다. 1 vs 1 가 이닌, 이를 regional search라고 정의하는 것 같다.
    • max-pooling or average pooling individual regional similarities
      image
  • 기본적으로 r-mac의 개념이 추가된 것 같고, 더 나아가, 찾는 object외의 noise(background)를 최대한 제거하여 찾는 개념?

Regional Aggregated Match Kernels

  • 위의 region search 개념에다가, ASMK 개념으로 확장
  • 이를 위해 수식 4의 average pooling 방식을 기반으로 수식 1과 확장.
    image
  • 이외 R-ASMK, R-AMK 변형본들이 있음.

실험

  • query contains a well-localized region-of-interest > 의 5.1장에 설명되어 있음
    • Mobilenet-V2-SSD
    • Resnet-50-Faster-RCNN
  • 결과
    image

결론

  • regional 개념을 "Fine-tuning CNN Image Retrieval with No Human Annotation" 에 적용해도..비슷하게 나오지 않았을까? 아니 적용해보면 좋을듯도 보임.