chullhwan-song/Reading-Paper

Scene Text Detection with Supervised Pyramid Context Network

Opened this issue · 1 comments

Abstract

  • 기존의 SOTA 알고리즘도 Natural Scene (=real-world environments)에서의 text detection은 여전히 문제를 안고 있음.
  • 이 연구가
    • 제안한 연구는 Mask R-CNN에 영감을 얻음.
    • Feature Pyramid Network(FPN)제안
    • instance segmentation -> Mask R-CNN
      image
  • 정리하면, text detection을 위해 supervised pyramid context network (SPCNET) 제안.
  • outperforms
  • 내 생각엔 기본적으로 FCN based다.

Contribution

  • Mask R-CNN를 Text detection에 적용하기엔 문제가 있다.
    • Lack of context information clues - context 정보 필요 - 예를 들어, 그릇는 테이블 위에 많이 존재한다.
      • 개인적으론 text가 특정 주위 상황에 나타나는 pattern이 매우 다양하지 않을까... 라이센스, 흰바탕에 글씨등이 있지만, 실제 우리 주위에 텍스트는 너무 넘친다.
    • Inaccurate classification score - 기울어진 text 의 문제( : 이는 낮은 score가 발생.)
  • 그래서, 이 연구는 contribution
    • fp를 막기 위해 Text Context module 와 Re-Score mechanism 제안
    • 수평/회전/커브형태를 가진 다양한 shape을 가진 text 감지 방법 제안
    • SOTA 성능

Proposed method

image

Mask R-CNN based - 기본적으로 이 틀을 유지.

GT 구성

image

Text Context Module

  • FP를 제거하기 위해
  • 이를 위해 2개의 모듈로 구성 = Pyramid Attention Module (PAM) + Pyramid Fusion Module (PFM)

Pyramid Attention Module

  • 이 모듈은 "Single Shot Text Detector with Regional Attention" 의 연구에서 영감을 얻음.
    • SSD기반의 text detection 알고리즘 -
      • SSD는 기본적으로 backbone net의 여러 layer의 각 feature map를 이용하여 detection함.
      • 이 연구에서 언급한 Attention 모듈을 참고함.
  • FPN의 stage 2~5사이의 feature map을 이용하고 이는 각각의 layer에서 saliency map을 생성 - text/none에 대한 pixel 레벨정보를 획득.
  • text context model은 이런 saliency map과 이를 fusion한 것을 일컬음.
    • 이때 3x3, 1x1 conv을 이용한 조합.
  • output의 채널은 2 - text/non-text map
  • stage 2에서, 512×512의 input을 받고 feature map(S2)은 128×128×256이고, saliency map는 다음과 같은 방법으로 생성.
    image
    • Text Context module은 text/non-text 의 2 채널의 saliency map 생성하고 이후에, channel-wise softmax 단계를 걷치고 최종적으로 "text saliency map"를 획득.
      image
  • 이 전체 과정은 Fig.2의 d)를 보면 이해하기가 쉽다.
  • Mask R-CNN의 feature map, 즉,입력값의 역할을 하는듯하다.

Pyramid Fusion Module

  • Fig.2의 b & d
  • feature map(GTF) of global text segmentation. - Fig.2의 d에서 보면 쉬움.
    image
    • "+" : element-wise addition

Re-Score Mechanism

  • Mask R-CNN inference 과정에서, bounding boxe들에 대한 분류확률이 높은순으로 sorting - Top K sorting (K=1000)
  • 이후에, standard NMS 수행
  • Top-M(M=300)의 경우 retain (highest classification confidence)
  • 여기서 기울어진 text의 경우의 background의 정보가 많이 존재 그래서 FP 문제 발생 - score가 낮아짐.
    • 생각해보면 알수 있는데.. 수평모양 text보다 45도 기울어진 text의 경우 사각형을 그리면 아래와 같이 녹색 사각형을 보면, background 영역이 수평모양의 text보다 훨씬 많다.
      image
    • Global Text Segmentation 정보를 이용하여 background부분에 대한 문제 제거 즉, text instance 부분만..
    • 이는 이전의 과정에서 획득.
  • classification score(CS) 와 instance score(IS)을 다음과 같이 계산.
    image
    image
    • P_i is the set of the pixels’ value of i-th text instance on text segmentation map.

Loss Function Design

image

  • 다음을 제외한 loss는 Mask R-CNN의 loss
    image
    • softmax loss
    • p는 output prediction of the network

실험

image
image
image
image
image