Scene Text Detection with Supervised Pyramid Context Network

Question

Opened this issue 6 years ago · 1 comments

Answer 1 · 2019-02-07T03:55:03.000Z

Abstract

기존의 SOTA 알고리즘도 Natural Scene (=real-world environments)에서의 text detection은 여전히 문제를 안고 있음.
이 연구가
- 제안한 연구는 Mask R-CNN에 영감을 얻음.
- Feature Pyramid Network(FPN)제안
- instance segmentation -> Mask R-CNN
정리하면, text detection을 위해 supervised pyramid context network (SPCNET) 제안.
outperforms
내 생각엔 기본적으로 FCN based다.

Mask R-CNN를 Text detection에 적용하기엔 문제가 있다.
- Lack of context information clues - context 정보 필요 - 예를 들어, 그릇는 테이블 위에 많이 존재한다.
  - 개인적으론 text가 특정 주위 상황에 나타나는 pattern이 매우 다양하지 않을까... 라이센스, 흰바탕에 글씨등이 있지만, 실제 우리 주위에 텍스트는 너무 넘친다.
- Inaccurate classification score - 기울어진 text 의 문제( : 이는 낮은 score가 발생.)
그래서, 이 연구는 contribution
- fp를 막기 위해 Text Context module 와 Re-Score mechanism 제안
- 수평/회전/커브형태를 가진 다양한 shape을 가진 text 감지 방법 제안
- SOTA 성능

이 모듈은 "Single Shot Text Detector with Regional Attention" 의 연구에서 영감을 얻음.
- SSD기반의 text detection 알고리즘 -
  - SSD는 기본적으로 backbone net의 여러 layer의 각 feature map를 이용하여 detection함.
  - 이 연구에서 언급한 Attention 모듈을 참고함.
FPN의 stage 2~5사이의 feature map을 이용하고 이는 각각의 layer에서 saliency map을 생성 - text/none에 대한 pixel 레벨정보를 획득.
text context model은 이런 saliency map과 이를 fusion한 것을 일컬음.
- 이때 3x3, 1x1 conv을 이용한 조합.
output의 채널은 2 - text/non-text map
stage 2에서, 512×512의 input을 받고 feature map(S2)은 128×128×256이고, saliency map는 다음과 같은 방법으로 생성.
- Text Context module은 text/non-text 의 2 채널의 saliency map 생성하고 이후에, channel-wise softmax 단계를 걷치고 최종적으로 "text saliency map"를 획득.
이 전체 과정은 Fig.2의 d)를 보면 이해하기가 쉽다.
Mask R-CNN의 feature map, 즉,입력값의 역할을 하는듯하다.

Fig.2의 b & d
feature map(GTF) of global text segmentation. - Fig.2의 d에서 보면 쉬움.
- "+" : element-wise addition

Mask R-CNN inference 과정에서, bounding boxe들에 대한 분류확률이 높은순으로 sorting - Top K sorting (K=1000)
이후에, standard NMS 수행
Top-M(M=300)의 경우 retain (highest classification confidence)
여기서 기울어진 text의 경우의 background의 정보가 많이 존재 그래서 FP 문제 발생 - score가 낮아짐.
- 생각해보면 알수 있는데.. 수평모양 text보다 45도 기울어진 text의 경우 사각형을 그리면 아래와 같이 녹색 사각형을 보면, background 영역이 수평모양의 text보다 훨씬 많다.
- Global Text Segmentation 정보를 이용하여 background부분에 대한 문제 제거 즉, text instance 부분만..
- 이는 이전의 과정에서 획득.
classification score(CS) 와 instance score(IS)을 다음과 같이 계산.
- P_i is the set of the pixels’ value of i-th text instance on text segmentation map.

다음을 제외한 loss는 Mask R-CNN의 loss
- softmax loss
- p는 output prediction of the network