Scene Text Detection with Supervised Pyramid Context Network
Opened this issue · 1 comments
chullhwan-song commented
Abstract
- 기존의 SOTA 알고리즘도 Natural Scene (=real-world environments)에서의 text detection은 여전히 문제를 안고 있음.
- 이 연구가
- 제안한 연구는 Mask R-CNN에 영감을 얻음.
- Feature Pyramid Network(FPN)제안
- instance segmentation -> Mask R-CNN
- 정리하면, text detection을 위해 supervised pyramid context network (SPCNET) 제안.
- outperforms
- 내 생각엔 기본적으로 FCN based다.
Contribution
- Mask R-CNN를 Text detection에 적용하기엔 문제가 있다.
- Lack of context information clues - context 정보 필요 - 예를 들어, 그릇는 테이블 위에 많이 존재한다.
- 개인적으론 text가 특정 주위 상황에 나타나는 pattern이 매우 다양하지 않을까... 라이센스, 흰바탕에 글씨등이 있지만, 실제 우리 주위에 텍스트는 너무 넘친다.
- Inaccurate classification score - 기울어진 text 의 문제( : 이는 낮은 score가 발생.)
- Lack of context information clues - context 정보 필요 - 예를 들어, 그릇는 테이블 위에 많이 존재한다.
- 그래서, 이 연구는 contribution
- fp를 막기 위해 Text Context module 와 Re-Score mechanism 제안
- 수평/회전/커브형태를 가진 다양한 shape을 가진 text 감지 방법 제안
- SOTA 성능
Proposed method
Mask R-CNN based - 기본적으로 이 틀을 유지.
GT 구성
Text Context Module
- FP를 제거하기 위해
- 이를 위해 2개의 모듈로 구성 = Pyramid Attention Module (PAM) + Pyramid Fusion Module (PFM)
Pyramid Attention Module
- 이 모듈은 "Single Shot Text Detector with Regional Attention" 의 연구에서 영감을 얻음.
- SSD기반의 text detection 알고리즘 -
- SSD는 기본적으로 backbone net의 여러 layer의 각 feature map를 이용하여 detection함.
- 이 연구에서 언급한 Attention 모듈을 참고함.
- SSD기반의 text detection 알고리즘 -
- FPN의 stage 2~5사이의 feature map을 이용하고 이는 각각의 layer에서 saliency map을 생성 - text/none에 대한 pixel 레벨정보를 획득.
- text context model은 이런 saliency map과 이를 fusion한 것을 일컬음.
- 이때 3x3, 1x1 conv을 이용한 조합.
- output의 채널은 2 - text/non-text map
- stage 2에서, 512×512의 input을 받고 feature map(S2)은 128×128×256이고, saliency map는 다음과 같은 방법으로 생성.
- 이 전체 과정은 Fig.2의 d)를 보면 이해하기가 쉽다.
- Mask R-CNN의 feature map, 즉,입력값의 역할을 하는듯하다.
Pyramid Fusion Module
- Fig.2의 b & d
- feature map(GTF) of global text segmentation. - Fig.2의 d에서 보면 쉬움.
- "+" : element-wise addition
Re-Score Mechanism
- Mask R-CNN inference 과정에서, bounding boxe들에 대한 분류확률이 높은순으로 sorting - Top K sorting (K=1000)
- 이후에, standard NMS 수행
- Top-M(M=300)의 경우 retain (highest classification confidence)
- 여기서 기울어진 text의 경우의 background의 정보가 많이 존재 그래서 FP 문제 발생 - score가 낮아짐.
- classification score(CS) 와 instance score(IS)을 다음과 같이 계산.
- P_i is the set of the pixels’ value of i-th text instance on text segmentation map.