모플로 2021. 11. 9. 20:33
반응형

1. Basics

1.1일반 객체 영역 검출 vs글자 영역 검출

- 일반 객체 검출: 클래스와 위치를 예측하는 문제

- 글자 검출: “Text”라는 단일 클래스 -> 위치만 예측하는 문제

 

 

1.2 글자 영역 표현법

 

1) 사각형 종류들

2) 다각형 (Polygon)

Arbitrary-shaped text를 주로 다루는 최근의 벤치마크들에 적합 일반적으로 2N points를 이용하고, 상하 점들이 쌍을 이루도록 배치 (위의 두 점과 쌍이 되는 아래의 두 점을 잡으면 특정 글자 영역이 되도록)

 

2. Taxonomy

2.1Regression-basedvsSegmentation-based

Regression방식과 Segmentation 방식이 있다

1) Regression-based

SSD를 활용하여 Anchor Boxes를 사용하여 글자 영역을 추출한다

- Arbitrary-shaped text -> 불필요한 영역을 포함 (Bounding box 표현 방식의 한계, 사각형의 영역만 사용하게되어 인식 저하)

- Extreme aspect ratio -> Bounding box 정확도 하락 (Receptive field의 한계)

2) Segmentation-based

이미지를 입력 받아 글자 영역 표현값들에 사용되는 화소 단위 정보를 뽑고, 후처리를 통해서 최종 글자 영역 표현 값들을 확보!

- 복잡하고 시간이 오래 걸리는 post-processing이 필요할 수 있음.

- 서로 간섭이 있거나 인접한 개체 간의 구분이 어려움

 

 

3) Hybrid

Regression-based로 대략의 사각영역 + Segmentation-based로 해당 영역에서 화소 정보 추출

 

2.2 Character-basedvsWord-based

Character-Based Methods

- Character 단위로 검출하고 이를 조합해서 word instance를 예측 Character-level GT 필요

 

Word-Based Methods

- Word 단위로 예측

- 대부분의 모델이 해당

3. BaselineModel- EAST

EAST:AnEfficientandAccurateSceneTextDetector.CVPR,2017

처음으로 Software2.0 버전을 사용한 모델로 빠른속도와 end to end train을 한다

- score map: 글자 영역 중심에 해당하는지 

- geometry map: 어떤 화소가 글자 영역이라면 해당 Bounding bo의 위치는 어디인지

 

1) 모델구조

FCN(Fully convolutional network)

크게 3가지로 구성되어있다

- Feature extractor stem(backbone) 특징추출

- Feature merging branch (Unpool로 크기 맞추고 concat)

- Output: H/4 x W/4 x C maps

 

2) Output

scoremap은 글자 영역 중심에 해당하는지 H/4 x W/4 x 1binary map - 글자 영역의 중심이면 1, 배경이면 0 

GT bounding box를 줄여서 생성 (글자높이의 30%만큼 end points를 안쪽으로 이동)

 

Geometry Map은 어떤 화소가 글자 영역이라면 해당 Bounding box의 위치는 어디인지 RBOX (rotated box, 직사각형+각도) 형식: 회전 각도 예측 -> 1 channel

Bounding box의 4개 경계선까지의 거리를 예측 -> 4 channels

 

3) Inference

Post-processing: RBOX 기준

4) Locality-AwareNMS

StandardNMS

복잡도가 O N! 로 Denseprediction 상황에 부적합

 

Locality-AwareNMS

인접한 픽셀에서 예측한 boundingbox들은 같은 text instance일 가능성이 높음.

-> 위치 순서(행 우선)로 탐색하면서 비슷한 것들을 하나로 통합하자.(IoU 기반)

-> 통합 시 scoremap값으로 weightedmerge

 

5) Training

 

Loss

 

반응형