논문링크 : https://arxiv.org/abs/1708.02863

 

Contribution

R-FCN 구조에 변형을 가해, the global structure information을 충분히 반영할 수 있도록 만들었음 -> 3가지 데이터셋에서 sota를 달성

 

Motivation

R-FCN은 기존 모델들 대비 속도와 정확도를 향상시키긴 하였으나, global context를 충분히 고려하지 못함

R-FCN에서의 position-sensitive RoI Pooling(PSRoI) : region proposals에서 local 정보를 활용하여 성능을 향상시키지만, 이는 Global 정보와 context를 훼손시킴 

 

Core idea

 

Couple module

  • local 정보와 global 정보를 둘 다 활용
  • 2개의 branch로 구성 :  local 정보를 추출하는 RSRoI pooling, global 정보를 추출하는 RoI pooling
  • RPN에서 생성한 region proposal을 couple module로 전달하여, 두 개의 pooling을 사용하여 local 정보와 global 정보를 모두 고려

  1. 이미지에서 특징을 추출한 뒤에 RPN을 사용하여 region proposals를 생성
  2. region proposals은 local FCN과 global FCN을 통과
  3. local, global 정보를 결합하여 최종 점수를 출력 (두 개의 normalize된 결과값을 element wise sum으로 결합)

 

  • [Figure 3]을 보면, local FCN은 이미지내에서 잘린 객체 또는 가려진 객체를 검출하는 데에 유용하긴 하지만, 단순한 객체나 배경이 많이 포함되어 있는 객체를 검출하는 데에는 어려움이 있음
  • local FCN에 사용된 PSRoI pooling에 관련된 내용은 R-FCN을 참고할 것
  • global FCN은 객체의 전체적인 구조 정보를 추출하는데, 이를 위해, RPN의 출력값에 RoI pooling을 적용하여 서로 다른 크기의 RoI를 하나로 묶는다. 이후,  kxk convolution과 1x1 convolution을 수행한다. 최종 출력값은 class 정보를 담은 (C+1) 차원이 된다. 

 

기타

반응형

+ Recent posts