논문 링크 : https://arxiv.org/abs/1612.03144

 

Contribution

 sota 달성 +  범용적으로 적용할 수 있는 기법 

 

Motivation

 기존의 모델들은 이미지 내의 작은 물체를 탐지하는데 어려움을 겪었음 => FPN 등판!!

 

Core idea

(a) 입력 이미지 자체를 여러 크기로 resize 한 뒤, 각각의 이미지에서 물체를 탐지 => 연산량 多

(b) CNN 신경망을 통과하여 얻은 최종 단계의 피쳐맵으로 Object Detection을 수행 => 최종 단계의 피쳐맵은 원본 이미지의 정보들이 추상화되어 작은 객체들에 대한 정보가 사라짐 (ex, YOLO)

(c) CNN 신경망을 통과하는 중간 과정에 생성되는 피쳐맵들 각각에 Object Detection을 수행 => 상위 레이어에서 얻게 되는 추상화 된 정보를 활용하지 못하는 단점 (ex, SSD)

(d) 먼저 신경망을 통과하면서 단계별로 피쳐 맵들을 생성한 뒤, 가장 상위 레이어서부터 거꾸로 내려오면서 피쳐를 합쳐서, Object Detection을 수행 => 상위 레이어의 추상화 된 정보와 하위 레이어의 작은 물체들에 대한 정보를 동시에 활용할 수 있음

논문에 있는 그림

 

<이미지 출처 : https://ctkim.tistory.com/170>

 

nearest neighbor upsampling 기법

 

Model

 Faster R-CNN을 대한 이해가 선행되어야 합니다.

 Region Proposal with RPN <이미지 출처 : https://ctkim.tistory.com/170>

  1. FPN에 이미지를 입력한 후 Bottom-up pathway을 거쳐 원본 이미지의 1/4, 1/8, 1/16, 1/32 크기에 해당하는 feature map {c5,c4,c3,c2}을 출력
  2. 1x1 conv 연산, upsapmling연산, element-wise addtion 연산, Top-down pathway을 통해, {M5, M4, M3, M2}를 생성
  3. 3x3 conv 연산을 수행하여 {P5, P4, P3, P2} feature map을 출력
  4. {P5, P4, P3, P2} feature map은 RPN와 ROI pooling시 사용함

 

Max pooling by RoI pooling <이미지 출처 : https://ctkim.tistory.com/170>

 Fast R-CNN은 single-scale feature map만을 사용한 반면, FPN을 적용한 Faster R-CNN은 multi-scale feature map을 사용하기 때문 region proposals를 어떤 scale의 feature map과 매칭시킬지를 결정해야 함.

  • k : 피쳐 맵의 번호
  • 224 : pretrained model의 input image 크기
  • k0 : 몇 번째 피쳐맵에 사상시킬 것인지를 결정하는 수 (논문에서는 4로 설정됨)

 ex ) 만약  512x512 크기의 RoI가 입력으로 들어왔다면 4+log2(2.28) = 5.11로 P5에 매핑됨

 

<이미지 출처 : https://ctkim.tistory.com/170>

 

반응형

'머신러닝_딥러닝 > Object Detection' 카테고리의 다른 글

(논문리뷰) RetinaNet (2017)  (0) 2021.09.13
(논문리뷰) OHEM (2016)  (0) 2021.09.13
(논문리뷰) SSD (2016)  (0) 2021.09.13
(논문리뷰) SPPnet  (0) 2021.09.13
(논문리뷰) Yolo v2 (2017)  (0) 2021.09.13

+ Recent posts