(논문리뷰) Feature Pyramid Net, FPN (2017)

2021. 9. 13. 21:24

논문 링크 : https://arxiv.org/abs/1612.03144

Contribution

sota 달성 + 범용적으로 적용할 수 있는 기법

Motivation

기존의 모델들은 이미지 내의 작은 물체를 탐지하는데 어려움을 겪었음 => FPN 등판!!

Core idea

(a) 입력 이미지 자체를 여러 크기로 resize 한 뒤, 각각의 이미지에서 물체를 탐지 => 연산량 多

(b) CNN 신경망을 통과하여 얻은 최종 단계의 피쳐맵으로 Object Detection을 수행 => 최종 단계의 피쳐맵은 원본 이미지의 정보들이 추상화되어 작은 객체들에 대한 정보가 사라짐 (ex, YOLO)

(d) 먼저 신경망을 통과하면서 단계별로 피쳐 맵들을 생성한 뒤, 가장 상위 레이어서부터 거꾸로 내려오면서 피쳐를 합쳐서, Object Detection을 수행 => 상위 레이어의 추상화 된 정보와 하위 레이어의 작은 물체들에 대한 정보를 동시에 활용할 수 있음

<이미지 출처 : https://ctkim.tistory.com/170>

Model

Faster R-CNN을 대한 이해가 선행되어야 합니다.

Region Proposal with RPN <이미지 출처 : https://ctkim.tistory.com/170>

FPN에 이미지를 입력한 후 Bottom-up pathway을 거쳐 원본 이미지의 1/4, 1/8, 1/16, 1/32 크기에 해당하는 feature map {c5,c4,c3,c2}을 출력
1x1 conv 연산, upsapmling연산, element-wise addtion 연산, Top-down pathway을 통해, {M5, M4, M3, M2}를 생성
3x3 conv 연산을 수행하여 {P5, P4, P3, P2} feature map을 출력
{P5, P4, P3, P2} feature map은 RPN와 ROI pooling시 사용함

Max pooling by RoI pooling <이미지 출처 : https://ctkim.tistory.com/170>

Fast R-CNN은 single-scale feature map만을 사용한 반면, FPN을 적용한 Faster R-CNN은 multi-scale feature map을 사용하기 때문 region proposals를 어떤 scale의 feature map과 매칭시킬지를 결정해야 함.

k : 피쳐 맵의 번호
224 : pretrained model의 input image 크기
k0 : 몇 번째 피쳐맵에 사상시킬 것인지를 결정하는 수 (논문에서는 4로 설정됨)

ex ) 만약 512x512 크기의 RoI가 입력으로 들어왔다면 4+log2(2.28) = 5.11로 P5에 매핑됨

저작자표시 비영리 변경금지

'머신러닝_딥러닝 > Object Detection' 카테고리의 다른 글

(논문리뷰) RetinaNet (2017) (0)	2021.09.13
(논문리뷰) OHEM (2016) (0)	2021.09.13
(논문리뷰) SSD (2016) (0)	2021.09.13
(논문리뷰) SPPnet (0)	2021.09.13
(논문리뷰) Yolo v2 (2017) (0)	2021.09.13

누구나 쉽게, 인공지능