(논문리뷰) SPPnet

2021. 9. 13. 21:19

입력 이미지 크기와 상관없이 CNN을 적용할 수 있도록 하는 Spatial Pyramid Pooling 기법을 제안

R-CNN의 경우, Selective search를 통해 대략 2000개의 bounding box를 만든 후, 모두 CNN layer를 통과시켜야만 했다. -> 연산 시간 too long
R-CNN의 경우, feature를 추출하기 위해 이미지를 warping하게 된다. -> 이미지 왜곡

Spatial Pyramid Pooling

SPP는 input feature에 대해 여러 개의 고정된 크기의 pooling layer를 통과시킨 결과를 하나의 layer로 합친다.
SPPnet은 1x1, 2x2, 4x4 spatial bin을 사용 (각각의 spatial bin을 얻기 위해서 pooling하는 window size와 stride가 다름)
1x1, 2x2, 4x4 spatial bin을 얻었으면 spatial bin들을 모두 flatten한 뒤 합침.

(예) 3x3 spaital bin을 사용 => pooling 연산을 통해 3x3 feature map을 얻음을 의미

: RoI feature가 13x13인 경우, max pooling(window size=5, stride=4)을 하면 3x3 feature map을 얻게됨

이미지를 미리 학습된 CNN을 통과시켜 피쳐맵을 추출
Selective Search를 통해서 찾은 각각의 RoI를 피쳐맵에 반영한 뒤, SPP를 적용하여 고정된 크기의 feature vector를 추출
fully connected layer들을 통과시킴
(3)의 출력값으로 Classifier와 bounding box regressor를 학습시킴

누구나 쉽게, 인공지능