논문 링크 : https://arxiv.org/pdf/1504.08083.pdf

Contribution 

 CNN fine tuning, boundnig box regression, classification을 모두 하나의 네트워크에서 학습시키는 end-to-end 기법을 제시 -> 기존 R-CNN 대비 속도 및 성능 향상 

Motivation  

  1. 기존 R-CNN의 경우, 입력 이미지에서 Selective search를 통해 물체가 존재할 가능성이 있는 약 2000개의 ROI(region of interest, ROI)를 찾은 후에, 모두 네트워크에 입력하여 특성을 도출 -> 많은 연산량 필요
  2. 기존 R-CNN의 경우, 모델을 한번에 학습시키지 못함

 

학습구조

  1. Selective Search를 통해 RoI를 찾는다.
  2. 전체 이미지를 CNN에 통과시켜 feature map을 추출한다.
  3. Selective Search로 찾츤 RoI를 feature map크기에 맞춰서 projection시킴
  4. projection시킨 RoI에 대해 RoI Pooling을 진행하여 고정된 크기의 feature vector를 얻음.
  5. 획든한 feature vector는 FC layer를 통과한 뒤, 2개의 브랜치로 흘러들어감.
  6. softmax를 통과시킨 뒤, object classification / bounding box regression를 통해 박스 위치 조정

 

ROI Pooling

<이미지 출처 : https://bskyvision.com/702?category=635506>

ROI pooling을 통해 고정된 사이즈의 Feature vector로 변환해준 다음 fully-connected(FC) 층에 입력함

  1. 미리 설정한 HxW크기로 만들어주기 위해서 (h/H) * (w/H) 크기만큼 grid를 RoI(Feature map)위에 만듦
  2. RoI를 grid크기로 나눈 뒤, max pooling을 적용시켜 각 grid 칸마다 하나의 값을 추출

 

End-to-end 학습

 RoI Pooling을 추가함으로써, data가 각각 softmax(classification), bbox regressor(localization)로 들어갊. 

classification과 bounding box regression을 적용하여 각각의 loss를 얻어내고, 이를 back propagation하여 전체 모델을 학습시키게 된다.

 

한계점

 RoI를 생성하기 위해선, 여전히 네트워크의 외부에서 수행되는 Selective search알고리즘이 필요함 -> 병목현상 야기됨

반응형

'머신러닝_딥러닝 > Object Detection' 카테고리의 다른 글

(논문리뷰) Yolo v1 (2016)  (0) 2021.09.13
(논문리뷰) Faster R-CNN  (0) 2021.09.13
(논문리뷰) R-CNN  (0) 2021.09.13
(논문리뷰) SENet  (0) 2021.01.15
(논문리뷰) DenseNet  (0) 2021.01.15

+ Recent posts