논문링크 : https://arxiv.org/abs/1703.06211

 

Contribution

 기존 CNN에서는 Receptive Field 의 크기가 항상 같았기 때문에, 카메라의 각도, 물체의 자세나 상태, 위치 등에 따른 다양한 형태의 변형으로부터 패턴을 인식하는데 한계가 있었음 -> Deformable convolution(pooling) layer는 receptive field의 형태를 데이터로부터 학습한다.

Motivation

 기존 CNN에서 사용하는 여러 연산들의 경우, 기하학적으로 일정한 패턴을 가정하고 있기 때문에 복잡한 transformation에 유연하게 대처하기 어렵다 -> Deformable Convolution, Deformable ROI Pooling


Core idea

  • Deformable Convolution

 [Figure 2]를 보면, conv layer 이외에도 초록색 선을 따라 conv layer가 존재하는데, 이 layer는 각 입력의 2D offset 을 학습하기 위한 것이다. 즉, filter 형태를 학습하여 object 크기에 맞게 변화하도록 한 것이다. 

 

  • Deformable ROI Pooling

  1. RoI pooling 은 다양한 크기의 region을 고정된 크기의 feature 로 변환한다.
  2. deformable convolution과의 차이점은, offset 을 학습하는 부분에 convolution 이 아니라 fully connected layer 를 사용한 것이다.

 

기타

 

반응형

'머신러닝_딥러닝 > Object Detection' 카테고리의 다른 글

(논문리뷰) Cascade R-CNN (2018)  (0) 2021.09.13
(논문리뷰) CoupleNet (2017)  (0) 2021.09.13
(논문리뷰) R-FCN (2016)  (0) 2021.09.13
(논문리뷰) Yolo v3 (2018)  (0) 2021.09.13
(논문리뷰) Mask R-CNN  (0) 2021.09.13

+ Recent posts