논문링크 : https://arxiv.org/abs/1703.06211
Contribution
기존 CNN에서는 Receptive Field 의 크기가 항상 같았기 때문에, 카메라의 각도, 물체의 자세나 상태, 위치 등에 따른 다양한 형태의 변형으로부터 패턴을 인식하는데 한계가 있었음 -> Deformable convolution(pooling) layer는 receptive field의 형태를 데이터로부터 학습한다.
Motivation
기존 CNN에서 사용하는 여러 연산들의 경우, 기하학적으로 일정한 패턴을 가정하고 있기 때문에 복잡한 transformation에 유연하게 대처하기 어렵다 -> Deformable Convolution, Deformable ROI Pooling
Core idea
- Deformable Convolution
[Figure 2]를 보면, conv layer 이외에도 초록색 선을 따라 conv layer가 존재하는데, 이 layer는 각 입력의 2D offset 을 학습하기 위한 것이다. 즉, filter 형태를 학습하여 object 크기에 맞게 변화하도록 한 것이다.
- Deformable ROI Pooling
- RoI pooling 은 다양한 크기의 region을 고정된 크기의 feature 로 변환한다.
- deformable convolution과의 차이점은, offset 을 학습하는 부분에 convolution 이 아니라 fully connected layer 를 사용한 것이다.
기타
반응형
'머신러닝_딥러닝 > Object Detection' 카테고리의 다른 글
(논문리뷰) Cascade R-CNN (2018) (0) | 2021.09.13 |
---|---|
(논문리뷰) CoupleNet (2017) (0) | 2021.09.13 |
(논문리뷰) R-FCN (2016) (0) | 2021.09.13 |
(논문리뷰) Yolo v3 (2018) (0) | 2021.09.13 |
(논문리뷰) Mask R-CNN (0) | 2021.09.13 |