논문 링크 : https://arxiv.org/abs/1506.02640

 

Contribution

1-stage Object Detection 기법, Faster R-CNN에 정확도는 조금 떨어지지만 무려 6배 가량 빠른 속도

<이미지 출처 : https://yeomko.tistory.com/19?category=888201>

Motivation

 기존의 2-stage Object Detection 기법으로는 속도가 느려서, 실시간 객체 검출에 사용하기 어려웠다. 

 

학습구조

 2-stage Object Detection에서는 1) region proposal 2) classification 이렇게 두 단계로 나누어서 학습을 진행하던 방식에서 region proposal 단계를 제거하고 한번에 Object Detection을 수행하는 구조

 YOLO는 네트워크의 최종 출력단에서 경계박스 위치찾기와 클래스 분류가 동시에 이뤄진다. 즉, 하나의 네트워크가 한번에 특징도 추출하고, 경계박스도 만들고, 클래스도 분류한다. => 간단하고 빠르다.

 아래 그림에서 맨 좌측의 입력 이미지가 네트워크를 통과하면 중앙의 2개의 데이터를 얻는다. 이것이 네트워크의 최종 출력이다. 최종 출력에는 7x7그리드 내부의 경계 박스들과 해당 그리드 셀안에는 어떤 클래스가 있는지에 대한 정보(위 중앙 그림 2개)가 포함되어 있다. 중앙의 2개의 이미지 중, 위쪽은 경계 박스에 대한 정보이다. 네트워크는 영상을 7x7 그리드로 나눈 뒤, 중심을 그리드 안쪽으로 하면서 크기가 일정하지 않은 경계박스를 2개씩 생성한다. 그러므로 경계박스는 총 98개가 만들어 진다. 이 중 경계 박스 안쪽에 어떤 오브젝트가 있을 것 같다고 확신(confidence score)할수록 박스를 굵게 그려준다. 굵은 경계 박스들만 남기고 얇은 경계박스(어떤 오브젝트도 없는 것 같다고 생각되는 것들)을 지운다. 그리고, 중앙의 2개의 이미지 중, 아래쪽 이미지의 각 그리드 셀은 해당 영역에서 제안한(proposal) 경계 박스안의 오브젝트가 어떤 클래스인지를 컬러로 표현하고 있다. 맨 우측의 이미지는 네트워크의 최종 출력물을 이용해 생성하는 것으로써 네트워크가 직접 생성한 것은 아니다. 

  1. 먼저 입력 이미지를 S X S 그리드 영역으로 나눠 준다.
  2. 각각의 grid cell은 B개의 Bounding box와 각 Bounding box에 대한 confidence score를 갖는다. (만약 cell에 Object가 존재하지 않는다면 confidence score는 0이 된다.) confidence score는 이 시스템이 물체를 포함한다는 예측을 얼마나 확신하는지, 박스에 대한 예측이 얼마나 정확할지를 의미한다.
  3. 각각의 bounding box는 x, y , w, h와 confidence로 구성된다.
  4. 각각의 grid cell은 C(conditional class probability)를 갖는다.  논문에서는 PASCAL VOC데이터셋을 사용하여 class개수는 20개이다. (C = 20)
  5. 평가할 때 conditional class probability와 각 박스의 confidence prediction을 곱했다. 이 점수는 class가 박스안에 존재하는지와 박스가 물체에 얼마나 적합한가를 모두 포함한다.
  6. 중복되는 경계박스 제거 => NMS 알고리즘 (Nom-maximal suppression)

 

 

operation for each bbox in each grid cell

 

Loss function

 Loss function 5번째 줄 => B에 대한 Sum이 없다. 각 그리드셀 i 에서 경계박스는 2번(B=2) 예측하지만 클래스 확률 c(20종류)는 공유하기 때문.

 

한계점

  1. 한 객체 주변에 여러 개의 객체가 있을 때 검출을 잘 못함 -> 작은 객체 잘 검출 못함
  2. 그리드 하나 안에 객체가 여러 개 있으면 최대 2개까지밖에 예측을 못함
  3. Faster R-CNN 보다 속도는 빨라졌으나 mAP는 낮음

 

참고

https://brunch.co.kr/@kmbmjn95/35

반응형

'머신러닝_딥러닝 > Object Detection' 카테고리의 다른 글

(논문리뷰) SPPnet  (0) 2021.09.13
(논문리뷰) Yolo v2 (2017)  (0) 2021.09.13
(논문리뷰) Faster R-CNN  (0) 2021.09.13
(논문리뷰) Fast R-CNN  (0) 2021.09.13
(논문리뷰) R-CNN  (0) 2021.09.13

+ Recent posts