개념
- 손실함수의 값을 최소화하는 하이퍼 파라미터(Hyper Parameter)의 값을 찾는 것
- 대표적인 최적화 방법 => 확률적 경사하강법(Stochastic Gradient Descent, SGD)
종류
- 확률적 경사하강법(SGD) : 손실함수의 기울기와 학습률(Learning Rate)를 사용하여, 기존의 가중치 값을 갱신
- 모멘텀 (Momentum) : 갱신 경로는 마치 공이 그릇 바닥을 구르는 듯한 움직임을 보인다.
- AdaGrad
- RMSProp
- Adam : 경험적으로 가장 많이 쓰이는 것 같다. 모멘텀과 AdaGrad를 합친 것.



경사하강법 vs 확률적 경사하강법
경사하강법은 한스텝 내딛을 때마다 전체 데이터를 이용하기 때문에 오랜 시간이 걸린다. 하지만, SGD는 랜덤하게 추출한 일부 데이터를 사용하기 때문에 속도가 매우 빠르다. 하지만, 결과의 진폭이 크고 불안정하며, 이로 인해 지역 최솟값에서 탈출하기는 쉽지만, 전역 최솟값에 도달하긴 힘들 수 있다. 그래서 나온 것이 '미니 매치 경사하강법'이다.
mini-batch gradient descent는 mini-batch 안의 모든 데이터를 대상으로 경사하강법을 수행하므로, 속도와 안정성을 모두 만족시킬 수 있는 방법이라고 할 수 있다.


반응형
'머신러닝_딥러닝 > 머신러닝 & 딥러닝' 카테고리의 다른 글
(기초지식) Dropout (0) | 2021.01.15 |
---|---|
(기초지식) Regularization (0) | 2021.01.15 |
(기초지식) 오버피팅(과적합) & 언더피팅(과소적합) (0) | 2021.01.15 |
(기초지식) 오차역전파 (Back Propagation) (0) | 2021.01.15 |
(기초지식) 손실함수, Loss function (0) | 2021.01.15 |