개념

  • 손실함수의 값을 최소화하는 하이퍼 파라미터(Hyper Parameter)의 값을 찾는 것
  • 대표적인 최적화 방법 => 확률적 경사하강법(Stochastic Gradient Descent, SGD)

 

종류

  1. 확률적 경사하강법(SGD) : 손실함수의 기울기와 학습률(Learning Rate)를 사용하여, 기존의 가중치 값을 갱신
  2. 모멘텀 (Momentum) :  갱신 경로는 마치 공이 그릇 바닥을 구르는 듯한 움직임을 보인다.
  3. AdaGrad 
  4. RMSProp
  5. Adam : 경험적으로 가장 많이 쓰이는 것 같다. 모멘텀과 AdaGrad를 합친 것.

 

 

경사하강법 [그림출처 : https://welcome-to-dewy-world.tistory.com/88] 
Adam에 의한 최적화 갱신 경로 [그림출처 : https://welcome-to-dewy-world.tistory.com/88]

 

경사하강법 vs 확률적 경사하강법

 경사하강법은 한스텝 내딛을 때마다 전체 데이터를 이용하기 때문에 오랜 시간이 걸린다. 하지만, SGD는 랜덤하게 추출한 일부 데이터를 사용하기 때문에 속도가 매우 빠르다. 하지만, 결과의 진폭이 크고 불안정하며, 이로 인해 지역 최솟값에서 탈출하기는 쉽지만, 전역 최솟값에 도달하긴 힘들 수 있다. 그래서 나온 것이 '미니 매치 경사하강법'이다.

 mini-batch gradient descent는 mini-batch 안의 모든 데이터를 대상으로 경사하강법을 수행하므로, 속도와 안정성을 모두 만족시킬 수 있는 방법이라고 할 수 있다. 

[이미지 출처 : https://valuefactory.tistory.com/460]

 

반응형

+ Recent posts