-
[머신러닝] 옵티마이저(Optimizer)의 종류와 개념 정리 / Gradient Descent with Momentum, RMSProp, ADAM, Bias Correction인공지능 2024. 1. 8. 09:34반응형
* 해당 포스팅은 공돌이의 수학정리노트 (Angelo's Math Notes) 게시글을 요약한 내용을 바탕으로 작성되었음.
Gradient Descent with Momentum
Momemtum을 이용하여 Optimization(최적화)를 진행한다.
Gradient descent에서 learning late가 느릴 때, gradient의 이동 축에 따른 관성이 존재하는 것처럼 속도 차이를 두어 parameter들이 진동하면서 수렴할 때에도 빨리 수렴할 수 있도록 하는 방법이다.
RMSProp(Root Mean Square Propagation)
위의 방법에서 Gradient의 방향은 제하고 크기만을 고려하여 업데이트하는 방식.
각 파라미터별로 learning rate의 크기를 업데이트 해줄 수 있다는 것이 쟁점이다.
ADAM(Adaptive Moment Estimation)
Gradient Descent with Momentum + RMSProp(Root Mean Square Propagation)
Bias Correction
이전의 방법들은 Exponentially Weighted Moving Average (EWMA)의 일종이다. 즉, Average smoothing의 개념이다. Bias Correction은 smoothing의 척도인 $ \beta $ 값을 조절해 (증가시켜) 값들을 smoothing average 값으로 보정해줄 수 있다.
참고 문헌
공돌이의 수학정리노트 (Angelo's Math Notes)
https://angeloyeo.github.io/2020/09/26/gradient_descent_with_momentum.html
반응형'인공지능' 카테고리의 다른 글