Optimization

Optimization

Reference의 두 자료가 2018년 후반부에 정리된 자료인데 매우 잘 설명되어 있다.
다음의 10가지 optimization을 비교하는 포스팅이다.

Stochastic Gradient Descent
Momentum
Nesterov accelerated gradient
Adagrad
Adadelta
RMSprop
Adam
AdaMax
Nadam
AMSGrad

또한 다음과 같이 그래프로 한눈에 보기 쉽게 그려노았다.

딥러닝 구조를 설계하고 학습할 때 나는 대부분 그 쪽 분야, 이전 논문 등에서 사용한 optimization을 그대로 사용했었다.
하지만 이것을 제대로 이해한다면 꼭 따라서 쓰지 않고 적절히 잘 활용할 수 있지 않을까..?

Reference

자료1 본문: http://ruder.io/optimizing-gradient-descent/

한글 번역: https://brunch.co.kr/@chris-song/50

자료2: https://towardsdatascience.com/10-gradient-descent-optimisation-algorithms-86989510b5e9

댓글