[DL/ML]Gradient Descent Methods

Summary 🤙

Gradient Descent는 다음으로 간단히 분류할 수 있다.

Stochastic Gradient Descent : 한개의 샘플로부터 Gradient를 계산하여 업데이트
Mini-batch Gradient Descent : 데이터의 subset으로 Gradient를 계산하여 업데이트
Batch Gradient Descent : 모든 데이터로 Gradient를 계산하여 업데이트

배치 사이즈가 크면 sharp minimizers에 수렴하는 경향이 있고, 작으면 flat minimizer에 수렴하는 경향이 있다. On Large-batch Training for Deep Learning Generalization Gap and Sharp Minima, 2017

Stochastic Gradient Descent

\[W_{t+1} = W_t - \eta g_t\]

가장 기본적인 Gradient Descent의 방법이다.

이때 Learning Rate를 나타내는 hyperparameter $\eta$를 적절히 설정해는 것이 중요하다.

Momentum

\[\begin{aligned} a_{t+1} & \leftarrow \beta a_{t}+g_{t} \\ W_{t+1} & \leftarrow W_{t}-\eta a_{t+1} \end{aligned}\]

이전 학습의 관성을 유지시켜 Gradient가 변하더라도 이전 정보를 활용한다.
$\beta$는 Momentum의 값을 나타내는 hyper parmeter이다.
$a_t$는 accumulation으로서 가중치를 조정하는 데 실제로 영향을 미친다.

다만 관성으로 인해 멈춰야할 지점(local minima)에 converge하지 못하는 경우가 생길 수 있다.

Nesterov accelerated Gradient(NAG)

\[\begin{aligned} a_{t+1} & \leftarrow \beta a_{t}+\nabla \mathcal{L}\left(W_{t}-\eta \beta a_{t}\right) \\ W_{t+1} & \leftarrow W_{t}-\eta a_{t+1} \end{aligned}\]

Momentum의 단점을 보완할 수 있는 방법이다. Momentum은 관성과 Gradient를 독립적으로 계산하지만, NAG는 Momentum만큼 먼저 이동한 뒤 Gradient를 계산한다.

따리서 Momentum의 장점은 유지하면서, 멈춰야할 지점에 멈추는데에 훨씬 용이하다.

Adagrad

$W_{t+1}=W_{t}-\frac{\eta}{\sqrt{G_{t}+\epsilon}} g_{t}$ $G_t$ : sum of Gradient squares
$\epsilon$ : for numerical stability

Adaptive Gradient로 파라미터 값들의 변화량에 의해 Learning Rate를 조절하는 방법으로, 변화량이 많은 파라미터는 LearningRate를 감소시키고, 적은 파라미터는 LearningRate를 증가시키도록 유도할 수 있다.

단, 학습이 진행될 수록 $G_t$ 값이 증가하여 LearningRate가 0에 가까워지는 문제(monotonically decreasing)가 발생할 수 있다.

Adadelta

\[\begin{aligned} G_{t} &=\gamma G_{t-1}+(1-\gamma) g_{t}^{2} \\ W_{t+1} &=W_{t}-\frac{\sqrt{H_{t-1}+\epsilon}}{\sqrt{G_{t}+\epsilon}} g_{t} \\ H_{t} &=\gamma H_{t-1}+(1-\gamma)\left(\Delta W_{t}\right)^{2} \end{aligned}\]

$G_t$ : EMA of Gradient squares
$H_t$ : EMA of difference squares

Adagrad의 문제점을 보완하기 위해 EMA(exponential moving average)를 취한다.

결과적으로는 최근에 Gradient에 따라 반대로 학습률을 조정하는 것이다.

특징은 명시적인 Learning Rate가 없다는 점이다.
따라서 커스텀 영역이 적어 실제로는 잘 사용되지 않는다.

RMSprop

\[\begin{aligned} G_{t} &=\gamma G_{t-1}+(1-\gamma) g_{t}^{2} \\ W_{t+1} &=W_{t}-\frac{\eta}{\sqrt{G_{t}+\epsilon}} g_{t} \end{aligned}\]

$G_t$ : EMA of Gradient squares

논문을 통해 소개된 방법론은 아니고 Geoff Hinton의 강의에서 소개된 독특한 방법이다.

특징은 Adadelta에 Learning rate가 추가되었다는 것이다.

Adam

\[\begin{aligned} m_{t} &=\beta_{1} m_{t=1}+\left(1-\beta_{1}\right) g_{t} \\ v_{t} &=\beta_{2} v_{t-1}+\left(1-\beta_{2}\right) g_{t}^{2} \\ W_{t+1} &=W_{t}-\frac{\eta}{\sqrt{v_{t}+\epsilon}} \frac{\sqrt{1-\beta_{2}^{t}}}{1-\beta_{1}^{t}} m_{t} \end{aligned}\]

$m_t$ : Momentum
$v_t$ : EMA of Gradient squares

Adaptive Moment Estimation

앞서 소개된 Momentum과 Adaptive, 이 두 개념을 잘 용합한 방법이다.