Summary ๐ค
Gradient Descent๋ ๋ค์์ผ๋ก ๊ฐ๋จํ ๋ถ๋ฅํ ์ ์๋ค.
- Stochastic Gradient Descent : ํ๊ฐ์ ์ํ๋ก๋ถํฐ Gradient๋ฅผ ๊ณ์ฐํ์ฌ ์ ๋ฐ์ดํธ
- Mini-batch Gradient Descent : ๋ฐ์ดํฐ์ subset์ผ๋ก Gradient๋ฅผ ๊ณ์ฐํ์ฌ ์ ๋ฐ์ดํธ
- Batch Gradient Descent : ๋ชจ๋ ๋ฐ์ดํฐ๋ก Gradient๋ฅผ ๊ณ์ฐํ์ฌ ์ ๋ฐ์ดํธ
๋ฐฐ์น ์ฌ์ด์ฆ๊ฐ ํฌ๋ฉด sharp minimizers์ ์๋ ดํ๋ ๊ฒฝํฅ์ด ์๊ณ , ์์ผ๋ฉด flat minimizer์ ์๋ ดํ๋ ๊ฒฝํฅ์ด ์๋ค. On Large-batch Training for Deep Learning Generalization Gap and Sharp Minima, 2017
Index ๐
Stochastic Gradient Descent
\[W_{t+1} = W_t - \eta g_t\]
๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ Gradient Descent์ ๋ฐฉ๋ฒ์ด๋ค.
์ด๋ Learning Rate๋ฅผ ๋ํ๋ด๋ hyperparameter $\eta$๋ฅผ ์ ์ ํ ์ค์ ํด๋ ๊ฒ์ด ์ค์ํ๋ค.
Momentum
\[\begin{aligned} a_{t+1} & \leftarrow \beta a_{t}+g_{t} \\ W_{t+1} & \leftarrow W_{t}-\eta a_{t+1} \end{aligned}\]
์ด์ ํ์ต์ ๊ด์ฑ์ ์ ์ง์์ผ Gradient๊ฐ ๋ณํ๋๋ผ๋ ์ด์ ์ ๋ณด๋ฅผ ํ์ฉํ๋ค.
$\beta$๋ Momentum์ ๊ฐ์ ๋ํ๋ด๋ hyper parmeter์ด๋ค.
$a_t$๋ accumulation์ผ๋ก์ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ ๋ฐ ์ค์ ๋ก ์ํฅ์ ๋ฏธ์น๋ค.
๋ค๋ง ๊ด์ฑ์ผ๋ก ์ธํด ๋ฉ์ถฐ์ผํ ์ง์ (local minima)์ convergeํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ์๊ธธ ์ ์๋ค.
Nesterov accelerated Gradient(NAG)
\[\begin{aligned} a_{t+1} & \leftarrow \beta a_{t}+\nabla \mathcal{L}\left(W_{t}-\eta \beta a_{t}\right) \\ W_{t+1} & \leftarrow W_{t}-\eta a_{t+1} \end{aligned}\]
Momentum์ ๋จ์ ์ ๋ณด์ํ ์ ์๋ ๋ฐฉ๋ฒ์ด๋ค. Momentum์ ๊ด์ฑ๊ณผ Gradient๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ๊ณ์ฐํ์ง๋ง, NAG๋ Momentum๋งํผ ๋จผ์ ์ด๋ํ ๋ค Gradient๋ฅผ ๊ณ์ฐํ๋ค.
๋ฐ๋ฆฌ์ Momentum์ ์ฅ์ ์ ์ ์งํ๋ฉด์, ๋ฉ์ถฐ์ผํ ์ง์ ์ ๋ฉ์ถ๋๋ฐ์ ํจ์ฌ ์ฉ์ดํ๋ค.
Adagrad
\(W_{t+1}=W_{t}-\frac{\eta}{\sqrt{G_{t}+\epsilon}} g_{t}\)
$G_t$ : sum of Gradient squares
$\epsilon$ : for numerical stability
Adaptive Gradient๋ก ํ๋ผ๋ฏธํฐ ๊ฐ๋ค์ ๋ณํ๋์ ์ํด Learning Rate๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ๋ณํ๋์ด ๋ง์ ํ๋ผ๋ฏธํฐ๋ LearningRate๋ฅผ ๊ฐ์์ํค๊ณ , ์ ์ ํ๋ผ๋ฏธํฐ๋ LearningRate๋ฅผ ์ฆ๊ฐ์ํค๋๋ก ์ ๋ํ ์ ์๋ค.
๋จ, ํ์ต์ด ์งํ๋ ์๋ก $G_t$ ๊ฐ์ด ์ฆ๊ฐํ์ฌ LearningRate๊ฐ 0์ ๊ฐ๊น์์ง๋ ๋ฌธ์ (monotonically decreasing)๊ฐ ๋ฐ์ํ ์ ์๋ค.
Adadelta
\[\begin{aligned} G_{t} &=\gamma G_{t-1}+(1-\gamma) g_{t}^{2} \\ W_{t+1} &=W_{t}-\frac{\sqrt{H_{t-1}+\epsilon}}{\sqrt{G_{t}+\epsilon}} g_{t} \\ H_{t} &=\gamma H_{t-1}+(1-\gamma)\left(\Delta W_{t}\right)^{2} \end{aligned}\]
$G_t$ : EMA of Gradient squares
$H_t$ : EMA of difference squares
Adagrad์ ๋ฌธ์ ์ ์ ๋ณด์ํ๊ธฐ ์ํด EMA(exponential moving average)๋ฅผ ์ทจํ๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก๋ ์ต๊ทผ์ Gradient์ ๋ฐ๋ผ ๋ฐ๋๋ก ํ์ต๋ฅ ์ ์กฐ์ ํ๋ ๊ฒ์ด๋ค.
ํน์ง์ ๋ช ์์ ์ธ Learning Rate๊ฐ ์๋ค๋ ์ ์ด๋ค.
๋ฐ๋ผ์ ์ปค์คํ ์์ญ์ด ์ ์ด ์ค์ ๋ก๋ ์ ์ฌ์ฉ๋์ง ์๋๋ค.
RMSprop
\[\begin{aligned} G_{t} &=\gamma G_{t-1}+(1-\gamma) g_{t}^{2} \\ W_{t+1} &=W_{t}-\frac{\eta}{\sqrt{G_{t}+\epsilon}} g_{t} \end{aligned}\]
$G_t$ : EMA of Gradient squares
๋ ผ๋ฌธ์ ํตํด ์๊ฐ๋ ๋ฐฉ๋ฒ๋ก ์ ์๋๊ณ Geoff Hinton์ ๊ฐ์์์ ์๊ฐ๋ ๋ ํนํ ๋ฐฉ๋ฒ์ด๋ค.
ํน์ง์ Adadelta์ Learning rate๊ฐ ์ถ๊ฐ๋์๋ค๋ ๊ฒ์ด๋ค.
Adam
\[\begin{aligned} m_{t} &=\beta_{1} m_{t=1}+\left(1-\beta_{1}\right) g_{t} \\ v_{t} &=\beta_{2} v_{t-1}+\left(1-\beta_{2}\right) g_{t}^{2} \\ W_{t+1} &=W_{t}-\frac{\eta}{\sqrt{v_{t}+\epsilon}} \frac{\sqrt{1-\beta_{2}^{t}}}{1-\beta_{1}^{t}} m_{t} \end{aligned}\]
$m_t$ : Momentum
$v_t$ : EMA of Gradient squares
Adaptive Moment Estimation
์์ ์๊ฐ๋ Momentum๊ณผ Adaptive, ์ด ๋ ๊ฐ๋ ์ ์ ์ฉํฉํ ๋ฐฉ๋ฒ์ด๋ค.