Summary ๐ค
Generalization์ ๋์ด๊ธฐ ์ํด ํ์ต์ ๋ฐฉํดํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ค์ ๋งํด test set์์ ์ ๋์ํ๊ฒ ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด๋ค.
Index ๐
- Early Stopping
- Parameter Norm Penalty
- Data argumentation
- Noise robustness
- Label smoothing
- Dropout
- Batch normalization
Early Stopping
์ถ๊ฐ์ ์ธ Validation Data๋ฅผ ๊ตฌ์ฑํ๊ณ , Training Error์ Validation Error์ ์ฐจ์ด๊ฐ ์ฆ๊ฐํ ๋ ํ์ต์ ๋ฉ์ถ๋ ๋ฐฉ๋ฒ์ด๋ค.
Parameter Norm Penalty
\[\begin{aligned} &\text { total } \operatorname{cost}=\operatorname{loss}(\mathcal{D} ; W)+\frac{\alpha}{2}\|W\|_{2}^{2} \end{aligned}\]
Weight Parameter์ ํฌ๊ธฐ(์ ๋๊ฐ)๋ฅผ ์ ๊ทํํ์ฌ ์๊ฒ ๋ง๋๋ ๊ฒ์ด๋ค.
๋ถ๋๋ฌ์ด ํจ์๊ฐ Generalization ์ฑ๋ฅ์ด ๋์ ๊ฒ์ด๋ผ๋ ๊ฐ์ ์์ ์ถ๋ฐํ๋ค.
Data argumentation
๋ฐ์ดํฐ๊ฐ ๋ง์ ์๋ก ์ฑ๋ฅ์ด ๋์์ง๋ค. ๋จ, ๋ฐ์ดํฐ๊ฐ ํ์ ์ ์ธ ๊ฒฝ์ฐ์ Label์ด ๋ณํ์ง ์๋ ์ ์์ ๋ฐ์ดํฐ๋ฅผ ๋ณํํ์ฌ ๋ฐ์ดํฐ ์ ์ ์ฆ๊ฐ์ํฌ ์ ์๋ค.
Noise Robustness
์ ๋ ฅ์ด๋ Weight์ Noise๋ฅผ ์ค๊ฐ์ ์ง์์ ์ผ๋ก ๋ฃ์ด์ฃผ๋ฉด ๋ ํ์ต๋ฅ ์ด ๋์์ง ์ ์๋ค. (์ด์ ๋ ์์ง ๋ชจ๋ฆ)
Label smoothing
- Mixup : ๋๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ์๊ณ label๋ ์๋๋ค.
- Cutout : ์ด๋ฏธ์ง์ ์ผ์ ์์ญ์ ๋บ๋ค.
- CutMix : ํน์ ์์ญ์ ์๋ผ ๋ค๋ฅธ ์ด๋ฏธ์ง๋ฅผ ๋ฃ๋๋ค.
Dropout
weight์ ์ผ๋ถ ํ๋ผ๋ฏธํฐ๋ฅผ 0์ผ๋ก ์ด๊ธฐํ ํ์ฌ ํน์ feature์ ๊ตญํ๋์ง ์๋๋ก ํ๋ค.
Batch Normalization
\[\begin{aligned} \mu_{B} &=\frac{1}{m} \sum_{i=1}^{m} x_{i} \\ \sigma_{B}^{2} &=\frac{1}{m} \sum_{i=1}^{m}\left(x_{i}-\mu_{B}\right)^{2} \\ \hat{x}_{i} &=\frac{x_{i}-\mu_{B}}{\sqrt{\sigma_{B}^{2}+\epsilon}} \end{aligned}\]
layer์ weight ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๊ทํํ๋ค. (๋ ผ๋์ด ๋ง์ผ๋ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ์ ์ฑ๋ฅ์ด ํฅ์๋๋ค.)