Summary ๐ค
โ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ข๋คโ๋ผ๋ ๊ธฐ์ค๋ค์ ์์๋ณด๊ณ ์ด๋ป๊ฒ ํฅ์์ํฌ ์ ์๋์ง ์์๋ณธ๋ค.
๋จ, ์ด๋ค ๋ฐฉ๋ฒ์ด๋ test data๋ฅผ ํ์ฉํ๋ฉด cheating์์ ๋ช ์ฌํ์.
Index ๐
- Generalization
-
[fitting(Under Over)](#UnderfittingโOverfitting) - Cross validation
- Bias-variance tradeoff
- BootStrapping
- Bagging & Boosting
Generalization
Trainning Error์ Test Error์ ์ฐจ์ด๋ฅผ ๋ํ๋ด๋ ๊ฒ์ผ๋ก ์ด Gap์ ์ค์ด๋ ๊ฒ์ ๋ชฉํ๋ก ๊ฐ์ง๊ฒ ๋๋ค.
ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ป์ Weight๊ฐ ์ค์ ๋ฐ์ดํฐ(test data)์์๋ ์ผ๋ง๋ ์ ์ ์ฉ๋๋์ง ๋ํ๋ธ๋ค.
Underfitting & Overfitting
Underfitting ์ด๋ ํ์ต ๋ฐ์ดํฐ์ ๋ง๋ ํ๋ผ๋ฏธํฐ๊ฐ ๋์จํ๊ฒ ํ์ต๋ ํํ๋ก์ ์ ์ ํ ํ๋ผ๋ฏธํฐ๋ก ํ๋จํ๊ธฐ ์ด๋ ค์์ง๋ค.
Overfitting ์ด๋ ํ์ต ๋ฐ์ดํฐ์ ๊ณผ๋ํ๊ฒ ์ต์ ํ๋ ๊ฒ์ผ๋ก์ ์์ ์ธ๊ธํ Generalization gap์ ์ฆ๊ฐ์ํฌ ์ ์๋ค.
Cross-validation
K-fold Cross-validation์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํ๋ค.
๋ฐ์ดํฐ์
์ ์ผ์ ํ ํฌ๊ธฐ๋ก k ๊ทธ๋ฃน์ผ๋ก ๋๋์ด 1๊ฐ์ validation set(test set์ด ์ ๋ ์๋๋ค.)๊ณผ k-1๊ฐ์ training set์ผ๋ก ๋๋์ด ํ์ต์ ํ์ฉํ๋ ๊ฒ์ด๋ค.
์๋ฅผ ๋ค์ด 100๊ฐ์ ๋ฐ์ดํฐ ์
์ 10๊ฐ์ fold๋ก ๋๋๊ณ ๋ชจ๋ธA์ ๋ํด์๋ 1~9 fold ๋ฐ์ดํฐ์
์ training set์ผ๋ก ํ์ฉํ๊ณ 10 fold ๋ฐ์ดํฐ์
์ validation set์ผ๋ก ํ์ฉ, ๋ชจ๋ธ B, C์ ๋ํด์ ๊ฐ๊ฐ ๋ค๋ฅธ validation set์ ํ์ฉํด ๊ฐ๊ฐ์ ์ฑ๋ฅ์ ๋น๊ตํ์ฌ ์ ์ ํ ๋ชจ๋ธ์ ํํ๋ ๋ฐฉ์์ด๋ค.
์ฃผ๋ก hyperparameter(learing rateโฆ)์ ๊ฐ์ ๋ชจ๋ธ์ ํน์ง์ ํ๊ฐํ๊ณ ๋น๊ตํ๊ธฐ ์ํด ์ฌ์ฉํ๋ค.
Bias-Variance tradeoff
์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ๊ฐ ์๋ ๊ฒฝ์ฐ Bias์ Variance๋ ๋ค์์ ๊ด๊ณ๋ก ์ธํด ๋๋ค ๋์์ ์ค์ด๋ ๋ชจ๋ธ์ ์ฐพ๋ ๊ฒ์ ํ๋ค๋ค.
Cost = Bias^2 + Variance + Noise
$\begin{aligned} \mathbb{E}\left[(t-\hat{f})^{2}\right] &=\mathbb{E}\left[(t-f+f-\hat{f})^{2}\right] \ &=\cdots \ &=\mathbb{E}\left[\left(f-\mathbb{E}[\hat{f}]^{2}\right)^{2}\right]+\mathbb{E}\left[(\mathbb{E}[\hat{f}]-\hat{f})^{2}\right]+\mathbb{E}[\epsilon] \end{aligned}$
BootStrapping
ํ์ต๋ฐ์ดํฐ๊ฐ ์์ ๋ sub sampling์ ํตํด ๋ฐ์ดํฐ๋ฅผ ๋๋๋ ๊ฒ์ด๋ค.
Bagging & Boosting
Bagging (Bootstrapping aggregating) : ๋ฐ์ดํฐ๋ฅผ bootstraping ํ์ฌ ์ฌ๋ฌ๊ฐ์ ๋ชจ๋ธ๋ก ๋
๋ฆฝ์ ์ผ๋ก ํ์ตํ๋ ๋ฐฉ์์ด๋ค.
Dectreteํ ์์ธก๊ฐ์ vote, ์ฐ์ ๋ฐ์ดํฐ๋ ํ๊ท ์ผ๋ก ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ค.
Related : Random Forest
Boosting : Bagging๊ณผ ๋์ผํ๋ ๊ฐ ๋ชจ๋ธ์ด ๋ ๋ฆฝ์ ์ธ ํํ๊ฐ ์ด๋ Sequentialํ๊ฒ ๋ฐฐ์นํ์ฌ ์ฌ๋ฌ ๊ฐ์ weak learner ๋ฅผ ํตํด 1๊ฐ์ strong learner๋ฅผ ๋ง๋๋ ๋ฐฉ์์ด๋ค.