๋ฉํฐ ๋ชจ๋ฌ์ ์์ ์๊ฐํ ๋ฐ์ ๊ฐ์ด, ์ฌ๋ฌ ๊ฐ์ง ํํ์ ์๋ฏธ๋ก ์ปดํจํฐ์ ๋ํํ๋ ํ๊ฒฝ์ ๋ปํ๋ค.
Diffusion model์ ์์์๋ ์ธ๊ธํ ๊ฒ์ฒ๋ผ, data์ noise๋ฅผ ์กฐ๊ธ์ฉ ๋ํด๊ฐ๊ฑฐ๋ noise๋ก๋ถํฐ ์กฐ๊ธ์ฉ ๋ณต์ํด๊ฐ๋ ๊ณผ์ ์ ํตํด data๋ฅผ generateํ๋ ๋ชจ๋ธ์ด๋ค.
์์ฑ ๋ชจ๋ธ์์ ๋ง์ด ํ์ฉ๋๋ฉฐ, ํ ์คํธ์ ์ด๋ฏธ์ง, ๊ฐ์ฒด ๊ด์ ๊ด๊ณ๋ฅผ ํตํด AI๊ฐ ํ์ตํ๋ โํ์ฐ(diffusion) ๋ชจ๋ธโ์ ์ฌ์ฉํด์ ์ง์์ ์ถ์ ํ๋ค.
์ด์ฐํ์์๋ ์ ์ฒด ๋ณ์ ๊ฐ ๋ฒ์์ ๊ฑธ์ณ ์๋ ์ฐ์ ๊ฐ๊ฒฉ ๋ชจ์์ ์์ฑํ์ฌ ์ฐ์ ๋ณ์๋ฅผ ์ด์ฐ ๊ธฐ๋ฅ์ผ๋ก ๋ณํํฉ๋๋ค. ์ด๋ฌํ ๋ถ์ฐ์ ๊ฐ์ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ก ์ฒ๋ฆฌ๋๋ค.
์์ฌ ๊ฒฐ์ ํธ๋ฆฌ(decision treeo) ๋ฐ Naive Bayes์ ๊ฐ์ ์ฌ๋ฌ ํ๊ท ๋ฐ ๋ถ๋ฅ ๋ชจ๋ธ์ ์ด์ฐ ๊ฐ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๊ธฐ ๋๋ฌธ์ ์ฌ์ฉํ๋ค.
NVDIA ์ ๊ณต ๊ฐ๋ฐํด๋ก, ๋ง์ ์์ ์ฐ์ฐ์ ๋์์ ์ฒ๋ฆฌํ๋ ๊ฒ์ด ๋ชฉํ์ด๋ค. ๊ทธ๋ฌ๋ฏ๋ก ๋ฅ๋ฌ๋, ์ฑ๊ตด๊ณผ ๊ฐ์ ์ํ์ ๊ณ์ฐ์ ๋ง์ด ์ฐ์ธ๋ค.
1๋1 ํด์ ๊ฒ์์์ ์ฝ๊ฒ ์ ์ฉํ ์ ์๋ ํธ๋ฆฌ๊ตฌ์กฐ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ์๋๋ฐฉ์ด ์ต์ ์ ํ๋จ์ ํ๋ค๋ ์ ์ ๋ฅผ ๊ฐ์ง๊ณ ๊ณ์ฐํ๋ค.
- MIN: ์ ์ ์ ์ต์ ์ ์ ํ
- MAX: AI ๋ก๋ด์ ์ต์ ์ ์ ํ
์ด ์๊ณ ๋ฆฌ์ฆ์ MIN๊ณผ MAX๋ฅผ ๋ฒ๊ฐ์ ๊ณ์ฐํ์ฌ ๊ฒฐ๊ณผ๊ฐ์ผ๋ก, ์ด๋ ์ ์ ์ ์ ํ์ ์ผ๋ํ ๊ฒฐ๊ณผ์ด๋ค.
Hierarchy ๊ตฌ์กฐ๋ก ๋์ด ์์ด ์ํ๊ด๊ณ๋ฅผ ๋ํ๋ธ ์ ์๋ ์๋ฃ๊ตฌ์กฐ์ด๋ค.
- cycle์ด ์๋ค.
node์ edge๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๊ฐ node ๊ฐ ๋ฐฉํฅ์ฑ๊ณผ width๋ฅผ ํตํด ์ผ๋ง๋ ์๋ก ์ฐ๊ด์ด ์๋์ง ๋ํ๋ผ ์ ์๋ ์๋ฃ๊ตฌ์กฐ์ด๋ค.
- cycle์ด ์์ ์ ์๋ค.
๋ ๊ฐ์ ํ๋ฅ ๋ณ์ ์ฌ์ด์ ์ํธ์ ๋ณด๋(mutual information)์ ํ๋์ ํ๋ฅ ๋ณ์๊ฐ ๋ค๋ฅธ ํ๋์ ํ๋ฅ ๋ณ์์ ๋ํด ์ ๊ณตํ๋ ์ ๋ณด์ ์์ ์๋ฏธํ๋ค.
๋ฐ์ดํฐ ์ฐจ์์ด ์ฆ๊ฐํ๋ฉด์ ๋ฐ์ดํฐ ๋ฐ๋๋ ๋ฎ์์ง๊ฒ ๋๋ค.
์ด ๋ณต์กํ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋ ๋ชจ๋ธ์ ๋ณต์ก๋ ๋ํ ์ฆ๊ฐํ๊ณ , ๊ฒฐ๊ตญ ํ์ต๋ฐ์ดํฐ ์๊ฐ ๋ชจ๋ธ ๋ณต์ก๋ ๋ณด๋ค ๋ฎ์์ง๊ฒ ๋๋ค.
์ด๊ฒ์ ์ฅ์ฐจ ๊ณผ์ ํฉ ํ์์ ์ ๋ฐํ๋ ๊ณ๊ธฐ๊ฐ ๋๋ค.
Linear regression(ํ๊ท๋ถ์)์์๋ ์์ธก๊ฐ๊ณผ ์ข ์๋ณ์๊ฐ ์ค์์ด์ง๋ง, Logistic regression(๋ก์ง์คํฑ ํ๊ท๋ถ์)์์๋ *์์ธก๊ฐ๊ณผ ์ข ์๋ณ์ y๊ฐ์ด 0 ๋๋ 1์ ๊ฐ์ง๋ค.
๋ฐ๋ผ์, ๋ก์ง์คํฑ ํ๊ท๋ถ์์์ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ ๋ 0์ธ์ง 1์ธ์ง ์์ธกํ๋ ๋ชจ๋ธ์ ๋ง๋ค๊ณ ์ sigmoid ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
ํ์ฑํํจ์๋ ์ ๋ ฅ ์ ํธ์ ์ดํฉ์ ์ถ๋ ฅ ์ ํธ๋ก ๋ณํํ๋ ํจ์๋ก, ์ ๋ ฅ ๋ฐ์ ์ ํธ๋ฅผ ์ผ๋ง๋ ์ถ๋ ฅํ ์ง ๊ฒฐ์ ํ๊ณ Network์ ์ธต์ ์์ ๋น์ ํ์ฑ์ ํํํ ์ ์๋ค.
Multivariate functions acting on a linear combination of the input variable
- Linear
- ReLU
- Logistic
ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ฐ์ง๋ ์ ๊ท๋ถํฌ์ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ๊ทผ์ฌํ๋ค. kernel function์ ์ฌ์ฉํ์ฌ ๋น์ ํ์ ์ธ ๋ฐ์ดํฐ ๋ถํฌ์ ๋ํ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋ฉฐ, MLP๋ณด๋ค ํ์ต์ด ๋น ๋ฅด๋ค
- Gaussian
Folding activation functions are extensively used in the pooling layers in convolutional neural networks, and in output layers of multiclass classification networks. These activations perform aggregation over the inputs, such as taking the mean, minimum or maximum. In multiclass classification the softmax activation is often used.
- Softmax
๊ฐ์ ๊ณ์ ๋์ ํ์ฌ ํจ์๊ฐ์ 0(f(x) = 0์ธ x)์ผ๋ก ๋ง๋ค์ด์ฃผ๋ ๊ฐ์ธ ํด๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ ์ค ํ๋์ด๋ค.
ํ์ฌ x๊ฐ์์ ์ ์ ์ ๊ทธ๋ฆฌ๊ณ ์ ์ ์ด x์ถ๊ณผ ๋ง๋๋ ์ง์ ์ผ๋ก x๋ฅผ ์ด๋์์ผ ๊ฐ๋ฉด์ ์ ์ง์ ์ผ๋ก ํด๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ด๋ค.
2์ฐจ ๋ฐฉ์ ์์ ์ธ์๋ถํด์ ๋น์ทํด๋ณด์ด์ง๋ง, 7์ฐจ ๋ฐฉ์ ์์ ๊ฒฝ์ฐ ์ธ์๋ถํด๊ฐ ์ด๋ ค์, ๋ดํด๋ฒ์ ์ฌ์ฉํ๋ค.
๋ถํ์ค์ฑ์ ์ง๋ฉดํ์ฌ ๊ฒฐ์ ์ ๋ด๋ฆฌ์ง ์์ผ๋ฉด ์ ๋ ๊ฒฝ์ฐ, ์ด๋ค ๊ฒฐ์ ์ ํด์ผํ ๊ฒ์ด๋ฉฐ, ๋ ์ด๋ค ์ ๋ณด๋ฅผ ์ด๋ป๊ฒ ์ด์ฉํด์ผ ํ๋๊ฐ์ ๊ดํ ๋ฌธ์ ์ ๋ตํ๋ ค๋ ํต๊ณ์ ๊ฒฐ์ ์ด๋ก ์ด๋ค.
๊ธฐ๋ํจ์ฉ์ด ์ต๋๊ฐ ๋๋๋ก ๊ฒฐ์ ํ๋ ๊ฒ์ '์ฐ์ญ'์ด๋ผ ์ผ์ปซ๋๋ค. ๊ฒฐ์ ์์๊ฒ ๋ถํ์ค์ฑ ํ์์ ํฉ๋ฆฌ์ ์ด๊ณ ๊ฐ์ฅ ์ ์ ํ ๊ฒฐ์ ์ ๋์ถํ๋ ๊ฒ์ด๋ค.
Naive Beyas ์ ๋ฆฌ๋ฅผ ํ ๋๋ก ์ฌ์ ํ๋ฅ ์ ํตํ ์ฌํํ๋ฅ ๋์ถ์ด๋ผ๋ ๊ตฌ์ฒดํ ๊ณผ์ ์ ๊ฑฐ์น๋ค.
ROC ๊ณก์ ์ Binary Classifier System์ ๋ํ ์ฑ๋ฅ ํ๊ฐ ๊ธฐ๋ฒ์ผ๋ก, ๋ชจ๋ธ์ด ๋ง๊ฒ ์์ธกํ TP๋ฅผ y์ถ์ผ๋ก ํ๋ฆฌ๊ฒ ์์ธกํ FP๋ฅผ x์ถ์ผ๋ก ํ์ฌ ๋ํ๋ฅผ ๊ทธ๋ฆฐ๋ค.
์ข์๋จ์ผ๋ก ๊ฐ์ฅ ๋ง์ด ์น์ฐ์น ๊ทธ๋ํ๋ฅผ ๊ฐ๋ ๋ชจ๋ธ์ด ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๊ณ ํ ์ ์๋ค.
ROC curve์ ๋ฐ๋ฉด์ ์ ๋งํ๋ค.
์ฑ๋ฅ ํ๊ฐ์ ์์ด์ '์์น์ ์ธ ๊ธฐ์ค'์ด ๋ ์ ์๋ ๊ฐ์ผ๋ก, 1์ ๊ฐ๊น์ธ์๋ก ๊ทธ๋ํ๊ฐ ์ข์๋จ์ ๊ทผ์ ํ๊ฒ ๋๋ฏ๋ก ์ข์ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์๋ค.
์ค์ง๋ํ์ต์ ์๋์ labeled data์๋ใด supervised learning์ ํ์ฉํ๊ณ , ์๋์ unlabeled data ํน์ ๋์ฉ๋ unalbeled data์ ๋ํ์ฌ unsupervised learning์ ์ ์ฉํด ์ถ๊ฐ์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋ชฉํ๋ก ํ๋ค.
๊ธฐ์กด ์ง๋ํ์ต์ label ์ข ์์ฑ์์ ๋ค์ ๋ฒ์ด๋ '๋ฐ์ดํฐ ์์ฒด์ ๋ณธ์ง์ ์ธ ํน์ฑ'์ ๋ชจ๋ธ๋งํ์ฌ ์๋์ labeled data๋ฅผ ํตํ ์ฝ๊ฐ์ ๊ฐ์ด๋๋ก ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฐ๋ค.
- smoothness: ๊ฐ์ class/cluster์ ์์นํ ๋ ์ ๋ ฅ์ด ์ ๋ ฅ๊ณต๊ฐ ์์์ ๊ณ ๋ฐ๋ ์ง์ญ์ ์์นํ๋ค๋ฉด, ํด๋น ์ถ๋ ฅ๋ ๊ฐ๊น์ธ ๊ฒ์ด๋ค.
- cluster: ๋ฐ์ดํฐ ํฌ์ธํธ๋ค์ด ๊ฐ์ cluster์ ์๋ค๋ฉด, ๊ทธ๋ค์ ๊ฐ์ class์ผ ๊ฒ์ด๋ค.
- manifold: ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์ manifold๋ก ๋ณด๋ผ ์ ์๋ค (๊ณ ์ฐจ์์์๋ ๊ฑฐ๋ฆฌ๊ฐ ๋น์ทํ์ฌ ๋ถ๋ฅ๊ฐ ์ด๋ ค์์ ์ ์ฐจ์์ผ๋ก ๋งตํํด์ผ ํ๋ค).
- CIFA-100
- ImageNet
ํ์คํ: ํ๊ท ์ด 0์ด๊ณ ๋ถ์ฐ์ด 1์ธ ๊ฐ์ฐ์์ ์ ๊ท๋ถํฌ๋ฅผ ๊ฐ์ง ๊ฐ์ผ๋ก ๋ณํํ๋ค.
์ ๊ทํ: ๋ชจ๋ ๋์ผํ ํฌ๊ธฐ ๋จ์๋ก ๋น๊ตํ๊ธฐ ์ํด ๊ฐ์ ๋ชจ๋ 0๊ณผ 1์ฌ์ด(์์๊ฐ ์์๊ฒฝ์ฐ -1๊ณผ 1์ฌ์ด)์ ๊ฐ์ผ๋ก ๋ณํํ๋ค.
MinMaxScaler: ๋ฐ์ดํฐ๊ฐ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด์ง ์์๋ ๋ ๋, 0๊ณผ 1์ฌ์ด์ ๋ฒ์๊ฐ์ผ๋ก ๋ณํํ๋ค.
ํ๋์ ํ ์คํธ์ ์ผ๋ก ๋ชจ๋ธ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๊ฒ์ ์น์ค๋ ํ ์คํธ์ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ ์ ์๋ค (ํ ํ ์คํธ์ ์ ๋ํด์๋ง ์ฑ๋ฅ์ด ์ข๊ฒ ๋์์์๋).
๋ฐ๋ผ์, ํ๋ จ ๋ฐ์ดํฐ์ ์ ๋ํ์ฌ ์ผ์ ๋น์จ์ fold๋ก ๋ถ๋ฅํ์ฌ ํ ์คํธ ๊ฒ์ฆ๊ณผ ๋ณ๊ฐ๋ก ํ๋์ฉ ํ ์คํธ์ ์ผ๋ก ์ฌ์ฉํ๋ฉด์ ๊ต์ฐจ ๊ฒ์ฆ์ ์ํํ๋ค.
์ด๋ฅผ ํตํด, ๋ฐ์ดํฐ์ 100%๋ฅผ ํ ์คํธ์ ์ผ๋ก ํ์ฉํ๋ฉด์ ์ด K๊ฐ์ ์ฑ๋ฅ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ณ , ์ด K ๊ฐ๋ค์ ํ๊ท ์ ํด๋น ๋ชจ๋ธ์ ์ฑ๋ฅ์ผ๋ก ๋ฐฐ์ถํ๋ค.
๋ ๋ฆฝ ๋ณ์์ค์์, ์ค๋ณต๋๊ฑฐ๋ ์ข ์๋ณ์ (Y)์ ๊ด๋ จ์ด ์๋ ๋ณ์๋ค์ ์ ๊ฑฐํ์ฌ, Y๋ฅผ ๊ฐ์ฅ ์ ์์ธกํ๋ ๋ณ์๋ค์ ์กฐํฉ์ ์ฐพ์๋ด๋ ์ต์ ํ ๋ฌธ์ ์ด๋ค.
Feature selection์ ์ฌ์ฉํ๋ ์ด์
- output์ ์์ธกํ๋๋ฐ ์๊ด์๋ ๋ณ์ ๅค --> computational cost โ --> overfitting
Feature selection ์ฅ์
- ํ์ต ์๊ฐ์ ์ค์ผ ์ ์๋ค
- ๋ชจ๋ธ์ ๋ถ์ฐ์ ์ค์ธ๋ค --> ๋ณด๋ค robustํ๊ฒ ํ์ต
- ๋ชจ๋ธ ๊ฐ์ํ --> ๊ฒฐ๊ณผ๊ฐ ํด์ ์ฉ์ด
Feature Selection ์ข ๋ฅ
-
- Wrapper method
- Feature ์กฐํฉ ์ ์ --> ๊ธฐ๊ณ ํ์ต --> ์ฑ๋ฅ ํ๊ฐ --> ์กฐํฉ ๋ณ๊ฒฝ (๋ฐ๋ณต) --> ๊ฐ์ฅ ์ฑ๋ฅ ์ข์ ์กฐํฉ์ ์ฐพ์.
-
- Filter method
- ์ ์ฒ๋ฆฌ ๊ณผ์ ์์ ์ฌ์ ์ Feature selection์ ํต๊ณ์ ๋ฐฉ๋ฒ(i.e., ํผ์ด์จ ์๊ด๊ณ์)์ผ๋ก ์คํํ๊ณ , ๋ชจ๋ธ์ ์ ํฉํ๋ค (์์ฒญ๋ ์๊ฐ ๋จ์ถ).
-
- Embedded method
- ๋ชจ๋ธ ์์ฒด์ Feature selection ๊ธฐ๋ฅ์ด ์ถ๊ฐ๋์ด ์๋ ๊ฒฝ์ฐ์ด๋ค; Lasso Regression, Ridge Regression, and Decision Tree.
์ ์ด ํ์ต(Transfer Learning)์ ํน์ ๋ถ์ผ์์ ํ์ต๋ ์ ๊ฒฝ๋ง์ ์ผ๋ถ ๋ฅ๋ ฅ์ ์ ์ฌํ๊ฑฐ๋ ์ ํ ์๋ก์ด ๋ถ์ผ์์ ์ฌ์ฉ๋๋ ์ ๊ฒฝ๋ง์ ํ์ต์ ์ด์ฉํ๋ ๊ฒ์ ์๋ฏธํ๋ค.
์ ์ด ํ์ต์ ํตํด์ ๋ ๋ง์ ์ง์์ ์ป์์ผ๋ก์จ ์ฑ๋ฅ๋ ํฅ์์ํค๊ณ ํ์ต ์๋๋ ๋น ๋ฅด๊ฒ ๋ง๋ค ์ ์๋ค.
์ฑ๋ฅ์ ํฅ์์ํค๋ ค๋ฉด ๊ธฐ๋ณธ์ ์ผ๋ก ๋ฐ์ดํฐ๊ฐ ๋ง์์ผ ํ๋๋ฐ, ๋ฐ์ดํฐ ๋ถ์กฑ์ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ค๋ฅธ ์ง์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์จ๋ค.
- ํ์ต๋ ๋ค๋ฅธ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ฌ ์๋ ์๊ณ , ํ์ต๋ ๋ค๋ฅธ ๋ชจ๋ธ์ ๊ฐ์ ธ์ฌ ์๋ ์๋ค.
- ๋ณด๋ค ์ ์ ๋ฐ์ดํฐ ์์ผ๋ก ์ฑ๋ฅ ๊ฐ์ ๊ฐ๋ฅ
- ์ ์ ์ฐ๋ฆฌ ๋ฐ์ดํฐ + ๋ง์ ์์ค ๋ฐ์ดํฐ
- ํ์ต ์๊ฐ ์ ์ฝ
์ฃผ์ด์ง ์ํฉ์์ ์ด๋ค ํ๋์ ์ทจํ ์ง ๋ณด์ ์ฌ๋ฆฌ(= ์ต๋ํจ์จ) ๋ฐ Greedy algorithm์ผ๋ก ํ์ตํ๋ค.
์์ฑ๋ชจ๋ธ์ ์ฃผ์ด์ง ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ ํ์ต ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ์ ์ฌํ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ๋ก์จ, ํ์ต ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ํ์ตํ๋ ๊ฒ์ด ์์ฑ๋ชจ๋ธ์์ ๊ฐ์ฅ ์ค์ํ๋ค.
๋ถ๋ณ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ x๊ฐ ๋ฐ์ํ ํ๋ฅ ์ธ P(x)๋ ์นดํ ๊ณ ๋ฆฌ y์์ x๊ฐ ๋ฐ์ํ ํ๋ฅ P(x|y)๋ฅผ ๋ช ์์ ์ผ๋ก ๊ณ์ฐํ๋ค.
์ด ํ๋ฅ ์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ ์๋ก์ด ์ํ์ ์์ฑํ ์ ์๋ค.
๊ฐ๋ น, ์์ฐ์ด ์ฒ๋ฆฌ์์ ํ ๋จ์ด(ํ ํฐ)๊ฐ ๋ค์ด์ค๋ฉด ๋ค์์ ์ฌ ์ ์ ํ ํ ํฐ์ ์์ฑํ๋ ์ธ์ด ๋ชจ๋ธ์ด ํ๋์ ์์์ด๋ค.
์์ฑ๋ชจ๋ธ์ ํ ์์๋ก๋ GAN(Generative Aadversarial Netwrok)์ด ์๋ค.
- ํน์ ์ฌ๋์ ํ์ฒด๋ฅผ ํ๋ด ๋ธ ๊ธ์จ๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ, ํน์ ์์์ ๊ทธ๋ฆผ์ ์์ฑํ๋ ๋ชจ๋ธ
์ํ์ ์นดํ ๊ณ ๋ฆฌ๋ง์ ์์ธกํ๋๋ฐ ๊ด์ฌ์ด ์๋ ๋ชจ๋ธ๋ก์จ, x๋ผ๋ ์ํ์ด ์์ ๋ ์ด ์ํ์ ์นดํ ๊ณ ๋ฆฌ๊ฐ y ์ผ ํ๋ฅ , ์ฆ ์ฌํ ํ๋ฅ P(y|x)๋ง์ ์ถ์ ํ๋ฉด ๋๋ค.
๊ฐ๋ น, ์นดํ ๊ณ ๋ฆฌ๊ฐ 4๊ฐ ์กด์ฌํ๋ค๋ฉด ์ํํธ๋งฅ์ค(softmax)์ ๊ฒฝ์ฐ์ ๊ฐ์ด ๊ฐ ์นดํ ๊ณ ๋ฆฌ๋ณ ์ฌํ ํ๋ฅ ์ธ P(y=1|x), P(y=2|x), P(y=3|x), P(y=4|x)๋ฅผ ๊ตฌํ ํ, ์ฌํ ํ๋ฅ ์ด ๊ฐ์ฅ ๋์ ์นดํ ๊ณ ๋ฆฌ๋ก ๋ถ๋ฅํ๋ค.
์์๋ก๋, ํน์ ๋ฐ์ดํฐ์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๋ถ๋ฅํ๋ ๋ชจ๋ธ์ด ํ๋์ ์์์ด๋ค.
๋น์ง๋ํ์ต์ ์ฌ์ฉ๋๋ ๋จธ์ ๋ฌ๋ ํ๋ ์์ํฌ์ ํ ์ข ๋ฅ๋ก, ์์ฑ์์ ๊ตฌ๋ถ์๊ฐ ์๋ก ๋๋ฆฝํ๋ฉฐ(Adversarial:๋๋ฆฝํ๋) ์๋ก์ ์ฑ๋ฅ์ ์ ์ฐจ ๊ฐ์ ํด ๋๊ฐ๋ ์ชฝ์ผ๋ก ํ์ต์ด ์งํํ์ฌ ๊ทธ๋ด ๋ฏํ ๊ฐ์ง๋ฅผ ๋ง๋ค์ด๋ด๋ ๊ฒ์ด ์ฃผ์ ๊ฐ๋ ์ด๋ค.
Cost ํจ์๋ก Discriminator Function์ ์ฌ์ฉํ๋ค.
Discriminator: fake image = 0, real image = 1๋ก ์ถ๋ ฅํ๋๋ก ํ์ตํ๋ ๊ณผ์ ์ผ๋ก, ์์ฑ์ ๊ตฌ๋ถ์๊ฐ ์๋ก ๋ฒ๊ฐ์๊ฐ๋ฉฐ ํ์ต์ ์งํํ๋ค.
๋ชจ๋ ์ฌ๊ฑด์ ๊ฒฐ๊ณผ๊ฐ ์ด์ ์ฌ๊ฑด์ ๊ฒฐ๊ณผ์ ์ํฅ์ ๋ฐ๋ ํ๋ฅ ๋ก ์ ๋ชจํ์ด๋ค.
๊ณ ์ฐจ์ ๊ณต๊ฐ์์ ์ผ๋ถ ํน์ฑ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ํํํ๋ ๋ฐฉ๋ฒ์ผ๋ก, 3์ฐจ์ ๊ณต๊ฐ์ ๋ฐ์ดํฐ๋ฅผ 2์ฐจ์ ๋ถ๋ถ ๊ณต๊ฐ์ผ๋ก ํฌ์ ์์ผ 2์ฐจ์ ๋ฐ์ดํฐ์ ์ ๋ง๋๋ ๊ฒ์ด๋ค.
๊ณ ์ฐจ์๋ฐ์ดํฐ๊ฐ ์์ ๋ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ๋ฅผ ์ ๋ฐ์ ์ผ๋ก ์ ์์ฐ๋ฅด๋ subpsace๊ฐ ์กด์ฌํ๋ค๋ ๊ฐ์ ์์ ํ์ต์ ์ํํ๋ค.
- ์ด๋ ๊ฒ ์ฐพ์ Manifold๋ ๋ฐ์ดํฐ์ ์ฐจ์์ ์ถ์์ํฌ ์ ์๋ค.
- ๋๋ถ๋ถ์ ์ฐจ์ ์ถ์ ์๊ณ ๋ฆฌ์ฆ (= LDA)์ด ์ด๋ฌํ ๋งค๋ํด๋๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋ฐฉ์์ผ๋ก ๋์ํ๋ค.
Manifold ๊ณต๊ฐ์์, ๋ฐ์ดํฐ๊ฐ ๊ฐ๊ณ ์๋ ๋ณํ์ง ์๋ ๊ณ ์ ํน์ฑ์ ์ฐพ๋๋ฐ ์ฌ์ฉ๋๋ค (= ๋ฐ์ดํฐ ๋ณธ์ฐ์ geometric ํน์ฑ์ ์ ์งํ๋ฉด์ ์ ์ฐจ์ ๊ณต๊ฐ์ผ๋ก ํฌ์ํ๋ค).
ํ์ง๋ง, ์๊ธฐ ์ด๋ฏธ์ง์ ๊ฐ์ ํ๊ณ์ ์ด ์กด์ฌํ๋ค.
ํ์ต ๋ฐ์ดํฐ์ ์ ์ฐจ์์ ๊ฐ์์ํค๋ฉด ํ์ต ์๋๋ ๋นจ๋ผ์ง์ง๋ง ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํญ์ ๋ ๋ซ๊ฑฐ๋ ๊ฐ๋จํ ๋ชจ๋ธ์ด ๋๋ ๊ฒ์ ์๋๋ค. ์ด๊ฒ์ ๋ฐ์ดํฐ์ ์ด ์ด๋ ํ ๋ชจ์์ ํ๊ณ ์๋๋์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค.
๋ฐ์ดํฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ดํ๋ฉด(hyperplane)์ ๊ตฌํ ๋ค์, ๋ฐ์ดํฐ๋ฅผ ์ด ์ดํ๋ฉด์ ํฌ์(projection)์ํจ๋ค.
- ๋ถ์ฐ ๋ณด์กด: ๋ถ์ฐ์ด ์ต๋๊ฐ ๋๋ ์ถ(= predicted-actual์ mse๋ฅผ ์ต์ํํ๋ ์ถ)์ ์ฐพ์ ์ ๋ณด ์์ค์ ์ค์ธ๋ค.
- ์ฃผ์ฑ๋ถ
-
- ํ์ต ๋ฐ์ดํฐ์ ์์ ๋ถ์ฐ์ด ์ต๋์ธ ์ถ(axis)์ ์ฐพ๋๋ค.
-
- ์ฒซ๋ฒ์งธ ์ถ๊ณผ ์ง๊ต(orthogonal)ํ๋ฉด์ ๋ถ์ฐ์ด ์ต๋์ธ ๋ ๋ฒ์งธ ์ถ์ ์ฐพ๋๋ค.
-
- ์๊ธฐ ๊ณผ์ ์ ๋ฐ๋ณตํ๋ฉฐ ๋ฐ์ดํฐ์ ์ ์ฐจ์(ํน์ฑ ์)๋งํผ์ ์ฃผ์ฑ๋ถ์ด ๋๋ ์ถ๋ค์ ์ฐพ๋๋ค.
-
๊ณต๋ถ์ฐ์ ๋จ์ํ๋ ฌ๋ก ๊ณ ์ ๋ฒกํฐ๋ฅผ ํตํด ์ฃผ์ฑ๋ถ์ ์ฐพ๋๋ค (๊ณต๋ถ์ฐ์ผ๋ก ๋ฐ์ดํฐ ๋ถํฌ์ ๋ํ ์ฃผ์ฑ๋ถ ๋ฒกํฐ๋ฅผ ์ป๊ณ , ๊ทธ ๊ฐ์ด ๊ฐ์ฅ ํฐ ๊ณ ์ ๋ฒกํฐ๊ฐ ๋ถ์ฐ์ ๊ฐ์ฅ ํฌ๊ฒ ๋ง๋๋ ์ฃผ์ฑ๋ถ์ด๋ค).
- 'ํน์ด๊ฐ ๋ถํด(SVC)'
- eigen-decomposition
PCA๋ ์ด๋ฏธ์ง ์์ถ(Image compression)๊ณผ ๊ฐ์ ๋ฌธ์ ์ ํ์ฉ๋๋ค.
๊ณ ์ ๊ฐ ๋ถํด๋ ์ ๋ฐฉ ํ๋ ฌ(ํ๊ณผ ์ด์ ํฌ๊ธฐ๊ฐ ๊ฐ์ ํ๋ ฌ)์ ๋ํด์๋ง ๊ฐ๋ฅํ์ง๋ง, ํน์ด๊ฐ ๋ถํด๋ ์ ๋ฐฉ ํ๋ ฌ๋ฟ๋ง ์๋๋ผ ํ๊ณผ ์ด์ ํฌ๊ธฐ๊ฐ ๋ค๋ฅธ ๋ชจ๋ ์ง๊ฐ ํ๋ ฌ์ ๋ํ์ฌ ์ ์ฉ ๊ฐ๋ฅํ๋ค.
- X: feature vectors; linearly independent
- Y: label (i.e., cat)
[Gaussian Model]
๋ก์ง์คํฑ ํ๊ท ๋ชจ๋ธ์์๋ ๊ณ์ W๋ฅผ ์ถ์ ํ๊ธฐ ์ํด์ MLE(Maximum Likelihood Estimation) ๊ฐ๋ ์ ์ฌ์ฉํ๋ค.
๋ก์ง์คํฑ ํ๊ท: Y = ์ด์ง ๋ถ๋ฅ(0 or 1), ๋ฒ ๋ฅด๋์ด ์ํ์ ์ ์ ๋ก ํ๋ ๋ชจ๋ธ์ด๋ค.
KNN ๋ถ๋ฅ๋ฅผ ์ํํ ๋, categorical variables์ ๋ํด์ Hamming distance๋ฅผ ์ฌ์ฉํ๋ค
1, ์ด๊ธฐ clusters ๊ฐ์ ์ค์
-
๊ฐ ๋ฐ์ดํฐ์ ๋ํด ๊ฐ์ฅ ๊ฐ๊น์ด center์ ํฌํจ์ํจ๋ค (argmin: ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ)
-
๊ฐ ๊ตฐ์ง ๋ฐ์ดํฐ center ๊ฐฑ์
Termination --> Yes
Global optimum --> no guarantee
Picking starting cluster centers --> random (not ideal)
๋ฐ์ดํฐ์ ์ ๋ํ ์ด์ง ํธ๋ฆฌ๋ฅผ ๋ง๋ ๋ค; ๋ฐ์ดํฐ ์๊ฐ N๊ฐ๋ผ๋ฉด ์ด์ง ํธ๋ฆฌ์ ๊น์ด์ N-1์ด๋ค.
์๋๋ HCA ๊ด๋ จ ๊ฐ๋จ ๋ฌธ์ ์ด๋ค.
๊ทธ๋ํ ๋ชจํ์์ ๊ฐ์ฅ ํฉ๋ฆฌ์ ์ผ๋ก ๋ถํ ํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
[๋ผํ๋ผ์์ ํ๋ ฌ]
๋ผํ๋ผ์์ ํ๋ ฌ์์ ๊ณ ์ ๊ฐ ๋ถํด๋ฅผ ํตํด ์ป์ ๊ณ ์ ๋ฒกํฐ ์ค 2๋ฒ ์งธ๋ก ๊ฐ์ฅ ์์ ๋ฒกํฐ๋ฅผ ํตํด ํฉ๋ฆฌ์ ์ธ ๋ถํ ์ ์ ๋ํ ์ฃผ์ฑ๋ถ์ ์ป๋๋ค.
t-SNE๋ ๋น์ ํ์ ์ธ ๋ฐฉ๋ฒ์ ์ฐจ์ ์ถ์ ๋ฐฉ๋ฒ์ด๊ณ ํนํ ๊ณ ์ฐจ์์ ๋ฐ์ดํฐ ์ ์ ๊ตฐ์งํ๋ฅผ ํตํด ์ง๊ด์ ์ผ๋ก ์๊ฐํํ๋ ๊ฒ์ ์ฑ๋ฅ์ด ์ข๋ค.
๊ณต๋ถ์ฐ ํ๋ ฌ์ด ๋ฐ์ดํฐ ๋ถํฌ์ ๋ํ ํน์ง์ ์ฃผ์ฑ๋ถ์ผ๋ก ์ค๋ช ํ๋ฏ, ๋ผํ๋ผ์์ ํ๋ ฌ์ Clustering(๊ตฐ์งํ)๋ฅผ ์ํ ๊ทธ๋ํ ๋ชจํ์ ํน์ง์ ์ค๋ช ํ๋ค.
๋ผํ๋ผ์์ ํ๋ ฌ์ ๋จ์ํ๋ ฌ๋ก ํน์ด๊ฐ ๋ถํด๋ฅผ ํ์ฌ ์ป์ ๋ ๋ฒ์งธ๋ก ์์ ๊ณ ์ ๋ฒกํฐ๋ฅผ **ํผ๋ค๋ฌ ๋ฒกํฐ(Fidler Vector)**๋ผ ์ง์นญํ๋ค.
์ด ๋ฒกํฐ๋ ํด๋น ๊ทธ๋ํ์์ ๊ฐ์ฅ ํฌ๊ฒ ๋๋ ์ ์๋ ๋ ๋ถ๋ถ์ผ๋ก ๋ถํ ํ๋ ๊ฒฝ๊ณ์ ์ ์ฃผ์ฑ๋ถ์ ๋ํ๋ด๊ณ , ๊ทธ ๋ค์์ผ๋ก ์์ ๊ณ ์ ๋ฒกํฐ๋ ๊ทธ ๋ค์์ผ๋ก ํฌ๊ฒ ๋๋ ์ง๋ ๋ถํ ์ ์ ์ค๋ช ํ๋ค.
end-to-end ๋ฅ๋ฌ๋์ ์๋ฃ์ฒ๋ฆฌ ์์คํ / ํ์ต์์คํ ์์ ์ฌ๋ฌ ๋จ๊ณ์ ํ์ํ ์ฒ๋ฆฌ๊ณผ์ ์ ํ๋ฒ์ ์ฒ๋ฆฌํ๋ค.
๋งค์ฐ ์ํ์ ์ธ ๊ฐ๋ ์ผ๋ก '๋ฐ์ดํฐ์ ๋ฐฐ์ด'์ ์๋ฏธํ๋ค.
๋ฐ๋ผ์, ํ ์์ Rank๋ ๊ฐ๋จํ ๋งํด์ ๋ช ์ฐจ์ ๋ฐฐ์ด์ธ๊ฐ๋ฅผ ์๋ฏธํ๋ค.
๋จธ์ ๋ฌ๋์ ์ฌ์ฉ์๊ฐ ์ง์ ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ํด๋น ๋ฐ์ดํฐ์ ์ ํ์ตํ ํ, ํ์ต์ผ๋ก ์ป์ ๊ฒฝํ์ ์ ๋ณด์ ์ ๊ฐํ์ฌ ์ต์ข ๊ฒฐ์ ์ ๋์ถํ๋ ๊ณผ์ ์ด๋ค.
๋ฅ๋ฌ๋์ ์๊ณ ๋ฆฌ์ฆ์ '๊ณ์ธต'์ผ๋ก ๊ตฌ์ฑํ์ฌ ์์ฒด์ ์ผ๋ก ๋ฐฐ์ฐ๊ณ ์ง๋ฅ์ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ๋ง๋๋ ๊ณผ์ ์ด๋ค.
์ด๋ฏธ์ง์์ feature๋ฅผ ๋ฝ๊ธฐ์ํด ์ฌ์ฉํ๋ ํฉ์ฑ๊ณฑ ์ฐ์ฐ ๊ณผ์ ์ด๋ค.
์ต์ด์ CNN ๋คํธ์ํฌ๋ก(1988), ์๊ธ์จ ์ซ์๋ฅผ ์ธ์ํ๋๋ฐ ์ฌ์ฉ๋๋ค.
CNN๊ณผ ๊ฐ์ ๊ตฌ์กฐ์ด์ง๋ง, ๋ ๊ฐ์ง ์ฐจ์ด๊ฐ ์๋ค.
- LeNet์ ํ์ฑํ ํจ์๋ก ์๊ทธ๋ชจ์ด๋ ์ฌ์ฉ(ํ์ฌ๋ ReLU ์ฌ์ฉ์ผ๋ก ๋ฐ๋)
- LeNet์ ์๋ธ ์ํ๋ง๋ฅผ ์ฌ์ฉํ์ฌ ์ค๊ฐ ๋ฐ์ดํฐ ํฌ๊ธฐ๋ฅผ ์ค์ (ํ์ฌ๋ ์ต๋ ํ๋ง์ ์ฌ์ฉ)
AlexNet(2012)์ ๋ฅ๋ฌ๋ ์ดํ์ ์ผ์ผํค๋ ๋ฐ ์ง๋ํ ์ญํ ์ ํ๋ค.
LeNet๊ณผ ๊ฐ์ ๊ตฌ์กฐ์ด์ง๋ง, ์ธ ๊ฐ์ง ์ฐจ์ด๊ฐ ์๋ค.
- AlexNet ํ์ฑํ ํจ์๋ก ReLU ์ฌ์ฉ
- LRN(Local Response Normalization, ๊ตญ์์ ์ ๊ทํ)
- ํ์ฌ๋ 'Batch Normalization'์ ๋์ ์ฌ์ฉํ๋ค.
- Dropout ์ฌ์ฉ
์ฌ์ง์ด ์ฃผ์ด์ก์ ๋ ์ด ์ฌ์ง์ด ๋ฌด์์ธ์ง ๋ง์ถ ์ ์๋ ๋คํธ์ํฌ์ด๋ค.
์ด๊ธฐ์๋ ์ค์ฐจ์จ์ด 30%์ ์๋๋ฉฐ ์ฑ๋ฅ์ด ์ข์ง ๋ชปํ์ผ๋, AlexNet์ ๊ธฐ์ ์ผ๋ก ์ค์ฐจ์จ์ด ๋ฐ๊ฐ๋๊ธฐ ์์ํ๋ฉด์ ์ง์์ ์ธ ์ฑ๋ฅ ๋ฐ์ ์ ๊ฑฐ๋ญํ๋ค.
์ด๋ฏธ์ง ๋ถ๋ฅ๊ธฐ๋ฅผ ์ค๊ณํ ๋ ์ ์ดํ์ต์ ์ฌ์ ๋ชจ๋ธ๋ก ๋ง์ด ์ ์ฉ๋๋ ๋คํธ์ํฌ ์ค ํ๋์ด๋ค.
์๊ธฐ ์๋ฌ ๋ถํฌ๋ ์ ๊ฒฝ๋ง์ด ๊น์ ์๋ก(๋ ์ด์ด ๅค) error ๋น์จ์ด ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
์ด๋ ๊น์ CNN ๋คํธ์ํฌ๋ vanishing/exploding gradient ๋ฌธ์ ๋๋ฌธ์ ์ฑ๋ฅ์ด ๋ ๋จ์ด์ง๋ 'degradation problem' ํ์์ ๊ธฐ์ธํ๋ค.
์ด๋ weight๋ค์ ๋ถํฌ๊ฐ ๊ท ๋ฑํ์ง ์๊ณ , ์ญ์ ํ๊ฐ ์ฌ๋๋ก ์ด๋ฃจ์ด์ง์ง ์๊ธฐ์ ๋ฐ์ํ๋ ํ์์ด๋ค.
- layer๊ฐ ๊น์ด์ง์๋ก ๋ฏธ๋ถ์ ๋ง์ดํด์ ์ญ์ ํ ๊ณผ์ ์์ ์ layer์ผ์๋ก ๊ทธ ๋ฏธ๋ถ๊ฐ์ด ์์์ ธ ๊ทธ ๊ฐ์ค์น๊ฐ ์์์ง๋ค.
์ด ๋ฌธ์ ์ ๋ํ ํด๊ฒฐ์ฑ ์ผ๋ก ResNet(Residual learning)์ skip connection์ ์ด์ฉํ 'residual learning'์ ํตํด layer๊ฐ ๊น์ด์ง์ ๋ฐ๋ฅธ gradient vanishing ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์๋ค.
๊ธฐ์กด์ ๋ง๊ณผ ์ฐจ์ด๊ฐ ์๋ค๋ฉด ์ ๋ ฅ๊ฐ์ ์ถ๋ ฅ๊ฐ์ ๋ํด์ค ์ ์๋๋ก ์ง๋ฆ๊ธธ(shortcut)์ด ํ๋ ์ถ๊ฐ๋์๋ค.
๊ธฐ์กด ๋คํธ์ํฌ๋ ์ ๋ ฅ๊ฐ x๋ฅผ ํ๊ฒ๊ฐ y๋ก ๋งคํํ๋ ํจ์ H(x)๋ฅผ ์ป๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก, H(x)-y๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํ๋ค.
๋ฐ๋ฉด, ResNet์ H(x)-x(= F(x), ์์ฐจ)๋ฅผ ์ต์ํํด์ฃผ๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํ๋ค.
์์ฐจ F(x) + x = H(x) = x ๋คํธ์ํฌ๋ก ๋ณํํ์ฌ ๋ฏธ๋ถ๊ฐ์ด F`(x) + 1 ๋ก ์ต์ 1์ด์์ด๋ค.
์์ฐจ๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํ์ฌ ์์ฐจ๊ฐ 0์ ์๋ ดํจ --> ์ ์ถ๋ ฅ ๋ชจ๋ x๋ก ๊ฐ์์ง --> ๊ฐ ๋ ์ด์ด๋ง๋ค ๋ฏธ๋ถ๊ฐ์ด x๋๋ฌธ์ ์ต์ 1์ด๋๋ค. --> 'degradation problem' ํด๊ฒฐ.
RNN์ ํ๋ ๋ ธ๋๊ฐ ๋ฐฉํฅ์ ๊ฐ์ง ์ฃ์ง๋ก ์ฐ๊ฒฐ๋์ด ์ํ ๊ตฌ์กฐ๋ฅผ ์ด๋ฃจ๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ ํ ๊ตฌ์กฐ์ด๋ค.
- ๊ฐ๋ น, L์ด 2๋ฒ์ฐ์๋์์๋๋ O๋ผ๋ output์ ์ฃผ๋๋กํด๋ผ~
๋ฐ๋ณต์ ์ด๊ณ ์์ฐจ์ ์ธ ๋ฐ์ดํฐ(Sequential data)ํ์ต์ ํนํ๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ ํ ์ข ๋ฅ๋ก์จ ๋ด๋ถ์ ์ํ๊ตฌ์กฐ๊ฐ ๋ค์ด์๋ค๋ ํน์ง์ ๊ฐ์ง๊ณ ์๋ค.
- ์ํ๊ตฌ์กฐ: ๊ณผ๊ฑฐ์ ํ์ต์ Weight๋ฅผ ํ์ฌ ํ์ต์ ๋ฐ์ํ๋ค.
๋ฐ๋ผ์, ๊ณผ๊ฑฐ ์ ๋ณด๋ฅผ ๊ธฐ์ตํ์ฌ ํ์ฉํ๋ค๋ ์ ์์ ์์ฐ์ด ์ฒ๋ฆฌ ๋ฐ ์๊ณ์ด์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
๊ธฐ์กด์ ์ง์์ ์ด๊ณ ๋ฐ๋ณต์ ์ด๋ฉฐ ์์ฐจ์ ์ธ ๋ฐ์ดํฐํ์ต์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค (= ์ค๋ณต๋๋ ์๋์ธต ๊ฒน๊ฒน์ด ์๋ ๊ฒ ๊ทธ๋งํ๊ณ ์ํ์ํจ๋ค).
๊ฐ๋ น, ์์ฐ์ด ์ฒ๋ฆฌ์์ ์ฃผ์ด์ธ 'I'๊ฐ ์๊ธฐ ๋๋ฌธ์ ๊ทธ ๋ค๋ ๋์ฌ์ผ ๊ฒ์ด๋ผ๊ณ ์์ฐ์ค๋ฝ๊ฒ ์์ธกํ๊ณ , ์ ์น์ฌ 'at'์ด ์๊ธฐ ๋๋ฌธ์ ๊ทธ ๋ค๋ ๋ช ์ฌ๊ฐ ์ฌ๊ฒ์ด๋ผ๊ณ ์ถ๋ก ํ๋ ๊ณผ์ ์ ์ํ์ ์ผ๋ก ๋ชจ๋ธ๋งํ ๊ฒ์ด ๋ฐ๋ก RNN์ด๋ค.
LSTM ๋ชจ๋ธ์ด RNN์ ํ ์์์ด๋ฉฐ, ๊ธฐ์กด RNN์ ๋ฌธ์ ์ ์ธ ์ฅ๊ธฐ ์์กด์ฑ(Long-Term Dependency)์ ํด๊ฒฐํ๊ณ ์ ๊ณ ์๋์๋ค.
- 4๊ฐ์ง ๋ชจ๋์ ํ์ฌ - ๋ง๊ฐ ๊ฒ์ดํธ --> ์
๋ ฅ ๊ฒ์ดํธ --> ์ถ๋ ฅ ๊ฒ์ดํธ
- ๋ง๊ฐ ๊ฒ์ดํธ: ๊ณผ๊ฑฐ ์ ๋ณด ๋ฒ๋ฆด์ง ๊ฒฐ์ (Sigmoid)
- ์ ๋ ฅ ๊ฒ์ดํธ: ์ ์ฅ๋ ์ ๋ณด๋ค ์ด๋ํ๋ฉฐ ์ ๋ ฅ ๊ฒ์ดํธ์์ ํ์ฌ ์ ๋ณด ์ ์ฅํ ์ง ๊ฒฐ์ (Sigmoid)
- ์ถ๋ ฅ ๊ฒ์ดํธ: ์ด๋ค ๊ฐ ์ถ๋ ฅํ ์ง ๊ฒฐ์ (Sigmoid)
- tahn ํ์ฑํ ํจ์
์ฅ๊ธฐ ์์กด์ฑ: ๋ค๋ฃจ๋ ๋ฐ์ดํฐ์ ์์ด ํด ๊ฒฝ์ฐ ๊ณผ๊ฑฐ์ ์ ๋ณด๋ฅผ ๊ธฐ์ตํ๋๋ฐ ํ๊ณ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ํ๋ค๋ค๋ ํ๊ณ์ ์ ๊ฐ์ง๊ณ ์๋ค.
Tensorflow
- ์ ์ ๊ทธ๋ํ ์์ฑ; ๋ชจ๋ธ ์ ์ฒด ๊ณ์ฐ ๊ทธ๋ํ ์ ์ํ ๋ค์ ML ๋ชจ๋ธ ์คํ
PyTorch
- ๋์ ๊ทธ๋ํ; ๋์ ์ค์ ๊ทธ๋ํ ์ ์/์กฐ์
์ต์ ์ ๋งค๊ฐ๋ณ์(๊ฐ์ค์น์ ํธํฅ)์ ํ์ํ ๋ ์์คํจ์์์๋ ๋ฏธ๋ถ์ ํตํ์ฌ ์์คํจ์์ ๊ฐ์ ์๊ฒํ๋ ๋งค๊ฐ๋ณ์๋ฅผ ํ์ํ์ง๋ง, ์ ํ๋๋ฅผ ์งํ๋ก ์ผ๋ ๊ฒฝ์ฐ ๊ทธ ๋ฏธ๋ถ๊ฐ์ด ๋๋ถ๋ถ์ ์ฅ์์์ 0์ด ๋๋ฏ๋ก ๋งค๊ฐ๋ณ์ ๊ฐฑ์ ์ด ์ด๋ ต๋ค.
์์คํจ์์ ์๋ก๋ ํ๊ท ์ ๊ณฑ์ค์ฐจ(ํ๊ท), ํฌ๋ก์ค ์ํธ๋กํผ(๋ถ๋ฅ) ๋ฑ์ด ์๋ค.
Softmax - ๋ค์ค๋ถ๋ฅ
Sigmoid - ์ด์ง๋ถ๋ฅ
-
์๋ก์ด ๋ฐ์ดํฐ
-
์ด๋ฏธ์ง ํ๋, ์ฆ๋, ํ์ , ๋ฐ๊ธฐ ์กฐ์ , etc.
-
๊ฐ์ค์น ๊ท์ (Regularization)
-
etc.
F1 Score : ์ ๋ฐ๋(precision)์ ์ฌํ์จ(recall)์ ์กฐํ ํ๊ท
์ F1 Score๋ฅผ ์ฌ์ฉํ๋?
- ๋ง์ฝ, ๋ด์ผ ๋์ด ๋ด๋ฆด์ง ์๋์ง๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ์ด ํญ์ False ๋ก ์์ธกํ๋ฉด ๋์ด ๋ด๋ฆฌ๋ ๋ ์ ๊ทธ๋ฆฌ ๋ง์ง ์๊ธฐ ๋๋ฌธ์ ๊ต์ฅํ ๋์ accuracy๋ฅผ ๊ฐ๋๋ค. ํ์ง๋ง, ๋์ accuracy๋ฅผ ๋ณด์ ํจ์๋ ๋ถ๊ตฌํ๊ณ ์ด ๋ชจ๋ธ์ ์ ํ ์ธ๋ชจ๊ฐ ์๋ค. ์ด ๋, ์ฌํ์จ(์ค์ ๋ก True์ธ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ์ด True๋ผ๊ณ ์ธ์ํ ๋ฐ์ดํฐ์ ์) ๊ฐ๋ ์ ๋์ ๋ F1 Score๋ฅผ ์ฌ์ฉํ๋ฉด ํจ๊ณผ์ ์ผ๋ก accuracy ํํ์ด ๊ฐ๋ฅํ๋ค.
**Covariate shift(๊ณต๋ณ๋ ๋ณํ)**๋ ๊ณต๋ณ๋ ๋ณํ๋ผ๊ณ ๋ถ๋ฅด๋ฉฐ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ถํฌ๊ฐ ํ์ตํ ๋์ ํ ์คํธํ ๋ ๋ค๋ฅด๊ฒ ๋ํ๋๋ ํ์์ ๋งํ๋ค.
Internal Covariate Shift๋ ๋งค ์คํ ๋ง๋ค hidden layer์ ์ ๋ ฅ์ผ๋ก ๋ค์ด์ค๋ ๋ฐ์ดํฐ์ ๋ถํฌ๊ฐ ๋ฌ๋ผ์ง๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ Internal Covariate Shift๋ layer๊ฐ ๊น์์๋ก ์ฌํ๋ ์ ์๋ค.
์ญ์ ํ์ ๊ฐ์ค์น ์ ๋ฐ์ดํธ ๊ณผ์ ์์ ReLU๋ ๊ท์ ํ, ํ์ต๋ฅ ์ ๋ฎ์ถ๋ ๋ฑ์ ๋ฐฉ๋ฒ์ผ๋ก๋ ๋ ์ด์ด ์๊ฐ ๋ง์์ง์๋ก ํ์ต์ด ์ ๋์ง์๋ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ ์ ์ด ์กด์ฌํ๋ค.
์ด๋ฌํ ๊ทผ๋ณธ์ ๋ฌธ์ ๊ฐ ๋ฐ๋ก Internal Covraite Shift์ด๋ฉฐ, ์ด๋ *Batch Normalization ๊ธฐ๋ฒ์ผ๋ก ํด๊ฒฐ ๊ฐ๋ฅํ๋ค.
๋ฐ์ดํฐ๋ฅผ ๋์ผํ ๋ฒ์ ๋ด์ ๊ฐ์ ๊ฐ๋๋ก ํ๋ ๊ธฐ๋ฒ์ผ๋ก ๋ํ์ ์ผ๋ก Min-Max, Standardization์ด ์๋ค. ์ด ์ค์์ Standardization์ ๋ฐ์ดํฐ๋ฅผ ํ๊ท 0, ํ์คํธ์ฐจ 1์ด ๋๊ฒ ๋ณํํ์ฌ ์ ๊ทํ์ํจ๋ค.
๋ฐ์ดํฐ์ ํ๊ท ์ 0, ๊ทธ๋ฆฌ๊ณ ๊ณต๋ถ์ฐ์ ๋จ์ํ๋ ฌ๋ก ๊ฐ๋ ์ ๊ท๋ถํฌ ํํ๋ก PCA๋ฅผ ์ฌ์ฉํ์ฌ ๋ณํํ๋ ๊ธฐ๋ฒ์ด๋ค.
whitening์ ํ๊ฒ๋๋ฉด ์ด์ ๋ ์ด์ด๋ก๋ถํฐ ํ์ต์ด ๊ฐ๋ฅํ parameters์ ์ํฅ์ ๋ฌด์ํ๋ค.
๋ฐ๋ผ์, *Batch Normalization ๋ฐฉ๋ฒ์ด ํ์ํ๋ค.
CNN์ ๋ง์ด ์ฌ์ฉํ๋ ๊ธฐ๋ฒ์ผ๋ก, ์ ๊ฒฝ๋ง ํ์ต ๊ณผ์ ์์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ํ์ฌ ๊ฐ ์ฐจ์(feature)๋ณ๋ก mini-batch๋ฅผ ๋ง๋ค์ด ๊ทธ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ณ์ฐํ๋ normalization์ ์ํํ๋ค.
BN์ ํ์ต ๊ฐ๋ฅํ parameters๊ฐ ์กด์ฌํ๋ ํ๋์ ๋ ์ด์ด ๊ตฌ์กฐ๊ฐ ๋๋ฉฐ ์ด ๊ธฐ๋ฒ์ด ๋ฐํ๋ ์ดํ ๊ธฐ์กด์ ๋ฅ๋ฌ๋ ๊ตฌ์กฐ์์ Convolution Layer์ Activation Layer ์ฌ์ด์ BN Layer๊ฐ ๋ค์ด๊ฐ ํํ๋ก ๋ฐ์ ํ๋ค.
๊ท์ ๊ฐ ์ปค์ง ์๋ก ํ๋ จ ์ธํธ์ ์์ค๊ณผ ๊ฒ์ฆ ์ธํธ์ ์์ค์ด ์ปค์ง๊ณ (= underfitting), ๊ท์ ๊ฐ ์ปค์ง ์๋ก ๊ฐ์ค์น ๊ฐ์ด "0"์ ๊ฐ๊น์์ง๋ค.
L1 ๊ท์ ์ ๋น์ทํ ์์์ ๋ณด์ด๋, ๊ท์ ๊ฐ ๊ฐํด์ ธ๋ ๊ณผ์ ์ ํฉ์ด ๊ทธ๋ ๊ฒ ์ฌํด์ง์ง ์๋ ํน์ฑ์ ๊ฐ์ง๊ณ ์๋ค. ๊ทธ๋์, L2 ๊ท์ ๋ฅผ ๋ง์ด ์ฌ์ฉํ๋ค.
[์ ๊ท ๋ฐฉ์ ์]
[์ ๊ท ๋ฐฉ์ ์ vs. GD]
Gradient Descent์ฒ๋ผ ์์ง ๋ชปํ๋ ๊ฐ(parameter)๋ฅผ ์์ธกํ๊ธฐ ์ํ ๋ฐฉ๋ฒ๋ก ์ด๋ค.
Gradient Desceent ๋ฐฉ๋ฒ์ ๋ฏธ๋ถ๊ฐ์ผ๋ก ์ต์ ์ ํผ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๋ฐ๋ณต์ ์ธ ์ฐ์ฐ ๊ณผ์ ์ด ๋จ์ ์ด์์ง๋ง, ์ ๊ท ๋ฐฉ์ ์์ ๋จ๋ฒ์ ํผ๋ผ๋ฏธํฐ๋ฅผ ๊ตฌํ ์ ์๋ค.
- Gradient Descent algorithm: Scaling ํ์, Normal Equation: ํ๋ฒ์ ๊ฒฐ๊ณผ๊ฐ์ ๊ตฌํ๊ธฐ ๋๋ฌธ์ Scaling ํ์์์.
ํ์ง๋ง, ์ ๊ท ๋ฐฉ์ ์์ ํผ์ฒ ๊ฐ์๊ฐ ๋ง์ ๊ฒฝ์ฐ ์ฐ์ฐ์ด ๋๋ ค์ง๋ค; ๊ทธ๋๋, ์ผ์ ์๊ฐ ๋ด์ ํด๋ฒ์ ์ฐพ๋ ๊ฒ์ด ๊ฐ๋ฅํ๋ค.
๋ณดํต feature๊ฐ 10000๊ฐ ์ดํ ๋ผ๋ฉด Normal Equation์ด ํจ์ฌ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ๊ทธ ์ด์ ์ด๋ผ๋ฉด Gradient Descent algorithm์ด ์ข๋ค.
๋ํ, Normal Equation์ ํต์ฌ์ ์ญํ๋ ฌ X^t๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ธ๋ฐ, ๋น๊ฐ์ญํ๋ ฌ(ํ๋ ฌ X๊ฐ ์ญํ๋ ฌ์ด ์กด์ฌํ์ง ์๋ ๊ฒฝ์ฐ)์ ๋ํ์ฌ ๋ค์ ์ฒ๋ฆฌ๊ฐ ์๋ฐ๋๋ค.
-
- ๋ถํ์ํ feature ํน์ ๋ ๊ฐ์ feature๊ฐ ์๋ก ์ ์ฌํ ๊ฒฝ์ฐ, ํ๋๋ฅผ ์ง์์ผํ๋ค.
-
- ๋ณด์ ํ ๋ฐ์ดํฐ์ ํฌ๊ธฐ๋ณด๋ค feature์ ์๊ฐ ๋ง์ ๊ฒฝ์ฐ, feature๋ฅผ ๋ถ๋ถ์ ์ผ๋ก ์ง์ฐ๊ฑฐ๋ regularization์ ์ ์ฉํด์ผ ํ๋ค.
์ค์ ๋ฅ๋ฌ๋์์ ๋ก์ปฌ ์ตํฐ๋ง ๋น ์ง ํ๋ฅ ์ด ๊ฑฐ์ ์์ผ๋ฉฐ, ์ค์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์์๋ ์๋ง์ w(๊ฐ์ค์น)๊ฐ ์กด์ฌํ์ฌ ๋ชจ๋ ๊ฐ์ค์น๊ฐ ๋ชจ๋ ๋ก์ปฌ ์ตํฐ๋ง๋ผ๋ ๋น ์ ธ์ ๊ฐ์ค์น ์ ๋ฐ์ดํธ๊ฐ ์ข ๋ฃ๋์ผ ํ์ต์ด ์ข ๋ฃ๋๊ธฐ ๋๋ฌธ์ด๋ค.
Fully Connected Layer(= hidden layer)
๋ฐ๊ฒฌํ ํน์ง์ ์ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ถ๋ฅํ๋ ๋ ์ด์ด ๊ตฌ๊ฐ
- ์ธ์ฝ๋ ์คํ
- ์๊ธฐ ํ๊ท ๋ชจ๋ธ์ด ์๋๋ค.
- Self-Attention
- ์ ์ฒด ๋งฅ๋ฝ์ ๊ณ ๋ คํ๋ ๋์ , ์์ธก ์ฑ๋ฅ์ด ์๋์ ์ผ๋ก ์ ์กฐํ๋ค.
GPT
- ๋์ฝ๋ ์คํ
- ์๊ธฐ ํ๊ท ๋ชจ๋ธ์ด๋ค.
- Masked Self-Attention
- ์ ์ฒด ๋งฅ๋ฝ์ ๊ณ ๋ คํ์ง ๋ชปํ์ง๋ง, ์์ธก ์ฑ๋ฅ์ด ๋ฐ์ด๋๋ค.
์๊ธฐ ํ๊ท ๋ชจ๋ธ: ๋ง์น RNN์ฒ๋ผ ์ด์ ํ์ต์ ์ถ๋ ฅ๊ฐ์ด ๋ค์ ํ์ต์ ์ ๋ ฅ๊ฐ์ด ๋๋ ๋ชจ๋ธ์ด๋ค.
Batch: ์ ์ฒด ํธ๋ ์ด๋ ๋ฐ์ดํฐ ์ ์ ์ฌ๋ฌ ์์ ๊ทธ๋ฃน์ผ๋ก ๋๋์์ ๋, ํ๋์ ์๊ทธ๋ฃน์ ์ํ๋ ๋ฐ์ดํฐ ์๋ฅผ ์๋ฏธํ๋ค.
- Batch ์ฌ์ด์ฆ โ, ํ ๋ฒ์ ์ฒ๋ฆฌํด์ผํ ์ โ, ํ์ต ์๋๊ฐ โ, ๋ฉ๋ชจ๋ฆฌ ๋ถ์กฑ
- Batch ์ฌ์ด์ฆ โ, ์ ์ ์ํ์ ์ฐธ์กฐํด์ ๊ฐ์ค์น ์ ๋ฐ์ดํธ๊ฐ ๋น๋ฒํ๊ฒ ์ผ์ด๋๊ธฐ ๋๋ฌธ์, ๋น๊ต์ ๋ถ์์ ํ๊ฒ ํ๋ จ๋ ์๋ ์์ต๋๋ค.
Epoch: ๋ฅ๋ฌ๋์์๋ epoch์ ์ ์ฒด ํธ๋ ์ด๋ ์ ์ด ์ ๊ฒฝ๋ง์ ํต๊ณผํ ํ์์ด๋ค. ๊ฐ๋ น, 1-epoch๋ ์ ์ฒด ํธ๋ ์ธ์ด ์ ์ด ํ๋์ ์ ๊ฒฝ๋ง์ ์ ์ฉ๋์ด ์์ ํ์ ์ญ์ ํ๋ฅผ ํตํด ์ ๊ฒฝ๋ง์ ํ ๋ฒ ํต๊ณผํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
Padding: ( n - f + 1 ) x ( n - f + 1 )
- edge ๋ถ๋ถ ํฝ์ ์ ํ ๋ฒ๋ง ์ฌ์ฉ๋์ด ์ค๊ณฝ ์ ๋ณด ์์ค์ ๋ฐฉ์งํ๋ค.
- ์ด๋ฏธ์ง ์ถ์๋ฅผ ๋ฐฉ์งํ๋ค
Stride
- ํํฐ ์ ์ฉ์ ์ด๋ ๊ฐ๊ฒฉ
Pooling
- ์ฌ์ด์ฆ๊ฐ์ ๋ฐ ๋ ธ์ด์ฆ ์ ๊ฑฐ
convolution layer์ ๊ฒฝ์ฐ ์๋ณธ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ์ ์งํ๋ฉด์ depth๋ฅผ ํค์ฐ๊ธฐ ๋๋ฌธ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ง์ด ์ฐจ์งํ๋ค. ๋ฐ๋ผ์, ํน์ง์ ์ ์งํ๋ฉด์ ๋ฐ์ดํฐ์ feature map์ ์ฌ์ด์ฆ๋ฅผ ์ค์์ผ๋ก์จ ์ฉ๋์ ์ ์ฝํ ์ ์๋ค.
Pre-training
- ๊ธฐ์กด ์์์ ๊ฐ์ผ๋ก ์ด๊ธฐํํ๋ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ค์ ๋ค๋ฅธ ๋ฌธ์ (task)์ ํ์ต์ํจ ๊ฐ์ค์น๋ค๋ก ์ด๊ธฐํํ๋ ๋ฐฉ๋ฒ์ด๋ค.
- ํ ์คํธ ์ ์ฌ๋ ์์ธก ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ ๊ฐ์ ๋ถ์ ๋ฌธ์ ๋ฅผ ํ์ตํ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ํ์ฉํด ํ ์คํธ ์ ์ฌ๋ ๋ชจ๋ธ์ ๊ฐ์ค์น๋ก ํ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค.
Fine-tuning
- ๊ธฐ์กด์ ํ์ต๋์ด์ง ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ์ํคํ
์ณ๋ฅผ ์๋ก์ด ๋ชฉ์ ์ ๋ง๊ฒ ๋ณํํ๊ณ ์ด๋ฏธ ํ์ต๋ ๋ชจ๋ธ Weights๋ก ๋ถํฐ ํ์ต์ ์
๋ฐ์ดํธ ํ๋ ๋ฐฉ๋ฒ์ด๋ค.
- ์ฌ์ ํ์ต ๋ฐฉ๋ฒ์ธ ๊ฐ์ ๋ถ์ ๋ฌธ์ ์ ์ฌ์ ํ์ต์ํจ ๊ฐ์ค์น์ ๋๋ถ์ด ํ ์คํธ ์ ์ฌ๋๋ฅผ ์ํ ๋ถ๊ฐ์ ์ธ ๊ฐ์ค์น๋ฅผ ์ถ๊ฐํด ํ ์คํธ ์ ์ฌ๋ ๋ฌธ์ ๋ฅผ ํ์ตํ๋ ๊ฒ์ด ๋ฏธ์ธ ์กฐ์ ๋ฐฉ๋ฒ์ด๋ค.
์ด๋คํธ์ํฌ๋ ๋ ์ฌ์ง์ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ๋ ์ด๋ฏธ์ง๋ฅผ ๋ฒกํฐํ ์ํจ ์ดํ, ๋ ๋ฒกํฐ๊ฐ์ ์ ์ฌ๋ (similarity in [0, 1]) ๋ฅผ ๋ฐํํ๋ ๋คํธ์ํฌ์ ๋๋ค.
์ด ๋คํธ์ํฌ๋ ํ๋์ ์ด๋ฏธ์ง๋ฅผ ํ๋์ ๋ฒกํฐ๋ก ๋ณํํ ์ ์๋ weight๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, ๋ ์ด๋ฏธ์ง๋ ๊ณต์ ๋๋ ํด๋น weight๋ฅผ ์ด์ฉํ์ฌ ๋ฒกํฐ๋ก ์ธ์ฝ๋ฉ ๋ฉ๋๋ค.
์ด๋ ๊ฒ ์ ์๋ ๋คํธ์ํฌ์ ๋ ์ฌ์ง์ด ๊ฐ์ ๊ฒฝ์ฐ ์ ์ฌ๋(Similarity)๋ฅผ 1๋ก ์ฃผ๊ณ , ๋ ์ฌ์ง์ด ๋ค๋ฅผ ๊ฒฝ์ฐ ์ ์ฌ๋(similarity)๋ฅผ 0 ์ผ๋ก ์ฃผ์ด์ ๋ชจ๋ธ์ ํ์ต์ํต๋๋ค. ์ด๋ ํ์ต์ ์ฌ์ฉํ๋ loss๋ ๋ค์๊ณผ ๊ฐ์ด cross-entropy๋ฅผ ์ฌ์ฉํฉ๋๋ค.
์ถ์ถ๋ ๋ฒกํฐ๊ฐ์ ๊ฑฐ๋ฆฌ๋ ์๋ก ์ ์ฌํ(=๊ฐ์) ์ด๋ฏธ์ง๋ผ๋ฆฌ๋ ๊ฐ๊น์ด ๊ฑฐ๋ฆฌ(๋์ ์ ์ฌ๋) ๋ฅผ ๊ฐ์ง๊ณ , ์๋ก ๋ค๋ฅธ ์ด๋ฏธ์ง ๊ฐ์๋ ๋จผ ๊ฑฐ๋ฆฌ๋ฅผ (๋ฎ์ ์ ์ฌ๋) ๊ฐ์ง๋๋ก ํ์ต์ด ์งํ๋ฉ๋๋ค.
Support set์ ํด๋์ค ๊ฐ์์ ์ํ ์๋ฅผ ๊ธฐ์ค์ผ๋ก k-way n-shot ์ด๋ผ๋ ํํ์ ์ด๋ค.
- k-way: Support set์ด k๊ฐ์ ํด๋์ค๋ก ์ด๋ฃจ์ด ์ง
- k๊ฐ ํด์๋ก ๋ชจ๋ธ์ ์ ํ๋๋ ๋ฎ์์ง๊ฒ ๋๋ค.
- n-shot: ๊ฐ ํด๋์ค๊ฐ ๊ฐ์ง sample์ ๊ฐ์
- n์ด ํด ์๋ก ๋ชจ๋ธ์ ์ ํ๋๋ ๋์์ง๊ฒ ๋๋ค.
n์ด 1์ด ๋๋ฉด one-shot learning์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
๋ง์ training set์ ํตํด ๊ฐ ์ฌ์ง๋ณ๋ก ์ค์ํ ํน์ง๋ค์ ์ ์ถ์ถํด์ ๊ฐ๋ค์ ๋ค๋ฅด๋ค๋ฅผ ํ์ตํด์ผ ํ๋ค.
์ดํ, Query ์ด๋ฏธ์ง์ ๋ํด Support set์ ์ด๋ฏธ์ง๋ค๊ณผ ์ ์ฌ์ฑ์ ๊ตฌํ๊ณ ๊ฐ์ฅ ์ ์ฌํ ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ง class๋ก ๋ถ๋ฅํ ์ ์๊ฒ ๋๋ค.
Positive set, Negative set์ผ๋ก ๊ตฌ์ฑํ์ฌ ํ์ต์ ์งํํ๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก Conv-Relu-Pool์ ๊ตฌ์กฐ๋ก๋ ์ถฉ๋ถํ ํน์ง ๋ฒกํฐ๋ฅผ ์ ํ์ตํ ์ ์๋ค.
Prediction์์๋ Support set์ ์ด๋ฏธ์ง์ representation๊ณผ Query image์ representation ๊ฐ์ ์ฐจ์ด๋ฅผ ์ด ๋คํธ์ํฌ๋ฅผ ์ด์ฉํด ์ ์ฌ์ฑ์ ๊ตฌํ ์ ์๊ฒ ๋๋ค.
[์ด ๋คํธ์ํฌ (Siamese Network)]
๊ฐ์ CNN ๋ชจ๋ธ์ ์ด์ฉํ์ฌ hidden representation์ ๊ฐ๊ฐ ๊ตฌํ ๋ค ์ด ์ฐจ์ด๋ฅผ ์ด์ฉํ๋ค.
Zero-shot
- ์ผ๋ฐ์ ์ผ๋ก ๋ฅ๋ฌ๋์ training์ ์ฌ์ฉ๋ class๋ง์ ์์ธกํ ์ ์๋ค. ๋ฐ๋ผ์ unseen data๊ฐ ์
๋ ฅ๋๋ฉด seen class๋ก ์์ธกํ๋ ๋ฐ๋ณด๊ฐ ๋๋ฒ๋ฆฌ๋๋ฐ, Zero shot์ train set์ ํฌํจ๋์ง ์์ unseen class๋ฅผ ์์ธกํ๋ ๋ถ์ผ์ด๋ค.
- Unseen data๋ฅผ ์ ๋ ฅ ๋ฐ์๋, seen data๋ก ํ์ต๋ ์ง์์ ์ ์ดํ์ฌ unseen data๋ฅผ unseen class๋ก ์์ธกํ ์ ์๋ค.
- ๋ชจ๋ธ์ด ๋ฐ๋ก downstream task์ ์ ์ฉํ๋ค.
CV: ํด๋์ค ๋ ์ด๋ธ ๊ฐ์ ํํ ์ ์ฌ์ฑ์ ์์กด
NLP: ๋์ผํ ์๋ฏธ์ ๊ณต๊ฐ์์์ ๋ ์ด๋ธ์ ๋ํ๋ด๋ '๋ผ๋ฒจ ์ดํด' ๊ธฐ๋ฅ ๊ธฐ๋ฐ
One-shot
- ๋ชจ๋ธ์ 1๊ฑด์ ๋ฐ์ดํฐ์ ๋ง๊ฒ ์ ๋ฐ์ดํธํ๋ค.
- ๋ณดํต์ ์ผ๊ตด ์ธ์ ์์คํ ์ ์ฌ์ฉ์์ ์ฌ์ง์ด ํ ์ฅ๋ง ์กด์ฌํ ์๋ ์๊ธฐ ๋๋ฌธ์ด๋ค.
Few-shot
- ๋ชจ๋ธ์ ๋ช ๊ฑด์ ๋ฐ์ดํฐ์ ๋ง๊ฒ ์ ๋ฐ์ดํธํ๋ค
- Supervised learning์ ํ์ต์ ๊ฐ์์ง ์ฌ์ง์ ์ฃผ๊ณ ๊ฐ์์ง๋ฅผ ์ ํ์ตํ๋ ์ง ๋ฌป์ง๋ง, Few shot learning์ Training set์ ์๋ ํด๋์ค๋ฅผ ๋ง์ถ๋ ๋ฌธ์ ์ด๋ค.
Black box๋ ๊ฒฐ๊ณผ๋ ์ธ๊ฐ๊ณผ ์ ์ฌํ๊ฒ ๋๋ ์ํ๋๋๋ก ๋์ถํ ์ ์์ง๋ง ์ด๋ป๊ฒ, ๋ฌด์์ ๊ทผ๊ฑฐ๋ก ๊ทธ๋ฌํ ๊ฒฐ๊ณผ๊ฐ ๋์๋์ง ์ ์ ์๋ ๊ฒ
- Global Max Pooling์ ํ์ง ์ฌ๋ฌผ์ ํฌ์ธํธ๋ก ์ง๋ ๋ฐ๋ฉด, GAP๋ ์ฌ๋ฌผ์ ์์น๋ฅผ ๋ฒ์๋ก ์ก์๋ด๋ ์ฅ์ ์ด ์๋ค.
- Average pooling method: smooths out the image and hence the sharp features may not be identified when this pooling method is used.
- Max pooling: brighter pixels from the image.
GAP layer๋ ๊ฐ๊ฐ์ feature map์ ๊ฐ๋ค์ ํ๊ท ์ ์ทจํ ๊ฒ์ผ๋ก, feature map์ ํฌ๊ธฐ์ ๊ด๊ณ์์ด channel์ด k๊ฐ๋ผ๋ฉด k๊ฐ์ ํ๊ท ๊ฐ์ ์ป์ ์ ์๋ค.
- GAP๋ FC Layer์ ๋ฌ๋ฆฌ ์ฐ์ฐ์ด ํ์ํ ํ๋ผ๋ฏธํฐ ์๋ฅผ ํฌ๊ฒ ์ค์ผ ์ ์๋ค
- Regulariztion๊ณผ ์ ์ฌํ ๋์์ ํตํด overfitting์ ๋ฐฉ์งํ ์ ์๋ค.
- FC layer๋ Convolution layer์์ ์ ์งํ๋ ์์น์ ๋ณด๊ฐ ์์ค๋๋ ๋ฐ๋ฉด, GAP layer๋ ์์น์ ๋ณด๋ฅผ ๋ด๊ณ ์๊ธฐ ๋๋ฌธ์ localization์ ์ ๋ฆฌํ๋ค.
์ด๋ค target concept์ผ์ง๋ผ๋ final convolutional layer๋ก ํ๋ฅด๋ gradient๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์ ์ค์ํ ์์ญ์ ๊ฐ์กฐํ๋ localization map์ ๋ง๋ ๋ค.
์ ๋ ฅ ์ ํธ์ ์ดํฉ์ ์ถ๋ ฅ ์ ํธ๋ก ๋ณํํ๋ ํจ์๋ฅผ ์ผ๋ฐ์ ์ผ๋ก ํ์ฑํ ํจ์๋ผ๊ณ ํฉ๋๋ค. ์ ๋ ฅ ์ ํธ์ ์ดํฉ์ด ํ์ฑํ๋ฅผ ์ผ์ผํค๋์ง๋ฅผ ์ ํ๋ ์ญํ ์ ๋๋ค.
- ์ด๋ ๊ฒ ๊ธฐ์ธ๊ธฐ(๋ฏธ๋ถ๊ฐ)์ ๊ตฌํ๋ ์ด์ ?
- ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ฐ layer์์ ๊ธฐ์ธ๊ธฐ ๊ฐ์ ๊ตฌํ๊ณ ๊ทธ ๊ธฐ์ธ๊ธฐ ๊ฐ์ ์ด์ฉํ์ฌ Gradient descent ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ์ค์น w์ b๋ฅผ update์ํค๋ฉด์ ํ๋ผ๋ฏธํฐ๊ฐ ๋งค์ฐ ๋ง๊ณ layer๊ฐ ์ฌ๋ฌ๊ฐ ์์๋ ํ์ตํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
- ์ต์ข output์ ๋ํ ๊ธฐ์ธ๊ธฐ ๊ฐ์ ๊ฐ layer๋ณ๋ก ๊ตฌํ๋ ์ด์ ?
- ๊ฐ layer์ node(parameter)๋ณ๋ก ํ์ต์ ํด์ ๊ฐ ๊ฐ์ค์น(๊ธฐ์ธ๊ธฐ ๊ฐ)์ ์ ๋ฐ์ดํธํ๋ค.
Gradient Vanishing: ์ญ์ ํ ๊ณผ์ ์์ ์ ๋ ฅ์ธต์ผ๋ก ๊ฐ ์๋ก ๊ธฐ์ธ๊ธฐ(Gradient)๊ฐ ์ ์ฐจ์ ์ผ๋ก ์์์ง๋ ํ์ (์๊ทธ๋ชจ์ด๋ ๋์ ReLU ์ฌ์ฉ์ผ๋ก ํด๊ฒฐ)
Layer๊ฐ ์งํ๋ ์๋ก sigmoid ํจ์๊ฐ ์ฐ์์ผ๋ก ๊ณฑํด์ง๋ ๋ชจ์ต์ด๋ค.
๋ฐ๋ผ์, sigmoid ํจ์์ ๋ฏธ๋ถ์ 1๋ณด๋ค ์์ผ๋ฏ๋ก ๊ณฑํด์ง๋ ํ์๊ฐ ๋ง์ ์๋ก (= layer๊ฐ ๋ง์ ์๋ก) ์ ๋ ฅ์ธต์ผ๋ก ๊ฐ๋ ์ญ์ ํ ๊ณผ์ ์์ ๊ธฐ์ธ๊ธฐ์ ๊ฐ์ ๋ ์์์ง๋ค.
์ฆ, ๊ธฐ์ธ๊ธฐ๊ฐ 0์ ์๋ ดํ๋ฉด ๊ฐ์ค์น์ ๋ณํ๊ฐ ๊ฑฐ์ ์๊ฒ ๋๊ณ error๊ฐ๋ ๋ ์ด์ ์ค์ด๋ค์ง ์๊ฒ๋์, ๊น์ด๊ฐ ๊น์์๋ error๊ฐ ๋ ๋๊ฒ ๋ํ๋๋ ํ์์ธ ๊ธฐ์ธ๊ธฐ ์์ค์ด ๋ฐ์ํ๋ค.
Gradient Exploding: ๊ธฐ์ธ๊ธฐ๊ฐ ์ ์ฐจ ์ปค์ง๋๋ ๊ฐ์ค์น๋ค์ด ๋น์ ์์ ์ผ๋ก ํฐ ๊ฐ์ด ๋๋ฉด์ ๊ฒฐ๊ตญ ๋ฐ์ฐ๋๋ค.
Gradient Clipping: ๊ธฐ์ธ๊ธฐ ํญ์ฃผ๋ฅผ ๋ง๊ธฐ ์ํด ์๊ณ๊ฐ์ ๋์ง ์๋๋ก ๊ฐ์ ์๋ฅธ๋ค.
์ธ์ด ๋ชจ๋ธ์ ํ๊ฐํ๊ธฐ ์ํ ํ๊ฐ ์งํ๋ก, ๊ทธ ์์น๊ฐ ๋ฎ์์๋ก ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ข๋ค.
๋ชจ์ง๋จ(ํ๊ท : ฮผ, ํ์คํธ์ฐจ: ฯ)์ด ์ด๋ค ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋์ง ๋ฌด๊ดํ๊ฒ, ํ๋ณธํ๊ท ์ ํ๋ณธ๋ถํฌ๋ n์ด ์ปค์ง๋ฉด(>= 30) ํ๊ท ์ด ฮผ์ด๊ณ ํ์คํธ์ฐจ๊ฐ ฯ/n์ธ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค.
ํ๋ณธํ๊ท ์ ํตํด์ ๋ชจ์ง๋จ์ ๋ชจ์์ธ ๋ชจํ๊ท ๊ณผ ๋ชจํ์คํธ์ฐจ๋ฅผ ์ถ์ ํ ์ ์๋ ํ๋ฅ ์ ๊ทผ๊ฑฐ ์ ์
๊ฒฝํ์ ํ๋ฅ ๊ณผ ์ํ์ ํ๋ฅ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ํ๋ด๋ ๋ฒ์น; ํ๋ณธ์ง๋จ์ ํฌ๊ธฐ๊ฐ ์ปค์ง๋ฉด ๊ทธ ํ๋ณธํ๊ท ์ด ๋ชจํ๊ท ์ ๊ฐ๊น์์ง์ ์๋ฏธ
ํ๋ฅ : ํ๋์ ์ฌ๊ฑด์ด ๋ฐ์ํ ๊ฒฝ์ฐ
ํต๊ณ: ์ฌ๋ฌ ๊ฐ์ ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ
๊ฒ์ ํต๊ณ๋ ๊ฐ์ ๋ํด ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ ์ ์๋ ์ต์์ ์ ์ ์์ค(์ 1์ข ์ค๋ฅ (ฮฑ)๋ฅผ ๋ฒํ ํ๋ฅ ์ ์ต๋ ํ์ฉํ๊ณ).
์ฆ, ๊ท๋ฌด๊ฐ์ค์ด ์ฌ์ค์ผ ํ๋ฅ ์ด๋ค.
ฮฑ(0.05) > p-value: H0 ๊ธฐ๊ฐ
ฮฑ(0.05) < p-value: H0 ์ฑํ
๋ชจํ ๋ ๊ฐ์ ์ฐ๋(๊ฐ๋ฅ์ฑ ํ๋ฅ )์ ๋น๋ฅผ ๊ณ์ฐํด์ ๋ ๋ชจํ์ ์ฐ๋๊ฐ ์ ์ํ๊ฒ ์ฐจ์ด ๋๋์ง ๋น๊ตํ๋ ๋ฐฉ๋ฒ์ด๋ค.
๊ฐ๋ น, ๋ชจํ B์ '๋น๋ง'์ด๋ผ๋ ๋ ๋ฆฝ๋ณ์๋ฅผ ์ถ๊ฐํ ํ ์ฐ๋๋น ๊ฒ์ ๊ฒฐ๊ณผ์์ ๋ ๋ชจํ์ ์ฐ๋์ ๋น ์ฐจ์ด๊ฐ ์๋ค๋ฉด, '๋น๋ง'์ ํ๊ท๊ณ์๋ ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ๋ค.
pmf(ํ๋ฅ ์ง๋ํจ์): ์ด๋ค ์ฌ๊ฑด์ด ๋ฐ์ํ ์ด์ฐํ ํ๋ฅ ๋ถํฌ์ด๋ค.
pdf(ํ๋ฅ ๋ฐ๋ํจ์): ์ด๋ค ์ฌ๊ฑด์ด ๋ฐ์ํ ์ฐ์ํ ํ๋ฅ ๋ถํฌ์ด๋ค.
cdf(๋์ ๋ถํฌํจ์): pdf ํ๋ฅ ๊ฐ๋ค์ด ๋์ ๋ ํ๋ฅ ๋ถํฌ์ด๋ค.
pdf๋ฅผ ์ ๋ถํ๋ฉด cdf๊ฐ ๋๊ณ , cdf๋ฅผ ๋ฏธ๋ถํ๋ฉด pdf๊ฐ ๋๋ค (cdf์์ ์ด๋ ์ง์ ๊น์ง์ ๋์ด๊ฐ pdf์์ ๊ทธ ์ง์ ์ ํ๋ฅ ์ด๋ค)..
์ด์ฐํ๋ฅ ๋ถํฌ (Binomial, Bernoulli, Multinomial, Multinoulli, Geometric, Poisson, Hypergeometric)
pmf๋ฅผ ํตํด ํํ ๊ฐ๋ฅํ๋ฉฐ, ํ๋ฅ ๋ณ์๊ฐ ๊ฐ์ง ์ ์๋ ๊ฐ์ด ๊ฐ์ฐ ๊ฐ ์๋ค.
Binomial(์ดํญ๋ถํฌ): ๋ ๋ฆฝ๋ ์ฐ์๋ N๋ฒ์ ๋ฒ ๋ฅด๋์ด ์ํ์์ ์ํ ํ๋ฅ (p)๋ฅผ ๋ฐ๋ณตํ์ ๋์ ์ด์ฐํ๋ฅ ๋ถํฌ์ด๋ค (i.e., ๋์ ๋์ง๊ธฐ)
Negative-Binomial(์์ดํญ๋ถํฌ): ์์ดํญ๋ถํฌ๋ ๊ธฐํ๋ถํฌ๋ฅผ ์ผ๋ฐํํ ๋ฒ์ ์ผ๋ก, ๊ธฐํ๋ถํฌ๋ ์ฒ์ ์ฑ๊ณต๊น์ง๋ฅผ ๋ณด์ง๋ง, ์์ดํญ๋ถํฌ๋ r๋ฒ์งธ ์ฑ๊ณต๊น์ง์ด๋ค.
Bernoulli(๋ฒ ๋ฅด๋์ด): ์ดํญ๋ถํฌ์์ ์ํ ํ์(N)์ด 1์ผ ๋์ด๋ค.
Multinomial(๋คํญ๋ถํฌ): ๋ฒ ๋ฅด๋์ด ์ํ์ ๋ฐ์ ๊ฐ๋ฅํ ๊ฒฝ์ฐ์ ์๊ฐ ๋ ๊ฐ์ง์์ง๋ง, ๋คํญ๋ถํฌ๋ ๋ฐ์ ๊ฒฝ์ฐ์ ์๊ฐ ๊ทธ ์ด์์ธ ๊ฒฝ์ฐ๋ฅผ ๋งํ๋ค (i.e., ์ฃผ์ฌ์).
Multinoulli: ๋คํญ๋ถํฌ์์ ์ํ ํ์(N)์ด 1์ผ ๋์ด๋ค.
Geometric(๊ธฐํ๋ถํฌ): ์ด๋ค ํ์๋ฅผ ์ฒ์ ์ฑ๊ณตํ ๋๊น์ง ์๋ํ๋๋ฐ, ์ฒ์ ์ฑ๊ณตํ ๋๊น์ง์ ์๋ํ์ ๋๋ ์คํจํ ํ์์ ๋ถํฌ์ด๋ค.
Poisson(ํฌ์์ก๋ถํฌ): ๋ฅ ๋ก ์์ ๋จ์ ์๊ฐ ์์ ์ด๋ค ์ฌ๊ฑด์ด ๋ช ๋ฒ ๋ฐ์ํ ๊ฒ์ธ์ง๋ฅผ ํํํ๋ ์ด์ฐํ๋ฅ ๋ถํฌ์ด๋ค.
Hypergeometric(์ด๊ธฐํ๋ถํฌ): ๋น๋ณต์์ถ์ถ์์ N๊ฐ ์ค์ M๊ฐ๊ฐ ์ํ๋ ๊ฒ์ด๊ณ , K๋ฒ ์ถ์ถํ์๋ ์ํ๋ ๊ฒ x๊ฐ๊ฐ ๋ฝํ ํ๋ฅ ์ ๋ถํฌ์ด๋ค (i.e., ํฐ/๊ฒ ๊ณต์ด ๋ค์ด์๋ ํญ์๋ฆฌ์์ ํฐ ๊ณต์ k๊ฐ ๋ฝ์ ํ๋ฅ ๋ถํฌ).
์ฐ์ํ๋ฅ ๋ถํฌ (์ ๊ท๋ถํฌ, ๊ฐ๋ง๋ถํฌ, ์ง์๋ถํฌ, ์นด์ด์ ๊ณฑ๋ถํฌ, ๋ฒ ํ๋ถํฌ, ๊ท ์ผ๋ถํฌ)
pdf๋ฅผ ํตํด ํํ ๊ฐ๋ฅํ๋ฉฐ, ํ๋ฅ ๋ณ์๊ฐ ๊ฐ์ง ์ ์๋ ๊ฐ์ด ์ ์ ์๋ค.
Normal(์ ๊ท๋ถํฌ): ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ฅผ ๊ธฐ์ค์ผ๋ก ์ข ๋ชจ์ ๋ถํฌ๋ฅผ ๋ํ๋ธ๋ค. ์ฌ๊ธฐ์, ํ๊ท ์ด 0์ด๊ณ ํ์คํธ์ฐจ๊ฐ 1์ธ ๋ถํฌ๋ฅผ ํ์ค์ ๊ท๋ถํฌ๋ผ ์ง์นญํ๋ค.
Gamma(๊ฐ๋ง๋ถํฌ): ฮฑ ๋ฒ์งธ ์ฌ๊ฑด์ด ๋ฐ์ํ ๋ ๊น์ง์ ๋๊ธฐ์๊ฐ์ ๋ถํฌ
Exponential(์ง์๋ถํฌ): ์ฒซ๋ฒ์งธ ์ฌ๊ฑด์ด ๋ฐ์ํ ๋ ๊น์ง์ ๋๊ธฐ์๊ฐ์ ๋ถํฌ
Chi-squared(์นด์ด์ ๊ณฑ๋ถํฌ): ๊ฐ๋ง๋ถํฌ์ ํน์ํ ๊ฒฝ์ฐ๋ก (ฮฑ=p/2,ฮฒ=2), ๋ ๋ฒ์ฃผํ ๋ณ์์ ๋ํ ๋ถ์ ๋ฐฉ๋ฒ์ด๋ค. ์นด์ด์ ๊ณฑ๋ถํฌ๋ ๋ถ์ฐ์ ํน์ง์ ํ๋ฅ ๋ถํฌ๋ก ๋ง๋ ๊ฒ์ด๋ฏ๋ก ์ง๋จ์ ๋ถ์ฐ์ ์ถ์ ํ๊ณ ๊ฒ์ ํ ๋ ๋ง์ด ์ฌ์ฉ๋๋ค. ๋ณดํต 0์์ ์์๋๋ positively skewed ํํ์ ๋ถํฌ๋ชจ์์ ๋๋๋ฐ, ์ด๋ 0์์ ๋ฉ์ด์ง์๋ก ๋ถ์ฐ์ ํฌ๊ธฐ๊ฐ ํฐ ๊ฒฝ์ฐ(๊ฐ๋ น ํค ์ฐจ์ด๊ฐ 50cm ์ด์ ๋๋ ๊ฒฝ์ฐ)๊ฐ ์ ๋ค๋ ์๋ฏธ์ด๋ค.
Beta(๋ฒ ํ๋ถํฌ): ๋ ๋งค๊ฐ๋ณ์ ฮฑ ์ ฮฒ ์ ๋ฐ๋ผ [0, 1] ๊ตฌ๊ฐ์์ ์ ์ ๋๋ ๋จ์ผ ํ๋ฅ ๋ณ์์ ๋ํ ์ฐ์ํ๋ฅ ๋ถํฌ์ด๋ค.
Dirichlet(๋๋ฆฌํด๋ ๋ถํฌ): ๋ ๋งค๊ฐ๋ณ์ ฮฑ ์ ฮฒ ์ ๋ฐ๋ผ [0, 1] ๊ตฌ๊ฐ์์ ์ ์ ๋๋ ๋ค๋ณ์ ํ๋ฅ ๋ณ์์ ๋ํ ์ฐ์ํ๋ฅ ๋ถํฌ์ด๋ค.
Uniform(๊ท ์ผ๋ถํฌ): ํน์ ๋ฒ์ ๋ด์์ ๊ท ๋ฑํ๊ฒ ๋ํ๋ ์์ ๊ฒฝ์ฐ๋ฅผ ๊ฐ๋ฆฌํจ๋ค.
MDS๋ linear manifold learning์ ํ ์ข ๋ฅ๋ก์จ, ๊ฐ์ฒด๊ฐ (๋น)์ ์ฌ์ฑ (= ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ)์ ์ด์ฉํ์ฌ ๊ด๊ณ๋ฅผ ์ดํดํ๋๋ฐ ์ฃผ๋ก ์ฌ์ฉ๋๋ค.
Manifold: ๊ทผ๊ฑฐ๋ฆฌ์์๋ ์ ํด๋ฆฌ๋(= ์ง์ ), ์๊ฑฐ๋ฆฌ์์๋ ๊ทธ๋ ์ง ์์(= ๊ณก์ ) ๊ณต๊ฐ์ด๋ค.
๊ฐ๋ น, ์๊ธฐ ๋ชจํ์ฒ๋ผ MDS๋ฅผ ์ด์ฉํ์ฌ ์ ์ฐจ์ ๊ณต๊ฐ์์ ๊ฐ์ฒด๋ค์ ๋งคํ์ํค๊ณ ๊ฐ ๊ฐ์ฒด๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํ ์ ์๋ค.
์ฃผ์ด์ง ๋ฌธ์์ ๋ํ์ฌ ์ด๋ค ์ฃผ์ ๋ค์ด ์กด์ฌํ๋์ง์ ๋ํ ํ๋ฅ ๋ชจํ์ด๋ค.
์๊ธฐ ๊ทธ๋ฆผ์์ ์๊น๋ณ๋ก ํ ํฝ์ด ๋๋ ์ ธ ์๋ค.
- ๋ ธ๋์: gene, dna, genetic --> ์ ์
- ์ด๋ก์: ๋ ๊ด๋ จ ํ ํฝ
๋จ์ด๋ณ๋ก ์ฐ์ฌ์ง ๊ฐ์ ํ ํฝ์์ ๋ฑ์ฅํ ํ๋ฅ ์ด๋ค.
์ค๋ฅธ์ชฝ์ ์๋ Topic proportions & assignments๊ฐ LDA์ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
*์ฃผ๋ณํ๋ฅ ๋ถํฌ*: **ํ๋์** ํ๋ฅ ๋ณ์์ ๋ํ ๊ฒฐํฉํ๋ฅ ๋ค์ ๋ชจ๋ ํฉํ๋ค.
์กฐ๊ฑด๋ถ ๋ถํฌ: ์ด๋ค ์ฌ๊ฑด B๊ฐ ์ผ์ด๋ฌ์ ๋ ์ฌ๊ฑด A๊ฐ ๋ฐ์ํ ํ๋ฅ ์ด๋ค; P(B|A)
๋ถํธ์ถ์ ์น(unbiased estimation)์ ํธ์ฐจ(์ถ์ ๊ฐ๋ค์ ๊ธฐ๋์น์ ์ค์ ๊ธฐ๋์น์์ ์ฐจ์ด)๊ฐ 0์ธ ๊ฒฝ์ฐ๋ฅผ ์ผ์ปซ๋๋ค. ์ด๋ฅผ ํตํด ์ฐ๋ฆฌ๋ ๋ชจํ๊ท ์ ์ ํํ๊ฒ ๋์ถํด๋ผ ์ ์๋ค.
๊ทธ๋ผ ๋ฌด์กฐ๊ฑด์ ์ผ๋ก ๋ถํธ์ถ์ ์น๋ผ๋ ๊ฒ์ด ์ข์ ์๋ฏธ์ผ๊น? ๋ต์ ์๋๋ค. ์ฌ๊ธฐ์ ์ฃผ๋ชฉํด์ผํ ๋ถ๋ถ์ ์ถ์ ๊ฐ๋ค์ ํ๊ท ๊ณผ ์ค์ ๊ฐ์ ์ฐจ์ด์ด๋ค. unbiased estimation์ด๋ผ ํ ์ง๋ผ๋ ์ถ์ ๊ฐ๋ค์ ๋ถ์ฐ์ ๋งค์ฐ ํด์๋ ์์ผ๋ฏ๋ก ์ ๋์ ์ผ๋ก ์ ๋ขฐํ ์๋ ์๋ค.
Bias-Variance Tradeoff ์ ๋ฆฌ๋ฅผ ์ฐธ๊ณ ํ๋ฉด ์ดํด๊ฐ ๋ ์์ํ ๊ฒ์ด๋ค.
*์ฃผ๋ณํ๋ฅ ๋ถํฌ*: **ํ๋์** ํ๋ฅ ๋ณ์์ ๋ํ ๊ฒฐํฉํ๋ฅ ๋ค์ ๋ชจ๋ ํฉํ๋ค.
์กฐ๊ฑด๋ถ ๋ถํฌ: ์ด๋ค ์ฌ๊ฑด B๊ฐ ์ผ์ด๋ฌ์ ๋ ์ฌ๊ฑด A๊ฐ ๋ฐ์ํ ํ๋ฅ ์ด๋ค; P(B|A)
๋ชจ์๊ฐ ์ํ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ ๋ฒ์ (๋ชจ์๋ฅผ ํฌํจํ ๊ฒ์ผ๋ก ์ถ์ ํ ๊ตฌ๊ฐ)
๊ณต๋ถ์ฐ: ๋ ๊ฐ์ ํ๋ฅ ๋ณ์์ ์๊ด์ ๋(์ด๋ป๊ฒ ํผ์ ธ์๋์ง)๋ฅผ ๋ํ๋ด๋ ๊ฐ์ด๋ค [-1, 1]. ๊ณต๋ถ์ฐ์ ํฌ๊ธฐ๋ ๋ ํ๋ฅ ๋ณ์์ scale์ ํฌ๊ฒ ์ํฅ์ ๋ฐ๋๋ค.
์๊ด๊ด๊ณ: ๋ ๋ณ์ ๊ฐ์ ์ ํ ๊ด๊ณ์ ์ ๋๋ฅผ ์๋ํํ๋ ์ธก๋์ด๋ค. ์ด๋ ๋ ๋ณ์๊ฐ์ ๊ด๊ณ์ ๊ฐ๋๋ฅผ ์๊ด๊ณ์(correlation coefficient)๋ผ๊ณ ํ๋ค. ๋ง์ฝ, ์๊ด๊ณ์๊ฐ 0์ด๋ฉด ๋ ํ๋ฅ ๋ณ์๋ ์๋ฌด๋ฐ ์ ํ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง ์๋๋ค; ์์ ์ ํ๊ด๊ณ๋ฉด 1, ์์ ์ ํ๊ด๊ณ๋ฉด -1
Coefficient of determination(๊ฒฐ์ ๊ณ์)
- ํ๊ท์ ์ ์ํด ์ค๋ช ๋๋ ํ๊ท๋ชจํ์ ์ค๋ช ๋ ฅ์ผ๋ก, [0, 1] ๋ฒ์๋ฅผ ๊ฐ์ง๋ค.
- ๋ง์ฝ, ํ๊ท์ ์ ๋ชจ๋ ์ ๋ค์ด ์กด์ฌํ๋ค๋ฉด 1์ ๊ฐ๊น์ด ๊ฒฐ์ ๊ณ์๋ฅผ ๊ฐ๊ณ , ๋ฐ๋๋ก ๋ณ์๋ค๊ฐ ํ๊ท๊ด๊ณ๊ฐ ์๋ค๋ฉด 0์ ๊ฐ๊น๋ค.
- ๊ณต๋ถ์ฐ vs. ์๊ด๊ด๊ณ
- ๊ณต๋ถ์ฐ: ์๊ด ์ ๋์ ์ ๋์ ์ธ ํฌ๊ธฐ๋ฅผ ์ธก์ X
- ์๊ด๊ด๊ณ: ์๊ด ์ ๋์ ์ ๋์ ์ธ ํฌ๊ธฐ๋ฅผ ์ธก์ O
- ์๊ด๊ณ์ vs. ๊ฒฐ์ ๊ณ์
- ๋จ์ํ๊ท์ ํํ์ฌ ๊ฒฐ์ ๊ณ์์ ์ ๊ณฑ๊ทผ = ์๊ด๊ณ์
- ๋ค์คํ๊ท/๊ณก์ ํ๊ท๋ ํด๋น์ฌํญ ์์.
SST(์ด๋ณ๋) = SSR + SSE
Explained Variance Score = 1 โ ( (Sum of Squared Residuals โ Mean Error) / Total Variance )
์๊ธฐ ๊ทธ๋ฆผ์์ ๋ น์ ๋ถ๋ถ(|predicted - mu|)์ ํด๋นํ๋ ๋ถ๋ถ์ผ๋ก ์ํ์ ์ผ๋ก ๊ณ์ฐ ๊ฐ๋ฅํ ๋ณ๋(๋ถ์ฐ)์ ์ค๋ช ํ๋ ๋น์จ์ ์ธก์ ํ๋ค
๊ฒฐ์ ๊ณ์(=R์ ๊ณฑ)์์ ์ ์ผํ ์ฐจ์ด๋ SSR์ Mean Error๋ฅผ ๋นผ๋ ๊ฒ์ผ๋ก, ๋ชจ๋ธ ํ์ต์ ํธํฅ์ฑ์ด ์กด์ฌํ ๊ฒฝ์ฐ Mean Error๊ฐ 0์ด ์๋ ๊ฐ์ ๊ฐ์ง๊ฒ ๋๋ค.
์ด ๊ฒฝ์ฐ, ๊ฒฐ์ ๊ณ์๊ณผ ์ค๋ช ๋ถ์ฐ์ ์์ ๊ฐ์ด ๋ฌ๋ผ์ง๊ฒ ๋์ด ํธํฅ์ฑ ์ ๋ฌด๋ฅผ ํ๋ณํ ์ ์๋ค.
์ผ๋ฐ์ ์ผ๋ก, ํ๊ท๋ถ์๊ณผ ๊ฐ์ ๊ฒ๋ค์ ์์ฐจ์ ํธํฅ์ด ์๋ค๋ ์ ์ ๋ก ์ํ๋๊ธฐ์ ์ค๋ช ๋ถ์ฐ์ ์๋ฅผ ๋ฐ์ง์ง ์๋๋ค.
์์ฐจ์ ๊ณฑ = 1 โ (Sum of Squared Residuals / Total Variance)
์๊ธฐ ๊ทธ๋ฆผ์์ ๊ฒ์ ์ ๋ถ๋ถ(|predicted - actual|)์ ํด๋นํ๋ ๋ถ๋ถ์ผ๋ก ์ค์ ๊ฐ์ ์๋ก ๋ค์ด์ค๋ ๊ฐ์ ๋ฐ๋ผ ๊ฐ๋ณ์ ์ด๋ฏ๋ก ํ๋์ ๊ฐ์ผ๋ก ์ค๋ช ๋ถ๊ฐ๋ฅํ ๋ณ๋(๋ถ์ฐ)์ด๋ค (์ผ๋ฐ '์์ฐจ์ ๊ณฑํฉ' ์๊ฐํ๋ฉด ๋จ).
Unexplained variance๋ ๋ถ์ฐ ๋ถ์ (ANOVA)์ ์ฌ์ฉ๋๋ ์ฉ์ด๋ก, ANOVA๋ ๋ค๋ฅธ ๊ทธ๋ฃน์ ํ๊ท ์ ๋น๊ตํ๋ ํต๊ณ์ ๋ฐฉ๋ฒ์ด๋ค.
๋ฐฉํฅ์ฑ ๊ทธ๋ํ ๋ชจํ์์ ์ด๋ค ๋ ๋ ธ๋(ํ๋ฅ ๋ณ์)๊ฐ ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ์ธ์ง ์๋์ง ์์๋ณด๋ ๋ฐฉ๋ฒ
P(A,B|C) = P(A|C)*P(B|C) , (Aใ B)|C ์ผ๋ก ํ๊ธฐ๋๋ฉฐ, ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ. A์ B ์ฌ๊ฑด์, C์ฌ๊ฑด ํ์์๋ ์๋ก ๋ ๋ฆฝ์ด๋ค
๋ชจ์ง๋จ์ ๋ฐ์ดํฐ ๋ถํฌ ๋น์จ์ ์ ์งํ๋ฉด์ ๋ฐ์ดํฐ๋ฅผ ์ํ๋ง(์ทจ๋)ํ๋ ๊ฒ์ ๋งํ๋ค.
๊ฐ๋ น, ๋ชจ์ง๋จ์ ๋จ๋ ์ฑ๋น๊ฐ ๊ฐ๊ฐ 54%, 46%๋ผ๊ณ ํ๋ค๋ฉด ์ด ๋ชจ์ง๋จ์์ ์ทจ๋ํ ์ํ ๋ฐ์ดํฐ ์ญ์ ๋จ๋ ์ฑ๋น๊ฐ ๊ฐ๊ฐ 54%, 46%๊ฐ ๋๋๋ก ํ๋ค.
1. ๋ชจํ๊ท ๊ณผ์ ์ ํ๋ ๊ทผ์ฌ๋ฅผ ์ํด์
ํ๋ณธ์ ๋ฌดํ์ ์ถ์ถํ๋ฉด ํ๋ณธ๋ถ์ฐ๊ณผ ํ๋ณธํ๊ท ์ ๋ชจ๋ถ์ฐ๊ณผ ๋ชจํ๊ท ์ ์๋ ดํ์ฌ์ผ ํ์ง๋ง, ์ค์ ๋ก N์ผ๋ก ๋๋์ด ํ๋ณธ๋ถ์ฐ์ ๊ตฌํ ๊ฒฝ์ฐ ํ๋ณธ๋ถ์ฐ๋ณด๋ค ๋ชจ๋ถ์ฐ์ด ๋ ํฐ ํ์์ด ๋ฐ์ํ๋ค. ๋ฐ๋ผ์, ํ๋ณธ๋ถ์ฐ๊ณผ ๋ชจ๋ถ์ฐ์ ์ฐจ์ด๋ฅผ ์ค์ด๊ธฐ ์ํ์ฌ ํ๋ณธ๋ถ์ฐ์ ํฌ๊ธฐ๋ฅผ ํค์ฐ๊ณ ์ ๋ถ๋ชจ์ N ๋์ N-1์ ๋ถ๋ชจ์์ ์ฌ์ฉํ๋ค.
2. ์์ ๋ (Degree of Freedom)
๋ถ์ฐ์ ํธ์ฐจ ์ ๊ณฑ์ ํ๊ท ์ด๋ฏ๋ก, ํ๋ณธํ๊ท ์ ์๊ณ ์๋ค๋ ์ ์ ๋ก ๋์ถํ ์ ์๋ ๊ฐ์ด๋ค. ๋ฐ๋ผ์, ํธ์ฐจ ์ ๊ณฑ์ ํ๊ท ์ ๊ตฌํ ๋ ๋ถ๋ชจ์ N ๋์ N-1์ ์ฌ์ฉํ๋ฉด, ์ฐ๋ฆฌ๋ ํ๋ณธํ๊ท ์ ์๊ณ ์๊ธฐ ๋๋ฌธ์ ๋ง์ง๋ง ์ถ์ ๊ฐ์ ๋ ๋์ ํต๊ณ์น ๋์ถ์ ์ํด ์์ ๋กญ๊ฒ ์ ์ธํ ์ ์๋ค. ์ด๋ฅผ ํ ๋๋ก, ์ฐ๋ฆฌ๋ ํ๋ณธ๋ถ์ฐ์ ์์ ๋๊ฐ N-1์์ ์ ์ ์๋ค.
๋ฒ ์ด์ฆ ํ๋ฅ ๋ก ์์ ์ฌํํ๋ฅ ์ ๊ณ์ฐํจ์ ์์ด ์ฌํ ํ๋ฅ ์ด ์ฌ์ ํ๋ฅ ๋ถํฌ์ ๊ฐ์ ๋ถํฌ ๊ณ์ด์ ์ํ๋ ๊ฒฝ์ฐ ๊ทธ ์ฌ์ ํ๋ฅ ๋ถํฌ๋ ์ผค๋ ์ฌ์ ๋ถํฌ(Conjugate Prior)์ด๋ค.
์ผค๋ ์ฌ์ ๋ถํฌ๋ฅผ ์ฌ์ฉํ๋ ์ด์ ๋ ์ฌํ๋ถํฌ์ ๊ณ์ฐ์ด ํธ๋ฆฌํด์ง๊ธฐ ๋๋ฌธ์ด๋ค.
์ ํ๋ : ์์ธก์ด ์ ๋ต๊ณผ ์ผ๋ง๋ ์ ํํ๊ฐ?
์ ๋ฐ๋ : ์์ธกํ ๊ฒ์ค์ ์ ๋ต์ ๋น์จ์?
์ฌํ์จ : ์ฐพ์์ผ ํ ๊ฒ์ค์ ์ค์ ๋ก ์ฐพ์ ๋น์จ์?
- x์ถ์ recall, y์ถ์ precision์ผ๋ก ํ๋ ์ปค๋ธ๋ฅผ ์๋ฏธํ๋ค.
- TP (True Positive): ์์ฑ(๊ธ์ ์ ๊ฒฐ๊ณผ)์ด๋ผ๊ณ ์์ธกํ ๊ฒ์ด ์ ๋ต์ผ ๋
- ์ฆ ์ค์ ๋ก Positive์ธ ๊ฒ์ ์ ๋ง์ท์
- TN (True Negative): ์์ฑ(๋ถ์ ์ ๊ฒฐ๊ณผ)์ด๋ผ๊ณ ์์ธกํ ๊ฒ์ด ์ ๋ต์ผ ๋
- ์ฆ ์ค์ ๋ก Negative์ธ ๊ฒ์ ์ ๋ง์ท์
- FP (False Positive): ์์ฑ(๊ธ์ ์ ๊ฒฐ๊ณผ)์ด๋ผ๊ณ ์์ธกํ ๊ฒ์ด ์ค๋ต์ผ ๋
- ์ฆ ์ค์ Negative์ธ ๊ฒ์ Positive๋ก ์์ธกํด์ ํ๋ ธ์
- FN (False Negative): ์์ฑ(๋ถ์ ์ ๊ฒฐ๊ณผ)์ด๋ผ๊ณ ์์ธกํ ๊ฒ์ด ์ค๋ต์ผ ๋
- ์ฆ ์ค์ Positive์ธ ๊ฒ์ Negative๋ก ์์ธกํด์ ํ๋ ธ์
ํ๋ฅ ์ ๊ฐ๊ด์ ์ผ๋ก ๋ฐ์ํ๋ ํ์์ด๋ผ ๋ณธ๋ค (i.e., ์ฃผ์ฌ์ ํ ๋ฒ ๊ตด๋ฆด ๋ 1/6); ์ฐธ๋ ํ๋ฅ ๊ฐ์ ๊ณ ์ ๊ฐ์ ๊ฐ์ง๋ค.
๊ฐ ํ์์ ๋ณ์ ๋ ๋ฆฝ์ ์ด๋ผ ํ๋จํ์ฌ ํด๋น ํ์๋ฅผ ์ง์ ๊ฒ์ฌํ์ฌ source of pain์ ์ฐพ๋๋ค.
๋ ํ๋ฅ ๋ณ์์ ์ฌ์ ํ๋ฅ ๊ณผ ์ฌํ ํ๋ฅ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ํ๋ด๋ ์ ๋ฆฌ์ด๋ค.
์ด๋ฏธ ์ฌ๊ฑด์ด ์ผ์ด๋ฌ๊ณ (i.e., ์ฐฝ๊ณ ์ ๋ถ๋ ์ฒญ๋ฐ์ง), ์ฌ๊ฑด๋ฐ์์ ์์ธ์ ๋ํ ํ๋ฅ (i.e., ์ฌํํ๋ฅ = ์ด ์ฐฝ๊ณ ์ ๋ถ๋ ์ฒญ๋ฐ์ง๋ ์ด๋ค ๊ณต์ฅ์์ ๋ถ๋์์ฐ๋์ด ์จ๊ฒ์ผ๊น?)์ ์ฌ๊ฑด๋ฐ์์ ์ ์ด๋ฏธ ์๊ณ ์๋ ์ ๋ณด(i.e., ์ฌ์ ํ๋ฅ = ๊ตฌ๋ฏธ, ์ฒญ์ฃผ, ๋๊ตฌ ๊ณต์ฅ์ ๋ถ๋๋ฅ )์ ์ด์ฉํ์ฌ ๊ตฌํ๋ ๊ฒ์ด๋ผ ํ๊ฒ ๋ค.
ํ์์ ๋ํ ๊ด์ฐฐ์์ ์ฃผ๊ด์ ๋ฏฟ์์ ์ฒด๊ณ๋ก์จ ํ๋จํ๊ณ ์ฌ์ ํ๋ฅ ์ ๊ณ ๋ คํ์ฌ ๊ณผ๊ฑฐ์ ์ฌ๊ฑด์ด ํ์ฌ ์ฌ๊ฑด์ ์ํฅ์ ๋ฏธ์น ์ ์๋ค๊ณ ์๊ฐํ๋ค; ์ฐธ๋ ํ๋ฅ ๊ฐ์ ์์๊ฐ ์๋ ๋ถํฌ, ์ฆ ํ๋ฅ ๋ณ์๋ผ ์ฌ๊ธด๋ค.
๊ฐ ํน์ง๋ค์ ์๋ก '๋ ๋ฆฝ์ '์ด๋ผ๋ ์ ์์ ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ์ฐจ์ด์ ์ด ์๋ค.
๋ฐ์ดํฐ๊ฐ ๊ฐ ํด๋์ค์ ์ํ ํน์ง ํ๋ฅ ์ ๊ณ์ฐํ๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ๊ธฐ๋ฐ์ ๋ถ๋ฅ ๋ฐฉ๋ฒ์ด๋ค.
๋น์ทํ ์ฆ์์ ์ด์ ํ์์ ์ฆ์๊ณผ ๊ฒฐํฉํ์ฌ source of pain์ ์ฐพ๋๋ค.
์ค์ ์ํฉ์์๋ ๋ณ์๋ค์ด ์๋ก ์๊ฒ๋ชจ๋ฅด๊ฒ ์์กด๋์ด ์์ด์ ๋ชจ๋ธ ํ์ต์ ์ ์ฉํ๊ธฐ ์ด๋ ต๋ค.
์ด๋ฌํ ํ๊ณ๋ฅผ ํํผํ์ฌ ์ฌ๋ฌ '๋ ๋ฆฝ๋ณ์'๋ค๋ก์จ ๋ชจ๋ธ ํ์ต์ ํ์ฉํ๊ณ ์ ๊ฐ์ ํ์ฌ Naive๋ผ ์ด๋ฆ ๋ถ์ฌ์ก๋ค.
- Prior Probability
์ ์ฒด ๋ฐ์ดํฐ ์์์ ๊ฐ ์งํฉ ๋ฐ์ดํฐ ์์ ๋น์จ์ ๊ตฌํ ๊ฐ์ '์ฌ์ ํ๋ฅ '๋ก ํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ์ด๋์ ๋ถ๋ฅ๋ ์ง ์์ธกํ๋ค.
- Likelihood (์ฐ๋)
์๋ก์ด ๋ฐ์ดํฐ ์ฃผ๋ณ์์ ํ ์์ ์ํ๋ ๋ฒ์ฃผ ์์ ์ํ ๋นจ๊ฐ/ํ๋๊ณต ๋น์จ์ ๊ฐ๊ฐ ๋์ถํ์ฌ ๋ ํฐ '์ฐ๋'๋ฅผ ๊ฐ๋ ์งํฉ์ผ๋ก ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ๋ค.
- Posterior Probability
'์ฌํํ๋ฅ '์ ์ฌ์ ํ๋ฅ ์ ์ฐ๋๋ฅผ ๊ณฑํ ๊ฐ์ผ๋ก, ์ฌํํ์จ์ ํตํ์ฌ ์ต์ข ์ ์ผ๋ก ์๋ก์ด ๋ฐ์ดํฐ์ ๋ถ๋ฅ ์งํฉ์ ๊ฒฐ์ ํ๋ค.
ํธ๋ฏธ๋ถ์ ํจ์์ ๋ณ์๊ฐ 1๊ฐ๊ฐ ์๋ 2๊ฐ ์ด์์ ํจ์์์ ๋ณ์ 1๊ฐ์ ๋ณํ์ ๋ฐ๋ฅธ ๊ธฐ์ธ๊ธฐ๋ฅผ ์๊ณ ์ถ์ ๋ ์ฌ์ฉ๋๋ค.
z = f(x, y)์์ z๊ฐ์ ์ํฅ์ ๋ผ์น๋ ๋ณ์๊ฐ x, y ๋ ๊ฐ์ธ๋ฐ, ์ด ๋ณ์๋ค์ด ์ ๊ฐ๊ฐ ์์ง์ธ๋ค๋ฉด ๋ฌด์์ด z์ ์ํฅ์ ์ฃผ๋์ง ์ ์ ์์์ผ๋ก, ํ๋์ ๋ณ์์ ๋ํ ๋ฏธ๋ถ (= ํธ๋ฏธ๋ถ)์ ์ ์ฉํด์ z๊ฐ์ ์ํฅ์ ์ฃผ๋ ๋ณ์๋ฅผ ์ฐพ๊ณ ์ ํ๋ค.
์ด๋ค ๋ฒกํฐ๊ณต๊ฐ V์ ๋ฒกํฐ๋ค์ด ์ ํ๋ ๋ฆฝ์ด๋ฉด์ ๋ฒกํฐ๊ณต๊ฐ V ์ ์ฒด๋ฅผ ์์ฑํ ์ ์๋ ๋ฒกํฐ๋ค์ ์งํฉ์ด๋ค.
๋ค๋ฅธ ๋ง๋ก, R^m์ ์์์ ์์๋ฅผ ํํํ๊ธฐ ์ํด ํ์ํ ์ต์ํ์ ๋ฒกํฐ๋ก ์ด๋ฃจ์ด์ง ์งํฉ์ด๋ค.
๊ธฐ์ ๋ ํ ๊ณต๊ฐ์ ๊ตฌ์ฑ ํ ์ ์๋ ๋ฒกํฐ ์งํฉ์ด๋ค.
๊ธฐ์ ๋ฒกํฐ์ ๊ฐฏ์๋ฅผ ์ฐจ์(dimension)์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
๊ฐ๋ น, 3์ฐจ์ ๊ณต๊ฐ์ ๊ตฌ์ฑํ๋๋ฐ๋ 3๊ฐ์ ๊ธฐ์ ๋ฒกํฐ๊ฐ ํ์ํ๋ค.
์๊ณต๊ฐ์ ์ฐจ์์ 'nullity'์ด๋ค.
๋ฒกํฐ๋ค์ ์ด์ฉํ์ฌ ์ ํ๊ฒฐํฉ์ ์ด๋ฃจ์ด ๋ฒกํฐ ์คํ์ด์ค๋ฅผ ๋ง๋๋ ๊ณผ์ ์ span์ด๋ผ ํ๋ค.
์ฌ์ฉํ๋ ๋ฒกํฐ์ ๋ฐ๋ผ์๋ ๋ชจ๋ ๊ณต๊ฐ์ ์ฑ์ธ ์๋ ์๊ณ , ํน์ 2์ฐจ์์์ Line, 3์ฐจ์ ๊ณต๊ฐ์์ ํ๋ฉด(Plane)๊ณผ ๊ฐ์ด ๋ถ๋ถ์ ์ธ ๊ณต๊ฐ๋ง์ ์ฑ์ธ ์๋ ์๋ค.
์ด๋ค ๋ฒกํฐ ์งํฉ์ด ์์๋, ๊ทธ ๋ฒกํฐ๋ค๋ก ๊ตฌ์ฑํ ์ ์๋ ๊ณต๊ฐ์ ๋ฒกํฐ ๊ณต๊ฐ์ด๋ผ ํ๋ค.
์ด๋ค ๋ฒกํฐ์งํฉ์ ์ผ๋ถ๋ถ์ผ๋ก ๋ง๋ ๊ณต๊ฐ์ ์ ์ฒด ๊ณต๊ฐ์ ๋ถ๋ถ ๊ณต๊ฐ์ด๋ผ ํ๋ค.
์๋ฅผ๋ค์ด ๊ธฐ์ ๋ฒกํฐ 3๊ฐ๊ฐ ์๋ค๊ณ ํ๋ฉด, ๊ทธ 3๊ฐ์ ๋ฒกํฐ๋ก ๋ง๋ค์ ์๋ ๊ณต๊ฐ์ ์ ์ฒด ๋ฒกํฐ๊ณต๊ฐ์ด๋ผ๊ณ ํ๋ฉฐ, ๊ธฐ์ ๋ฒกํฐ 3๊ฐ ์ค ์ผ๋ถ์ธ 2๊ฐ๋ 1๊ฐ๋ง ์ฌ์ฉํด์ ๋ง๋ค์ ์๋ ๊ณต๊ฐ์ด ๋ถ๋ถ๊ณต๊ฐ์ ๋๋ค.
๋ค๋ฅธ ์์๋ก, ์ ์ฒด ๊ณต๊ฐ์ 3์ฐจ์ ๊ณต๊ฐ์ด๋ผ ํ์๋ ์ ์ฒด ๊ณต๊ฐ์ ์ผ๋ถ์ธ ์ (line)์ด๋ ๋ฉด(plane)์ 3์ฐจ์ ๊ณต๊ฐ์ ๋ถ๋ถ๊ณต๊ฐ์ด๋ผ๊ณ ํ ์ ์์ฃ .
์ฑ๋ถ์ด ๋ชจ๋ ์ค์์ด๊ณ ๋์นญ์ธ nxn ์ ๋ฐฉํ๋ ฌ A๊ฐ 0์ด ์๋ x์ ๋ํด ๋ค์ ๋ถ๋ฑ์์ ํ์ธํ๋ผ.
ํด๋น ํ๋ ฌ์ด ๊ทน์์ ์ ๊ฐ๋๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
์ค์ ์ ํ๋ ฌ
ํด๋น ํ๋ ฌ์ด ๊ทน๋์ ์ ๊ฐ๋๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
๊ธฐํํ์ ์ผ๋ก ์ ํ๋ณํ์ด๋ ๋ค์๊ณผ ๊ฐ์ ํน์ง์ ๊ฐ์ง ๋ณํ์ด๋ค.
- ๋ณํ ํ์๋ ์์ ์ ์์น๊ฐ ๋ณํ์ง ์๋๋ค.
- ๋ณํ ํ์๋ ๊ฒฉ์๋ค์ ํํ๊ฐ ์ง์ ์ ํํ๋ฅผ ์ ์งํ๊ณ ์๋ค.
- ๊ฒฉ์ ๊ฐ์ ๊ฐ๊ฒฉ์ด ๊ท ๋ฑํ๋ค.
๋น์ ํ ๋ณํ์ ์ ํ ๋ณํ์ผ๋ก ๊ทผ์ฌ์ํค๋ ํ๋ ฌ์ด๋ค.
์๊ธฐ ์ฌ์ง์์ ๋น์ ํ๋ณํ์ ์ฐจ์์ ๊ท ์ด์ด ๋ฐ์ํ์ฌ ์ ํ์ ํํ๊ฐ ์ฌ๋ผ์ง์ง๋ง, ์ง์ฝ๋น์ ํ๋ ฌ๋ก ์ฌ์ฉํ์ฌ ๊ตญ์์ ์ผ๋ก ๊ด์ฐฐํด๋ณด๋ฉด ๋ง์น ์ ํ๋ณํ์ ์ทจํ ๊ฒ์ฒ๋ผ ์ง์ ์ผ๋ก ํํ๋๋ค.
์ ํ๋ณํ์ ์ทจํ์์ ๋, ๋ฐฉํฅ์ ๋ณํ์ง ์๊ณ ํฌ๊ธฐ๋ง ๋ณํ๋ ๋ฒกํฐ๋ฅผ ๊ณ ์ ๋ฒกํฐ๋ผ ์ผ์ปซ๋๋ค.
๊ณ ์ ๋ฒกํฐ๊ฐ ๋ฐฉํฅ์ ์ ์งํ ์ฑ ํฌ๊ธฐ๋ง ๋ณํ๋ค๊ณ ์์ ์ธ๊ธํ๋ค.
์ฌ๊ธฐ์, ๊ณ ์ ๊ฐ์ ๊ทธ ํฌ๊ธฐ๊ฐ ์ผ๋ง๋ ๋ณํ๋์ง๋ฅผ ์๋ฏธํ๋ค.
๊ณ ์ ๊ฐ/๊ณ ์ ๋ฒกํฐ๋ฅผ ํ์ฉํ์ฌ ์ ๋ฐฉํ๋ ฌ์ ๋ํ์ฌ ๋์ํ๋ eigendecomposition(๋๊ฐํ)๊ฐ ๊ฐ๋ฅํ๋ค.
- eigendecomposition๊ฐ ๊ฐ๋ฅํ๋ ค๋ฉด, ํ๋ ฌ A๊ฐ n๊ฐ์ linearly independentํ ๊ณ ์ ๋ฒกํฐ๋ฅผ ๊ฐ์ ธ์ผ ํ๋ค.
์ด ๋๊ฐํ๋ AI์์ PCA ๊ธฐ๋ฒ์ ํ์ฉ๋๋ค.
- ๋ ๋ฒกํฐ ๋ด์ ๊ฐ์ด 0์ด๋ฉด, ๊ทธ๋ค์ ์ง๊ตํ๋ค.
- ๋ ๋ฒกํฐ์ ๋ด์ ์ด 0์ด๊ณ ๋ฒกํฐ ๊ฐ๊ฐ ํฌ๊ธฐ๊ฐ 1์ด๋ผ๋ฉด, ๊ทธ๋ค์ ์ ๊ท์ง๊ตํ๋ค.
์ํ์ ์ผ๋ก ์ ์นํ๋ ฌ(transpose)๋ฅผ ์ญํ๋ ฌ๋ก ๊ฐ๋ ์ ๋ฐฉํ๋ ฌ(nxn)์ด๋ค.
์ง๊ตํ๋ ฌ(orthogonal matrix)์ transpose๋ฅผ ์ํค๋ฉด ์์ ์ ์ญํ๋ ฌ์ด ๋๊ธฐ ๋๋ฌธ์ ๋ค์ํ ์ ํ๋์ํ ๊ณ์ฐ์์ ๋งค์ฐ ํธ๋ฆฌํ ์ฑ์ง์ ๊ฐ์ง ํ๋ ฌ์ด๋ค.
๊ทธ ํ๋ ฌ์ ํน์ฑ์ ๊ฒฐ์ ์ง๋ ์ค์ํ ๊ฐ์ผ๋ก, ์ญํ๋ ฌ์ฒ๋ผ ์ ๋ฐฉํ๋ ฌ์ ๋ํด์๋ง ์ ์๋๋ค