/ai-terms

Preparing for admission exam for AI graduate school

๐Ÿ˜Š AI ๋Œ€ํ•™์› ์ „๊ณต ๋ฉด์ ‘ ์งˆ๋ฌธ ๋ชจ์Œ ๐Ÿ˜Š


์ดˆ๊ฑฐ๋Œ€ AI

๋ฉ€ํ‹ฐ๋ชจ๋ธ

๋ฉ€ํ‹ฐ ๋ชจ๋‹ฌ์€ ์•ž์„œ ์†Œ๊ฐœํ•œ ๋ฐ”์™€ ๊ฐ™์ด, ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ํ˜•ํƒœ์™€ ์˜๋ฏธ๋กœ ์ปดํ“จํ„ฐ์™€ ๋Œ€ํ™”ํ•˜๋Š” ํ™˜๊ฒฝ์„ ๋œปํ•œ๋‹ค.

ํ™•์‚ฐ๋ชจ๋ธ (Diffusion model)

image

Diffusion model์€ ์œ„์—์„œ๋„ ์–ธ๊ธ‰ํ•œ ๊ฒƒ์ฒ˜๋Ÿผ, data์— noise๋ฅผ ์กฐ๊ธˆ์”ฉ ๋”ํ•ด๊ฐ€๊ฑฐ๋‚˜ noise๋กœ๋ถ€ํ„ฐ ์กฐ๊ธˆ์”ฉ ๋ณต์›ํ•ด๊ฐ€๋Š” ๊ณผ์ •์„ ํ†ตํ•ด data๋ฅผ generateํ•˜๋Š” ๋ชจ๋ธ์ด๋‹ค.

์ƒ์„ฑ ๋ชจ๋ธ์—์„œ ๋งŽ์ด ํ™œ์šฉ๋˜๋ฉฐ, ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€, ๊ฐœ์ฒด ๊ด€์˜ ๊ด€๊ณ„๋ฅผ ํ†ตํ•ด AI๊ฐ€ ํ•™์Šตํ•˜๋Š” โ€˜ํ™•์‚ฐ(diffusion) ๋ชจ๋ธโ€™์„ ์‚ฌ์šฉํ•ด์„œ ์ง€์‹์„ ์ถ•์ ํ•œ๋‹ค.

Discretization(์ด์‚ฐํ™”)

image

์ด์‚ฐํ™”์—์„œ๋Š” ์ „์ฒด ๋ณ€์ˆ˜ ๊ฐ’ ๋ฒ”์œ„์— ๊ฑธ์ณ ์žˆ๋Š” ์—ฐ์† ๊ฐ„๊ฒฉ ๋ชจ์Œ์„ ์ƒ์„ฑํ•˜์—ฌ ์—ฐ์† ๋ณ€์ˆ˜๋ฅผ ์ด์‚ฐ ๊ธฐ๋Šฅ์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ถˆ์—ฐ์† ๊ฐ’์€ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ๋กœ ์ฒ˜๋ฆฌ๋œ๋‹ค.

์˜์‚ฌ ๊ฒฐ์ • ํŠธ๋ฆฌ(decision treeo) ๋ฐ Naive Bayes์™€ ๊ฐ™์€ ์—ฌ๋Ÿฌ ํšŒ๊ท€ ๋ฐ ๋ถ„๋ฅ˜ ๋ชจ๋ธ์€ ์ด์‚ฐ ๊ฐ’์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌ์šฉํ•œ๋‹ค.


Programming

ํƒ์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋น„๊ต: BFS vs. DFS vs. UCS vs. IDS

image image

BFS (Queue)

image

DFS (Stack)

image

UCS (Uniform-cost search)

image

IDS (Iterative deepening)

image

CUDA Programming

NVDIA ์ œ๊ณต ๊ฐœ๋ฐœํˆด๋กœ, ๋งŽ์€ ์–‘์˜ ์—ฐ์‚ฐ์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ด๋‹ค. ๊ทธ๋Ÿฌ๋ฏ€๋กœ ๋”ฅ๋Ÿฌ๋‹, ์ฑ„๊ตด๊ณผ ๊ฐ™์€ ์ˆ˜ํ•™์  ๊ณ„์‚ฐ์— ๋งŽ์ด ์“ฐ์ธ๋‹ค.

1๋Œ€1 ํ„ด์ œ ๊ฒŒ์ž„์—์„œ ์‰ฝ๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํŠธ๋ฆฌ๊ตฌ์กฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ, ์ƒ๋Œ€๋ฐฉ์ด ์ตœ์ ์˜ ํŒ๋‹จ์„ ํ•œ๋‹ค๋Š” ์ „์ œ๋ฅผ ๊ฐ€์ง€๊ณ  ๊ณ„์‚ฐํ•œ๋‹ค.

  • MIN: ์œ ์ €์˜ ์ตœ์„ ์˜ ์„ ํƒ
  • MAX: AI ๋กœ๋ด‡์˜ ์ตœ์„ ์˜ ์„ ํƒ

์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ MIN๊ณผ MAX๋ฅผ ๋ฒˆ๊ฐˆ์•„ ๊ณ„์‚ฐํ•˜์—ฌ ๊ฒฐ๊ณผ๊ฐ’์œผ๋กœ, ์ด๋Š” ์œ ์ €์˜ ์„ ํƒ์„ ์—ผ๋‘ํ•œ ๊ฒฐ๊ณผ์ด๋‹ค.

Tree vs. Graph

Tree

Hierarchy ๊ตฌ์กฐ๋กœ ๋˜์–ด ์žˆ์–ด ์ƒํ•˜๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ธ ์ˆ˜ ์žˆ๋Š” ์ž๋ฃŒ๊ตฌ์กฐ์ด๋‹ค.

  • cycle์ด ์—†๋‹ค.

Graph

node์™€ edge๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉฐ, ๊ฐ node ๊ฐ„ ๋ฐฉํ–ฅ์„ฑ๊ณผ width๋ฅผ ํ†ตํ•ด ์–ผ๋งˆ๋‚˜ ์„œ๋กœ ์—ฐ๊ด€์ด ์žˆ๋Š”์ง€ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋Š” ์ž๋ฃŒ๊ตฌ์กฐ์ด๋‹ค.

  • cycle์ด ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค.

Machine Learning

Mutual Information(์ƒํ˜ธ์ •๋ณด๋Ÿ‰)

๋‘ ๊ฐœ์˜ ํ™•๋ฅ ๋ณ€์ˆ˜ ์‚ฌ์ด์˜ ์ƒํ˜ธ์ •๋ณด๋Ÿ‰(mutual information)์€ ํ•˜๋‚˜์˜ ํ™•๋ฅ ๋ณ€์ˆ˜๊ฐ€ ๋‹ค๋ฅธ ํ•˜๋‚˜์˜ ํ™•๋ฅ ๋ณ€์ˆ˜์— ๋Œ€ํ•ด ์ œ๊ณตํ•˜๋Š” ์ •๋ณด์˜ ์–‘์„ ์˜๋ฏธํ•œ๋‹ค.

์ฐจ์›์˜ ์ €์ฃผ

๋ฐ์ดํ„ฐ ์ฐจ์›์ด ์ฆ๊ฐ€ํ•˜๋ฉด์„œ ๋ฐ์ดํ„ฐ ๋ฐ€๋„๋Š” ๋‚ฎ์•„์ง€๊ฒŒ ๋œ๋‹ค.

์ด ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ชจ๋ธ์˜ ๋ณต์žก๋„ ๋˜ํ•œ ์ฆ๊ฐ€ํ•˜๊ณ , ๊ฒฐ๊ตญ ํ•™์Šต๋ฐ์ดํ„ฐ ์ˆ˜๊ฐ€ ๋ชจ๋ธ ๋ณต์žก๋„ ๋ณด๋‹ค ๋‚ฎ์•„์ง€๊ฒŒ ๋œ๋‹ค.

์ด๊ฒƒ์€ ์žฅ์ฐจ ๊ณผ์ ํ•ฉ ํ˜„์ƒ์„ ์œ ๋ฐœํ•˜๋Š” ๊ณ„๊ธฐ๊ฐ€ ๋œ๋‹ค.

Linear regression vs. Logistic regression

Linear regression(ํšŒ๊ท€๋ถ„์„)์—์„œ๋Š” ์˜ˆ์ธก๊ฐ’๊ณผ ์ข…์†๋ณ€์ˆ˜๊ฐ€ ์‹ค์ˆ˜์ด์ง€๋งŒ, Logistic regression(๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„)์—์„œ๋Š” *์˜ˆ์ธก๊ฐ’๊ณผ ์ข…์†๋ณ€์ˆ˜ y๊ฐ’์ด 0 ๋˜๋Š” 1์„ ๊ฐ€์ง„๋‹ค.

๋”ฐ๋ผ์„œ, ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•  ๋•Œ 0์ธ์ง€ 1์ธ์ง€ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ณ ์ž sigmoid ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

Activation Function์˜ ์ข…๋ฅ˜ ์„ธ ๊ฐ€์ง€

ํ™œ์„ฑํ™”ํ•จ์ˆ˜๋ž€ ์ž…๋ ฅ ์‹ ํ˜ธ์˜ ์ดํ•ฉ์„ ์ถœ๋ ฅ ์‹ ํ˜ธ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํ•จ์ˆ˜๋กœ, ์ž…๋ ฅ ๋ฐ›์€ ์‹ ํ˜ธ๋ฅผ ์–ผ๋งˆ๋‚˜ ์ถœ๋ ฅํ• ์ง€ ๊ฒฐ์ •ํ•˜๊ณ  Network์— ์ธต์„ ์Œ“์•„ ๋น„์„ ํ˜•์„ฑ์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

1. Ridge activation Function

Multivariate functions acting on a linear combination of the input variable

  • Linear
  • ReLU
  • Logistic

2. Radial activation Function(์›ํ˜•๊ธฐ์ค€ํ•จ์ˆ˜)

image

ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ๊ฐ€์ง€๋Š” ์ •๊ทœ๋ถ„ํฌ์˜ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ๊ทผ์‚ฌํ•œ๋‹ค. kernel function์„ ์‚ฌ์šฉํ•˜์—ฌ ๋น„์„ ํ˜•์ ์ธ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์— ๋Œ€ํ•œ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋ฉฐ, MLP๋ณด๋‹ค ํ•™์Šต์ด ๋น ๋ฅด๋‹ค

  • Gaussian

3. Folding activation Function

Folding activation functions are extensively used in the pooling layers in convolutional neural networks, and in output layers of multiclass classification networks. These activations perform aggregation over the inputs, such as taking the mean, minimum or maximum. In multiclass classification the softmax activation is often used.

  • Softmax

Netwon's method

๊ฐ’์„ ๊ณ„์† ๋Œ€์ž…ํ•˜์—ฌ ํ•จ์ˆ˜๊ฐ’์„ 0(f(x) = 0์ธ x)์œผ๋กœ ๋งŒ๋“ค์–ด์ฃผ๋Š” ๊ฐ’์ธ ํ•ด๋ฅผ ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ด๋‹ค.

ํ˜„์žฌ x๊ฐ’์—์„œ ์ ‘์„ ์„ ๊ทธ๋ฆฌ๊ณ  ์ ‘์„ ์ด x์ถ•๊ณผ ๋งŒ๋‚˜๋Š” ์ง€์ ์œผ๋กœ x๋ฅผ ์ด๋™์‹œ์ผœ ๊ฐ€๋ฉด์„œ ์ ์ง„์ ์œผ๋กœ ํ•ด๋ฅผ ์ฐพ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

2์ฐจ ๋ฐฉ์ •์‹์˜ ์ธ์ˆ˜๋ถ„ํ•ด์™€ ๋น„์Šทํ•ด๋ณด์ด์ง€๋งŒ, 7์ฐจ ๋ฐฉ์ •์‹์˜ ๊ฒฝ์šฐ ์ธ์ˆ˜๋ถ„ํ•ด๊ฐ€ ์–ด๋ ค์›Œ, ๋‰ดํ„ด๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค.

Decision Theory (์˜์‚ฌ๊ฒฐ์ •)

๋ถˆํ™•์‹ค์„ฑ์— ์ง๋ฉดํ•˜์—ฌ ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ์ง€ ์•Š์œผ๋ฉด ์•ˆ ๋  ๊ฒฝ์šฐ, ์–ด๋–ค ๊ฒฐ์ •์„ ํ•ด์•ผํ•  ๊ฒƒ์ด๋ฉฐ, ๋˜ ์–ด๋–ค ์ •๋ณด๋ฅผ ์–ด๋–ป๊ฒŒ ์ด์šฉํ•ด์•ผ ํ•˜๋Š”๊ฐ€์— ๊ด€ํ•œ ๋ฌธ์ œ์— ๋‹ตํ•˜๋ ค๋Š” ํ†ต๊ณ„์  ๊ฒฐ์ •์ด๋ก ์ด๋‹ค.

๊ธฐ๋Œ€ํšจ์šฉ์ด ์ตœ๋Œ€๊ฐ€ ๋˜๋„๋ก ๊ฒฐ์ •ํ•˜๋Š” ๊ฒƒ์„ '์—ฐ์—ญ'์ด๋ผ ์ผ์ปซ๋Š”๋‹ค. ๊ฒฐ์ •์ž์—๊ฒŒ ๋ถˆํ™•์‹ค์„ฑ ํ•˜์—์„œ ํ•ฉ๋ฆฌ์ ์ด๊ณ  ๊ฐ€์žฅ ์ ์ ˆํ•œ ๊ฒฐ์ •์„ ๋„์ถœํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

Applications

Naive Beyas ์ •๋ฆฌ๋ฅผ ํ† ๋Œ€๋กœ ์‚ฌ์ „ํ™•๋ฅ ์„ ํ†ตํ•œ ์‚ฌํ›„ํ™•๋ฅ  ๋„์ถœ์ด๋ผ๋Š” ๊ตฌ์ฒดํ™” ๊ณผ์ •์„ ๊ฑฐ์นœ๋‹ค.

ROC (Receiver Operating Characteristic) vs. AUC

ROC

image

ROC ๊ณก์„ ์€ Binary Classifier System์— ๋Œ€ํ•œ ์„ฑ๋Šฅ ํ‰๊ฐ€ ๊ธฐ๋ฒ•์œผ๋กœ, ๋ชจ๋ธ์ด ๋งž๊ฒŒ ์˜ˆ์ธกํ•œ TP๋ฅผ y์ถ•์œผ๋กœ ํ‹€๋ฆฌ๊ฒŒ ์˜ˆ์ธกํ•œ FP๋ฅผ x์ถ•์œผ๋กœ ํ•˜์—ฌ ๋„ํ‘œ๋ฅผ ๊ทธ๋ฆฐ๋‹ค.

์ขŒ์ƒ๋‹จ์œผ๋กœ ๊ฐ€์žฅ ๋งŽ์ด ์น˜์šฐ์นœ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ฐ–๋Š” ๋ชจ๋ธ์ด ๊ฐ€์žฅ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

AUC (Area Under the ROC Curve)

ROC curve์˜ ๋ฐ‘๋ฉด์ ์„ ๋งํ•œ๋‹ค.

์„ฑ๋Šฅ ํ‰๊ฐ€์— ์žˆ์–ด์„œ '์ˆ˜์น˜์ ์ธ ๊ธฐ์ค€'์ด ๋  ์ˆ˜ ์žˆ๋Š” ๊ฐ’์œผ๋กœ, 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๊ทธ๋ž˜ํ”„๊ฐ€ ์ขŒ์ƒ๋‹จ์— ๊ทผ์ ‘ํ•˜๊ฒŒ ๋˜๋ฏ€๋กœ ์ข‹์€ ๋ชจ๋ธ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

Semi-Supervised Learning

์ค€์ง€๋„ํ•™์Šต์€ ์†Œ๋Ÿ‰์˜ labeled data์—๋Š”ใ„ด supervised learning์„ ํ™œ์šฉํ•˜๊ณ , ์†Œ๋Ÿ‰์˜ unlabeled data ํ˜น์€ ๋Œ€์šฉ๋Ÿ‰ unalbeled data์— ๋Œ€ํ•˜์—ฌ unsupervised learning์„ ์ ์šฉํ•ด ์ถ”๊ฐ€์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

๊ธฐ์กด ์ง€๋„ํ•™์Šต์˜ label ์ข…์†์„ฑ์—์„œ ๋‹ค์†Œ ๋ฒ—์–ด๋‚˜ '๋ฐ์ดํ„ฐ ์ž์ฒด์˜ ๋ณธ์งˆ์ ์ธ ํŠน์„ฑ'์„ ๋ชจ๋ธ๋งํ•˜์—ฌ ์†Œ๋Ÿ‰์˜ labeled data๋ฅผ ํ†ตํ•œ ์•ฝ๊ฐ„์˜ ๊ฐ€์ด๋“œ๋กœ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฐ๋‹ค.

Assumptions

  1. smoothness: ๊ฐ™์€ class/cluster์— ์œ„์น˜ํ•œ ๋‘ ์ž…๋ ฅ์ด ์ž…๋ ฅ๊ณต๊ฐ„ ์ƒ์—์„œ ๊ณ ๋ฐ€๋„ ์ง€์—ญ์— ์œ„์น˜ํ•œ๋‹ค๋ฉด, ํ•ด๋‹น ์ถœ๋ ฅ๋„ ๊ฐ€๊นŒ์šธ ๊ฒƒ์ด๋‹ค.
  2. cluster: ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋“ค์ด ๊ฐ™์€ cluster์— ์žˆ๋‹ค๋ฉด, ๊ทธ๋“ค์€ ๊ฐ™์€ class์ผ ๊ฒƒ์ด๋‹ค.
  3. manifold: ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ๋ฅผ ์ €์ฐจ์› manifold๋กœ ๋ณด๋‚ผ ์ˆ˜ ์žˆ๋‹ค (๊ณ ์ฐจ์›์—์„œ๋Š” ๊ฑฐ๋ฆฌ๊ฐ€ ๋น„์Šทํ•˜์—ฌ ๋ถ„๋ฅ˜๊ฐ€ ์–ด๋ ค์›Œ์„œ ์ €์ฐจ์›์œผ๋กœ ๋งตํ•‘ํ•ด์•ผ ํ•œ๋‹ค).

Applications

  • CIFA-100
  • ImageNet

ํ‘œ์ค€ํ™” vs. ์ •๊ทœํ™” vs. MinMaxScaler

ํ‘œ์ค€ํ™”: ํ‰๊ท ์ด 0์ด๊ณ  ๋ถ„์‚ฐ์ด 1์ธ ๊ฐ€์šฐ์‹œ์•ˆ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๊ฐ€์ง„ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค.

์ •๊ทœํ™”: ๋ชจ๋‘ ๋™์ผํ•œ ํฌ๊ธฐ ๋‹จ์œ„๋กœ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ’์„ ๋ชจ๋‘ 0๊ณผ 1์‚ฌ์ด(์Œ์ˆ˜๊ฐ€ ์žˆ์„๊ฒฝ์šฐ -1๊ณผ 1์‚ฌ์ด)์˜ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค.

MinMaxScaler: ๋ฐ์ดํ„ฐ๊ฐ€ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด์ง€ ์•Š์•„๋„ ๋  ๋•Œ, 0๊ณผ 1์‚ฌ์ด์˜ ๋ฒ”์œ„๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค.

k-fold ๊ต์ฐจ ๊ฒ€์ฆ (cross validation)

ํ•˜๋‚˜์˜ ํ…Œ์ŠคํŠธ์…‹์œผ๋กœ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์— ์น˜์ค‘๋œ ํ…Œ์ŠคํŠธ์…‹ ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค (ํ•œ ํ…Œ์ŠคํŠธ์…‹์— ๋Œ€ํ•ด์„œ๋งŒ ์„ฑ๋Šฅ์ด ์ข‹๊ฒŒ ๋‚˜์™”์„์ˆ˜๋„).

๋”ฐ๋ผ์„œ, ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•˜์—ฌ ์ผ์ • ๋น„์œจ์„ fold๋กœ ๋ถ„๋ฅ˜ํ•˜์—ฌ ํ…Œ์ŠคํŠธ ๊ฒ€์ฆ๊ณผ ๋ณ„๊ฐœ๋กœ ํ•˜๋‚˜์”ฉ ํ…Œ์ŠคํŠธ์…‹์œผ๋กœ ์‚ฌ์šฉํ•˜๋ฉด์„œ ๊ต์ฐจ ๊ฒ€์ฆ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

์ด๋ฅผ ํ†ตํ•ด, ๋ฐ์ดํ„ฐ์˜ 100%๋ฅผ ํ…Œ์ŠคํŠธ์…‹์œผ๋กœ ํ™œ์šฉํ•˜๋ฉด์„œ ์ด K๊ฐœ์˜ ์„ฑ๋Šฅ ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๊ณ , ์ด K ๊ฐ’๋“ค์˜ ํ‰๊ท ์„ ํ•ด๋‹น ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์œผ๋กœ ๋ฐฐ์ถœํ•œ๋‹ค.

Feature selection

๋…๋ฆฝ ๋ณ€์ˆ˜์ค‘์—์„œ, ์ค‘๋ณต๋˜๊ฑฐ๋‚˜ ์ข…์†๋ณ€์ˆ˜ (Y)์™€ ๊ด€๋ จ์ด ์—†๋Š” ๋ณ€์ˆ˜๋“ค์„ ์ œ๊ฑฐํ•˜์—ฌ, Y๋ฅผ ๊ฐ€์žฅ ์ž˜ ์˜ˆ์ธกํ•˜๋Š” ๋ณ€์ˆ˜๋“ค์˜ ์กฐํ•ฉ์„ ์ฐพ์•„๋‚ด๋Š” ์ตœ์ ํ™” ๋ฌธ์ œ์ด๋‹ค.

Feature selection์„ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ 

  • output์„ ์˜ˆ์ธกํ•˜๋Š”๋ฐ ์ƒ๊ด€์—†๋Š” ๋ณ€์ˆ˜ ๅคš --> computational cost โ†‘ --> overfitting

Feature selection ์žฅ์ 

  • ํ•™์Šต ์‹œ๊ฐ„์„ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค
  • ๋ชจ๋ธ์˜ ๋ถ„์‚ฐ์„ ์ค„์ธ๋‹ค --> ๋ณด๋‹ค robustํ•˜๊ฒŒ ํ•™์Šต
  • ๋ชจ๋ธ ๊ฐ„์†Œํ™” --> ๊ฒฐ๊ณผ๊ฐ€ ํ•ด์„ ์šฉ์ด

Feature Selection ์ข…๋ฅ˜

    1. Wrapper method
    • Feature ์กฐํ•ฉ ์„ ์ • --> ๊ธฐ๊ณ„ ํ•™์Šต --> ์„ฑ๋Šฅ ํ‰๊ฐ€ --> ์กฐํ•ฉ ๋ณ€๊ฒฝ (๋ฐ˜๋ณต) --> ๊ฐ€์žฅ ์„ฑ๋Šฅ ์ข‹์€ ์กฐํ•ฉ์„ ์ฐพ์Œ.
    1. Filter method
    • ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์—์„œ ์‚ฌ์ „์— Feature selection์„ ํ†ต๊ณ„์  ๋ฐฉ๋ฒ•(i.e., ํ”ผ์–ด์Šจ ์ƒ๊ด€๊ณ„์ˆ˜)์œผ๋กœ ์‹คํ–‰ํ•˜๊ณ , ๋ชจ๋ธ์„ ์ ํ•ฉํ•œ๋‹ค (์—„์ฒญ๋‚œ ์‹œ๊ฐ„ ๋‹จ์ถ•).
    1. Embedded method
    • ๋ชจ๋ธ ์ž์ฒด์— Feature selection ๊ธฐ๋Šฅ์ด ์ถ”๊ฐ€๋˜์–ด ์žˆ๋Š” ๊ฒฝ์šฐ์ด๋‹ค; Lasso Regression, Ridge Regression, and Decision Tree.

์ „์ดํ•™์Šต(Transfer Learning)

์ „์ด ํ•™์Šต(Transfer Learning)์€ ํŠน์ • ๋ถ„์•ผ์—์„œ ํ•™์Šต๋œ ์‹ ๊ฒฝ๋ง์˜ ์ผ๋ถ€ ๋Šฅ๋ ฅ์„ ์œ ์‚ฌํ•˜๊ฑฐ๋‚˜ ์ „ํ˜€ ์ƒˆ๋กœ์šด ๋ถ„์•ผ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์‹ ๊ฒฝ๋ง์˜ ํ•™์Šต์— ์ด์šฉํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

์ „์ด ํ•™์Šต์„ ํ†ตํ•ด์„œ ๋” ๋งŽ์€ ์ง€์‹์„ ์–ป์Œ์œผ๋กœ์จ ์„ฑ๋Šฅ๋„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ํ•™์Šต ์†๋„๋„ ๋น ๋ฅด๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.

์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋ ค๋ฉด ๊ธฐ๋ณธ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์•„์•ผ ํ•˜๋Š”๋ฐ, ๋ฐ์ดํ„ฐ ๋ถ€์กฑ์„ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค๋ฅธ ์ง€์‹ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ ธ์˜จ๋‹ค.

  • ํ•™์Šต๋œ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ ธ์˜ฌ ์ˆ˜๋„ ์žˆ๊ณ , ํ•™์Šต๋œ ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ๊ฐ€์ ธ์˜ฌ ์ˆ˜๋„ ์žˆ๋‹ค.

์ „์ด ํ•™์Šต ์žฅ์ 

  • ๋ณด๋‹ค ์ ์€ ๋ฐ์ดํ„ฐ ์–‘์œผ๋กœ ์„ฑ๋Šฅ ๊ฐœ์„  ๊ฐ€๋Šฅ
    • ์ ์€ ์šฐ๋ฆฌ ๋ฐ์ดํ„ฐ + ๋งŽ์€ ์†Œ์Šค ๋ฐ์ดํ„ฐ
  • ํ•™์Šต ์‹œ๊ฐ„ ์ ˆ์•ฝ

reference

๊ฐ•ํ™”ํ•™์Šต

์ฃผ์–ด์ง„ ์ƒํ™ฉ์—์„œ ์–ด๋–ค ํ–‰๋™์„ ์ทจํ• ์ง€ ๋ณด์ƒ ์‹ฌ๋ฆฌ(= ์ตœ๋Œ€ํšจ์œจ) ๋ฐ Greedy algorithm์œผ๋กœ ํ•™์Šตํ•œ๋‹ค.

Generative Model(์ƒ์„ฑ๋ชจ๋ธ) vs. Discriminative Model(๋ถ„๋ฅ˜๋ชจ๋ธ)

image

Generative Model

image

์ƒ์„ฑ๋ชจ๋ธ์€ ์ฃผ์–ด์ง„ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜์—ฌ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ์œ ์‚ฌํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ๋กœ์จ, ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์ƒ์„ฑ๋ชจ๋ธ์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•˜๋‹ค.

๋ถ„๋ณ„๋ชจ๋ธ๊ณผ ๋‹ฌ๋ฆฌ x๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์ธ P(x)๋‚˜ ์นดํ…Œ๊ณ ๋ฆฌ y์—์„œ x๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ  P(x|y)๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๊ณ„์‚ฐํ•œ๋‹ค.

์ด ํ™•๋ฅ  ์ •๋ณด๋ฅผ ์ด์šฉํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ฐ€๋ น, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์—์„œ ํ•œ ๋‹จ์–ด(ํ† ํฐ)๊ฐ€ ๋“ค์–ด์˜ค๋ฉด ๋‹ค์Œ์— ์˜ฌ ์ ์ ˆํ•œ ํ† ํฐ์„ ์ƒ์„ฑํ•˜๋Š” ์–ธ์–ด ๋ชจ๋ธ์ด ํ•˜๋‚˜์˜ ์˜ˆ์‹œ์ด๋‹ค.

์ƒ์„ฑ๋ชจ๋ธ์˜ ํ•œ ์˜ˆ์‹œ๋กœ๋Š” GAN(Generative Aadversarial Netwrok)์ด ์žˆ๋‹ค.

  • ํŠน์ • ์‚ฌ๋žŒ์˜ ํ•„์ฒด๋ฅผ ํ‰๋‚ด ๋‚ธ ๊ธ€์”จ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ, ํŠน์ • ์–‘์‹์˜ ๊ทธ๋ฆผ์„ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ

Discriminative Model

์ƒ˜ํ”Œ์˜ ์นดํ…Œ๊ณ ๋ฆฌ๋งŒ์„ ์˜ˆ์ธกํ•˜๋Š”๋ฐ ๊ด€์‹ฌ์ด ์žˆ๋Š” ๋ชจ๋ธ๋กœ์จ, x๋ผ๋Š” ์ƒ˜ํ”Œ์ด ์žˆ์„ ๋•Œ ์ด ์ƒ˜ํ”Œ์˜ ์นดํ…Œ๊ณ ๋ฆฌ๊ฐ€ y ์ผ ํ™•๋ฅ , ์ฆ‰ ์‚ฌํ›„ ํ™•๋ฅ  P(y|x)๋งŒ์„ ์ถ”์ •ํ•˜๋ฉด ๋œ๋‹ค.

๊ฐ€๋ น, ์นดํ…Œ๊ณ ๋ฆฌ๊ฐ€ 4๊ฐœ ์กด์žฌํ•œ๋‹ค๋ฉด ์†Œํ”„ํŠธ๋งฅ์Šค(softmax)์˜ ๊ฒฝ์šฐ์™€ ๊ฐ™์ด ๊ฐ ์นดํ…Œ๊ณ ๋ฆฌ๋ณ„ ์‚ฌํ›„ ํ™•๋ฅ ์ธ P(y=1|x), P(y=2|x), P(y=3|x), P(y=4|x)๋ฅผ ๊ตฌํ•œ ํ›„, ์‚ฌํ›„ ํ™•๋ฅ ์ด ๊ฐ€์žฅ ๋†’์€ ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ๋ถ„๋ฅ˜ํ•œ๋‹ค.

์˜ˆ์‹œ๋กœ๋Š”, ํŠน์ • ๋ฐ์ดํ„ฐ์˜ ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ชจ๋ธ์ด ํ•˜๋‚˜์˜ ์˜ˆ์‹œ์ด๋‹ค.

GAN

image

๋น„์ง€๋„ํ•™์Šต์— ์‚ฌ์šฉ๋˜๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ํ•œ ์ข…๋ฅ˜๋กœ, ์ƒ์„ฑ์ž์™€ ๊ตฌ๋ถ„์ž๊ฐ€ ์„œ๋กœ ๋Œ€๋ฆฝํ•˜๋ฉฐ(Adversarial:๋Œ€๋ฆฝํ•˜๋Š”) ์„œ๋กœ์˜ ์„ฑ๋Šฅ์„ ์ ์ฐจ ๊ฐœ์„ ํ•ด ๋‚˜๊ฐ€๋Š” ์ชฝ์œผ๋กœ ํ•™์Šต์ด ์ง„ํ–‰ํ•˜์—ฌ ๊ทธ๋Ÿด ๋“ฏํ•œ ๊ฐ€์งœ๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๊ฒƒ์ด ์ฃผ์š” ๊ฐœ๋…์ด๋‹ค.

Cost ํ•จ์ˆ˜๋กœ Discriminator Function์„ ์‚ฌ์šฉํ•œ๋‹ค.

Discriminator: fake image = 0, real image = 1๋กœ ์ถœ๋ ฅํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š ๊ณผ์ •์œผ๋กœ, ์ƒ์„ฑ์ž ๊ตฌ๋ถ„์ž๊ฐ€ ์„œ๋กœ ๋ฒˆ๊ฐˆ์•„๊ฐ€๋ฉฐ ํ•™์Šต์„ ์ง„ํ–‰ํ•œ๋‹ค.

Marcov ๋ชจํ˜•

๋ชจ๋“  ์‚ฌ๊ฑด์˜ ๊ฒฐ๊ณผ๊ฐ€ ์ด์ „ ์‚ฌ๊ฑด์˜ ๊ฒฐ๊ณผ์— ์˜ํ–ฅ์„ ๋ฐ›๋Š” ํ™•๋ฅ ๋ก ์  ๋ชจํ˜•์ด๋‹ค.

์ฐจ์›์ถ•์†Œ(ํˆฌ์˜, ๋งค๋‹ˆํด๋“œ ํ•™์Šต, PCA)

ํˆฌ์˜(Projection)

image

๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ ์ผ๋ถ€ ํŠน์„ฑ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, 3์ฐจ์› ๊ณต๊ฐ„์ƒ ๋ฐ์ดํ„ฐ๋ฅผ 2์ฐจ์› ๋ถ€๋ถ„ ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์˜ ์‹œ์ผœ 2์ฐจ์› ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด๋‹ค.

๋งค๋‹ˆํด๋“œ ํ•™์Šต(Manifold Learning)

image

๊ณ ์ฐจ์›๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ์„ ๋•Œ ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ๋ฅผ ์ „๋ฐ˜์ ์œผ๋กœ ์ž˜ ์•„์šฐ๋ฅด๋Š” subpsace๊ฐ€ ์กด์žฌํ•œ๋‹ค๋Š” ๊ฐ€์ •์—์„œ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

  • ์ด๋ ‡๊ฒŒ ์ฐพ์€ Manifold๋Š” ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์„ ์ถ•์†Œ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.
  • ๋Œ€๋ถ€๋ถ„์˜ ์ฐจ์› ์ถ•์†Œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ (= LDA)์ด ์ด๋Ÿฌํ•œ ๋งค๋‹ˆํด๋“œ๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•œ๋‹ค.

Manifold ๊ณต๊ฐ„์—์„œ, ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ–๊ณ  ์žˆ๋Š” ๋ณ€ํ•˜์ง€ ์•Š๋Š” ๊ณ ์œ  ํŠน์„ฑ์„ ์ฐพ๋Š”๋ฐ ์‚ฌ์šฉ๋œ๋‹ค (= ๋ฐ์ดํ„ฐ ๋ณธ์—ฐ์˜ geometric ํŠน์„ฑ์€ ์œ ์ง€ํ•˜๋ฉด์„œ ์ €์ฐจ์› ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์˜ํ•œ๋‹ค).

image

ํ•˜์ง€๋งŒ, ์ƒ๊ธฐ ์ด๋ฏธ์ง€์™€ ๊ฐ™์€ ํ•œ๊ณ„์ ์ด ์กด์žฌํ•œ๋‹ค.

ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์˜ ์ฐจ์›์„ ๊ฐ์†Œ์‹œํ‚ค๋ฉด ํ•™์Šต ์†๋„๋Š” ๋นจ๋ผ์ง€์ง€๋งŒ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์€ ํ•ญ์ƒ ๋” ๋‚ซ๊ฑฐ๋‚˜ ๊ฐ„๋‹จํ•œ ๋ชจ๋ธ์ด ๋˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ๋ฐ์ดํ„ฐ์…‹์ด ์–ด๋– ํ•œ ๋ชจ์–‘์„ ํ•˜๊ณ  ์žˆ๋Š๋ƒ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค.

PCA

๋ฐ์ดํ„ฐ์— ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์ดˆํ‰๋ฉด(hyperplane)์„ ๊ตฌํ•œ ๋‹ค์Œ, ๋ฐ์ดํ„ฐ๋ฅผ ์ด ์ดˆํ‰๋ฉด์— ํˆฌ์˜(projection)์‹œํ‚จ๋‹ค.

  • ๋ถ„์‚ฐ ๋ณด์กด: ๋ถ„์‚ฐ์ด ์ตœ๋Œ€๊ฐ€ ๋˜๋Š” ์ถ•(= predicted-actual์˜ mse๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ์ถ•)์„ ์ฐพ์•„ ์ •๋ณด ์†์‹ค์„ ์ค„์ธ๋‹ค.
  • ์ฃผ์„ฑ๋ถ„
      1. ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ถ„์‚ฐ์ด ์ตœ๋Œ€์ธ ์ถ•(axis)์„ ์ฐพ๋Š”๋‹ค.
      1. ์ฒซ๋ฒˆ์งธ ์ถ•๊ณผ ์ง๊ต(orthogonal)ํ•˜๋ฉด์„œ ๋ถ„์‚ฐ์ด ์ตœ๋Œ€์ธ ๋‘ ๋ฒˆ์งธ ์ถ•์„ ์ฐพ๋Š”๋‹ค.
      1. ์ƒ๊ธฐ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋ฉฐ ๋ฐ์ดํ„ฐ์…‹์˜ ์ฐจ์›(ํŠน์„ฑ ์ˆ˜)๋งŒํผ์˜ ์ฃผ์„ฑ๋ถ„์ด ๋˜๋Š” ์ถ•๋“ค์„ ์ฐพ๋Š”๋‹ค.

๊ณต๋ถ„์‚ฐ์„ ๋‹จ์œ„ํ–‰๋ ฌ๋กœ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ํ†ตํ•ด ์ฃผ์„ฑ๋ถ„์„ ์ฐพ๋Š”๋‹ค (๊ณต๋ถ„์‚ฐ์œผ๋กœ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์— ๋Œ€ํ•œ ์ฃผ์„ฑ๋ถ„ ๋ฒกํ„ฐ๋ฅผ ์–ป๊ณ , ๊ทธ ๊ฐ’์ด ๊ฐ€์žฅ ํฐ ๊ณ ์œ ๋ฒกํ„ฐ๊ฐ€ ๋ถ„์‚ฐ์„ ๊ฐ€์žฅ ํฌ๊ฒŒ ๋งŒ๋“œ๋Š” ์ฃผ์„ฑ๋ถ„์ด๋‹ค).

  • 'ํŠน์ด๊ฐ’ ๋ถ„ํ•ด(SVC)'
  • eigen-decomposition

PCA๋Š” ์ด๋ฏธ์ง€ ์••์ถ•(Image compression)๊ณผ ๊ฐ™์€ ๋ฌธ์ œ์— ํ™œ์šฉ๋œ๋‹ค.

Eigendecomposition(๊ณ ์œ ๊ฐ’ ๋ถ„ํ•ด) vs. Singular Value Decomposition, SVD (ํŠน์ด๊ฐ’ ๋ถ„ํ•ด)

๊ณ ์œ ๊ฐ’ ๋ถ„ํ•ด๋Š” ์ •๋ฐฉ ํ–‰๋ ฌ(ํ–‰๊ณผ ์—ด์˜ ํฌ๊ธฐ๊ฐ€ ๊ฐ™์€ ํ–‰๋ ฌ)์— ๋Œ€ํ•ด์„œ๋งŒ ๊ฐ€๋Šฅํ•˜์ง€๋งŒ, ํŠน์ด๊ฐ’ ๋ถ„ํ•ด๋Š” ์ •๋ฐฉ ํ–‰๋ ฌ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํ–‰๊ณผ ์—ด์˜ ํฌ๊ธฐ๊ฐ€ ๋‹ค๋ฅธ ๋ชจ๋“  ์ง๊ฐ ํ–‰๋ ฌ์— ๋Œ€ํ•˜์—ฌ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค.

Classification

Naive Beyas Classification

image

  • X: feature vectors; linearly independent
  • Y: label (i.e., cat)

MLE

[Gaussian Model]

image

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ๋ชจ๋ธ์—์„œ๋Š” ๊ณ„์ˆ˜ W๋ฅผ ์ถ”์ •ํ•˜๊ธฐ ์œ„ํ•ด์„œ MLE(Maximum Likelihood Estimation) ๊ฐœ๋…์„ ์‚ฌ์šฉํ•œ๋‹ค.

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€: Y = ์ด์ง„ ๋ถ„๋ฅ˜(0 or 1), ๋ฒ ๋ฅด๋ˆ„์ด ์‹œํ–‰์„ ์ „์ œ๋กœ ํ•˜๋Š” ๋ชจ๋ธ์ด๋‹ค.

KNN classification

image

KNN ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•  ๋•Œ, categorical variables์— ๋Œ€ํ•ด์„œ Hamming distance๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค

Clustering

Kmeans

1, ์ดˆ๊ธฐ clusters ๊ฐœ์ˆ˜ ์„ค์ •

  1. ๊ฐ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด center์— ํฌํ•จ์‹œํ‚จ๋‹ค (argmin: ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ)

  2. ๊ฐ ๊ตฐ์ง‘ ๋ฐ์ดํ„ฐ center ๊ฐฑ์‹ 

Termination --> Yes

Global optimum --> no guarantee

Picking starting cluster centers --> random (not ideal)

HCA

image image

๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ์ด์ง„ ํŠธ๋ฆฌ๋ฅผ ๋งŒ๋“ ๋‹ค; ๋ฐ์ดํ„ฐ ์ˆ˜๊ฐ€ N๊ฐœ๋ผ๋ฉด ์ด์ง„ ํŠธ๋ฆฌ์˜ ๊นŠ์ด์€ N-1์ด๋‹ค.

์•„๋ž˜๋Š” HCA ๊ด€๋ จ ๊ฐ„๋‹จ ๋ฌธ์ œ์ด๋‹ค.

image

Spectral clustering algorithm

image

๊ทธ๋ž˜ํ”„ ๋ชจํ˜•์—์„œ ๊ฐ€์žฅ ํ•ฉ๋ฆฌ์ ์œผ๋กœ ๋ถ„ํ• ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค.

[๋ผํ”Œ๋ผ์‹œ์•ˆ ํ–‰๋ ฌ]

image

๋ผํ”Œ๋ผ์‹œ์•ˆ ํ–‰๋ ฌ์—์„œ ๊ณ ์œ ๊ฐ’ ๋ถ„ํ•ด๋ฅผ ํ†ตํ•ด ์–ป์€ ๊ณ ์œ ๋ฒกํ„ฐ ์ค‘ 2๋ฒˆ ์งธ๋กœ ๊ฐ€์žฅ ์ž‘์€ ๋ฒกํ„ฐ๋ฅผ ํ†ตํ•ด ํ•ฉ๋ฆฌ์ ์ธ ๋ถ„ํ• ์„ ์— ๋Œ€ํ•œ ์ฃผ์„ฑ๋ถ„์„ ์–ป๋Š”๋‹ค.

t-SNE

t-SNE๋Š” ๋น„์„ ํ˜•์ ์ธ ๋ฐฉ๋ฒ•์˜ ์ฐจ์› ์ถ•์†Œ ๋ฐฉ๋ฒ•์ด๊ณ  ํŠนํžˆ ๊ณ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ ์…‹์„ ๊ตฐ์ง‘ํ™”๋ฅผ ํ†ตํ•ด ์ง๊ด€์ ์œผ๋กœ ์‹œ๊ฐํ™”ํ•˜๋Š” ๊ฒƒ์— ์„ฑ๋Šฅ์ด ์ข‹๋‹ค.

๋ผํ”Œ๋ผ์‹œ์•ˆ ํ–‰๋ ฌ

๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์ด ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์— ๋Œ€ํ•œ ํŠน์ง•์„ ์ฃผ์„ฑ๋ถ„์œผ๋กœ ์„ค๋ช…ํ•˜๋“ฏ, ๋ผํ”Œ๋ผ์‹œ์•ˆ ํ–‰๋ ฌ์€ Clustering(๊ตฐ์ง‘ํ™”)๋ฅผ ์œ„ํ•œ ๊ทธ๋ž˜ํ”„ ๋ชจํ˜•์˜ ํŠน์ง•์„ ์„ค๋ช…ํ•œ๋‹ค.

๋ผํ”Œ๋ผ์‹œ์•ˆ ํ–‰๋ ฌ์„ ๋‹จ์œ„ํ–‰๋ ฌ๋กœ ํŠน์ด๊ฐ’ ๋ถ„ํ•ด๋ฅผ ํ•˜์—ฌ ์–ป์€ ๋‘ ๋ฒˆ์งธ๋กœ ์ž‘์€ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ **ํ”ผ๋“ค๋Ÿฌ ๋ฒกํ„ฐ(Fidler Vector)**๋ผ ์ง€์นญํ•œ๋‹ค.

์ด ๋ฒกํ„ฐ๋Š” ํ•ด๋‹น ๊ทธ๋ž˜ํ”„์—์„œ ๊ฐ€์žฅ ํฌ๊ฒŒ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋Š” ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๋ถ„ํ• ํ•˜๋Š” ๊ฒฝ๊ณ„์„ ์˜ ์ฃผ์„ฑ๋ถ„์„ ๋‚˜ํƒ€๋‚ด๊ณ , ๊ทธ ๋‹ค์Œ์œผ๋กœ ์ž‘์€ ๊ณ ์œ ๋ฒกํ„ฐ๋Š” ๊ทธ ๋‹ค์Œ์œผ๋กœ ํฌ๊ฒŒ ๋‚˜๋ˆ ์ง€๋Š” ๋ถ„ํ• ์„ ์„ ์„ค๋ช…ํ•œ๋‹ค.


Deep Learning

End-to-end Learning

end-to-end ๋”ฅ๋Ÿฌ๋‹์€ ์ž๋ฃŒ์ฒ˜๋ฆฌ ์‹œ์Šคํ…œ / ํ•™์Šต์‹œ์Šคํ…œ์—์„œ ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์˜ ํ•„์š”ํ•œ ์ฒ˜๋ฆฌ๊ณผ์ •์„ ํ•œ๋ฒˆ์— ์ฒ˜๋ฆฌํ•œ๋‹ค.

Tensor(ํ…์„œ)

๋งค์šฐ ์ˆ˜ํ•™์ ์ธ ๊ฐœ๋…์œผ๋กœ '๋ฐ์ดํ„ฐ์˜ ๋ฐฐ์—ด'์„ ์˜๋ฏธํ•œ๋‹ค.

๋”ฐ๋ผ์„œ, ํ…์„œ์˜ Rank๋Š” ๊ฐ„๋‹จํžˆ ๋งํ•ด์„œ ๋ช‡ ์ฐจ์› ๋ฐฐ์—ด์ธ๊ฐ€๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

ML vs. DL

๋จธ์‹  ๋Ÿฌ๋‹์€ ์‚ฌ์šฉ์ž๊ฐ€ ์ง€์ •ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•ด๋‹น ๋ฐ์ดํ„ฐ์…‹์„ ํ•™์Šตํ•œ ํ›„, ํ•™์Šต์œผ๋กœ ์–ป์€ ๊ฒฝํ—˜์  ์ •๋ณด์— ์ž…๊ฐํ•˜์—ฌ ์ตœ์ข… ๊ฒฐ์ •์„ ๋„์ถœํ•˜๋Š” ๊ณผ์ •์ด๋‹ค.

๋”ฅ๋Ÿฌ๋‹์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ '๊ณ„์ธต'์œผ๋กœ ๊ตฌ์„ฑํ•˜์—ฌ ์ž์ฒด์ ์œผ๋กœ ๋ฐฐ์šฐ๊ณ  ์ง€๋Šฅ์  ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๋Š” ์ธ๊ณต ์‹ ๊ฒฝ๋ง์„ ๋งŒ๋“œ๋Š” ๊ณผ์ •์ด๋‹ค.

์ด๋ฏธ์ง€์—์„œ feature๋ฅผ ๋ฝ‘๊ธฐ์œ„ํ•ด ์‚ฌ์šฉํ•˜๋Š” ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ ๊ณผ์ •์ด๋‹ค.

LeNet

image

์ตœ์ดˆ์˜ CNN ๋„คํŠธ์›Œํฌ๋กœ(1988), ์†๊ธ€์”จ ์ˆซ์ž๋ฅผ ์ธ์‹ํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋œ๋‹ค.

CNN๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ์ด์ง€๋งŒ, ๋‘ ๊ฐ€์ง€ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.

  • LeNet์€ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ์‹œ๊ทธ๋ชจ์ด๋“œ ์‚ฌ์šฉ(ํ˜„์žฌ๋Š” ReLU ์‚ฌ์šฉ์œผ๋กœ ๋ฐ”๋€œ)
  • LeNet์€ ์„œ๋ธŒ ์ƒ˜ํ”Œ๋ง๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ค‘๊ฐ„ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๋ฅผ ์ค„์ž„ (ํ˜„์žฌ๋Š” ์ตœ๋Œ€ ํ’€๋ง์„ ์‚ฌ์šฉ)

AlexNet

image

AlexNet(2012)์€ ๋”ฅ๋Ÿฌ๋‹ ์—ดํ’์„ ์ผ์œผํ‚ค๋Š” ๋ฐ ์ง€๋Œ€ํ•œ ์—ญํ• ์„ ํ–ˆ๋‹ค.

LeNet๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ์ด์ง€๋งŒ, ์„ธ ๊ฐ€์ง€ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.

  • AlexNet ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ReLU ์‚ฌ์šฉ
  • LRN(Local Response Normalization, ๊ตญ์†Œ์  ์ •๊ทœํ™”)
  • Dropout ์‚ฌ์šฉ

ImageNet

์‚ฌ์ง„์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ์ด ์‚ฌ์ง„์ด ๋ฌด์—‡์ธ์ง€ ๋งž์ถœ ์ˆ˜ ์žˆ๋Š” ๋„คํŠธ์›Œํฌ์ด๋‹ค.

์ดˆ๊ธฐ์—๋Š” ์˜ค์ฐจ์œจ์ด 30%์— ์›ƒ๋Œ๋ฉฐ ์„ฑ๋Šฅ์ด ์ข‹์ง€ ๋ชปํ–ˆ์œผ๋‚˜, AlexNet์„ ๊ธฐ์ ์œผ๋กœ ์˜ค์ฐจ์œจ์ด ๋ฐ˜๊ฐ๋˜๊ธฐ ์‹œ์ž‘ํ•˜๋ฉด์„œ ์ง€์†์ ์ธ ์„ฑ๋Šฅ ๋ฐœ์ „์„ ๊ฑฐ๋“ญํ–ˆ๋‹ค.

์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ์„ค๊ณ„ํ•  ๋•Œ ์ „์ดํ•™์Šต์˜ ์‚ฌ์ „๋ชจ๋ธ๋กœ ๋งŽ์ด ์• ์šฉ๋˜๋Š” ๋„คํŠธ์›Œํฌ ์ค‘ ํ•˜๋‚˜์ด๋‹ค.

ResNet

image

์ƒ๊ธฐ ์—๋Ÿฌ ๋ถ„ํฌ๋Š” ์‹ ๊ฒฝ๋ง์ด ๊นŠ์„ ์ˆ˜๋ก(๋ ˆ์ด์–ด ๅคš) error ๋น„์œจ์ด ๋†’๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค.

์ด๋Š” ๊นŠ์€ CNN ๋„คํŠธ์›Œํฌ๋Š” vanishing/exploding gradient ๋ฌธ์ œ ๋•Œ๋ฌธ์— ์„ฑ๋Šฅ์ด ๋” ๋–จ์–ด์ง€๋Š” 'degradation problem' ํ˜„์ƒ์— ๊ธฐ์ธํ•œ๋‹ค.

์ด๋Š” weight๋“ค์˜ ๋ถ„ํฌ๊ฐ€ ๊ท ๋“ฑํ•˜์ง€ ์•Š๊ณ , ์—ญ์ „ํŒŒ๊ฐ€ ์žฌ๋Œ€๋กœ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š๊ธฐ์— ๋ฐœ์ƒํ•˜๋Š” ํ˜„์ƒ์ด๋‹ค.

  • layer๊ฐ€ ๊นŠ์–ด์งˆ์ˆ˜๋ก ๋ฏธ๋ถ„์„ ๋งŽ์ดํ•ด์„œ ์—ญ์ „ํŒŒ ๊ณผ์ •์—์„œ ์•ž layer์ผ์ˆ˜๋ก ๊ทธ ๋ฏธ๋ถ„๊ฐ’์ด ์ž‘์•„์ ธ ๊ทธ ๊ฐ€์ค‘์น˜๊ฐ€ ์ž‘์•„์ง„๋‹ค.

image

์ด ๋ฌธ์ œ์— ๋Œ€ํ•œ ํ•ด๊ฒฐ์ฑ…์œผ๋กœ ResNet(Residual learning)์€ skip connection์„ ์ด์šฉํ•œ 'residual learning'์„ ํ†ตํ•ด layer๊ฐ€ ๊นŠ์–ด์ง์— ๋”ฐ๋ฅธ gradient vanishing ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์˜€๋‹ค.

๊ธฐ์กด์˜ ๋ง๊ณผ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค๋ฉด ์ž…๋ ฅ๊ฐ’์„ ์ถœ๋ ฅ๊ฐ’์— ๋”ํ•ด์ค„ ์ˆ˜ ์žˆ๋„๋ก ์ง€๋ฆ„๊ธธ(shortcut)์ด ํ•˜๋‚˜ ์ถ”๊ฐ€๋˜์—ˆ๋‹ค.

๊ธฐ์กด ๋„คํŠธ์›Œํฌ๋Š” ์ž…๋ ฅ๊ฐ’ x๋ฅผ ํƒ€๊ฒŸ๊ฐ’ y๋กœ ๋งคํ•‘ํ•˜๋Š” ํ•จ์ˆ˜ H(x)๋ฅผ ์–ป๋Š” ๊ฒƒ์„ ๋ชฉ์ ์œผ๋กœ, H(x)-y๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•œ๋‹ค.

๋ฐ˜๋ฉด, ResNet์€ H(x)-x(= F(x), ์ž”์ฐจ)๋ฅผ ์ตœ์†Œํ™”ํ•ด์ฃผ๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•œ๋‹ค.

์ž”์ฐจ F(x) + x = H(x) = x ๋„คํŠธ์›Œํฌ๋กœ ๋ณ€ํ˜•ํ•˜์—ฌ ๋ฏธ๋ถ„๊ฐ’์ด F`(x) + 1 ๋กœ ์ตœ์†Œ 1์ด์ƒ์ด๋‹ค.

์ž”์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•˜์—ฌ ์ž”์ฐจ๊ฐ€ 0์— ์ˆ˜๋ ดํ•จ --> ์ž…์ถœ๋ ฅ ๋ชจ๋‘ x๋กœ ๊ฐ™์•„์ง --> ๊ฐ ๋ ˆ์ด์–ด๋งˆ๋‹ค ๋ฏธ๋ถ„๊ฐ’์ด x๋•Œ๋ฌธ์— ์ตœ์†Œ 1์ด๋œ๋‹ค. --> 'degradation problem' ํ•ด๊ฒฐ.

RNN (์ˆœํ™˜์‹ ๊ฒฝ๋ง), LSTM

image

RNN์€ ํžˆ๋“  ๋…ธ๋“œ๊ฐ€ ๋ฐฉํ–ฅ์„ ๊ฐ€์ง„ ์—ฃ์ง€๋กœ ์—ฐ๊ฒฐ๋˜์–ด ์ˆœํ™˜ ๊ตฌ์กฐ๋ฅผ ์ด๋ฃจ๋Š” ์ธ๊ณต์‹ ๊ฒฝ๋ง์˜ ํ•œ ๊ตฌ์กฐ์ด๋‹ค.

  • ๊ฐ€๋ น, L์ด 2๋ฒˆ์—ฐ์†๋‚˜์™”์„๋•Œ๋Š” O๋ผ๋Š” output์„ ์ฃผ๋„๋กํ•ด๋ผ~

๋ฐ˜๋ณต์ ์ด๊ณ  ์ˆœ์ฐจ์ ์ธ ๋ฐ์ดํ„ฐ(Sequential data)ํ•™์Šต์— ํŠนํ™”๋œ ์ธ๊ณต์‹ ๊ฒฝ๋ง์˜ ํ•œ ์ข…๋ฅ˜๋กœ์จ ๋‚ด๋ถ€์˜ ์ˆœํ™˜๊ตฌ์กฐ๊ฐ€ ๋“ค์–ด์žˆ๋‹ค๋Š” ํŠน์ง•์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

  • ์ˆœํ™˜๊ตฌ์กฐ: ๊ณผ๊ฑฐ์˜ ํ•™์Šต์„ Weight๋ฅผ ํ˜„์žฌ ํ•™์Šต์— ๋ฐ˜์˜ํ•œ๋‹ค.

๋”ฐ๋ผ์„œ, ๊ณผ๊ฑฐ ์ •๋ณด๋ฅผ ๊ธฐ์–ตํ•˜์—ฌ ํ™œ์šฉํ•œ๋‹ค๋Š” ์ ์—์„œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ฐ ์‹œ๊ณ„์—ด์—์„œ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.

๊ธฐ์กด์˜ ์ง€์†์ ์ด๊ณ  ๋ฐ˜๋ณต์ ์ด๋ฉฐ ์ˆœ์ฐจ์ ์ธ ๋ฐ์ดํ„ฐํ•™์Šต์˜ ํ•œ๊ณ„๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค (= ์ค‘๋ณต๋˜๋Š” ์€๋‹‰์ธต ๊ฒน๊ฒน์ด ์Œ“๋Š” ๊ฒƒ ๊ทธ๋งŒํ•˜๊ณ  ์ˆœํ™˜์‹œํ‚จ๋‹ค).

image

๊ฐ€๋ น, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์—์„œ ์ฃผ์–ด์ธ 'I'๊ฐ€ ์™”๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ ๋’ค๋Š” ๋™์‚ฌ์ผ ๊ฒƒ์ด๋ผ๊ณ  ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์˜ˆ์ธกํ–ˆ๊ณ , ์ „์น˜์‚ฌ 'at'์ด ์™”๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ ๋’ค๋Š” ๋ช…์‚ฌ๊ฐ€ ์˜ฌ๊ฒƒ์ด๋ผ๊ณ  ์ถ”๋ก ํ•˜๋Š” ๊ณผ์ •์„ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•œ ๊ฒƒ์ด ๋ฐ”๋กœ RNN์ด๋‹ค.

LSTM ๋ชจ๋ธ์ด RNN์˜ ํ•œ ์˜ˆ์‹œ์ด๋ฉฐ, ๊ธฐ์กด RNN์˜ ๋ฌธ์ œ์ ์ธ ์žฅ๊ธฐ ์˜์กด์„ฑ(Long-Term Dependency)์„ ํ•ด๊ฒฐํ•˜๊ณ ์ž ๊ณ ์•ˆ๋˜์—ˆ๋‹ค.

  • 4๊ฐ€์ง€ ๋ชจ๋“ˆ์„ ํƒ‘์žฌ - ๋ง๊ฐ ๊ฒŒ์ดํŠธ --> ์ž…๋ ฅ ๊ฒŒ์ดํŠธ --> ์ถœ๋ ฅ ๊ฒŒ์ดํŠธ
    • ๋ง๊ฐ ๊ฒŒ์ดํŠธ: ๊ณผ๊ฑฐ ์ •๋ณด ๋ฒ„๋ฆด์ง€ ๊ฒฐ์ • (Sigmoid)
    • ์ž…๋ ฅ ๊ฒŒ์ดํŠธ: ์ €์žฅ๋œ ์ •๋ณด๋“ค ์ด๋™ํ•˜๋ฉฐ ์ž…๋ ฅ ๊ฒŒ์ดํŠธ์—์„œ ํ˜„์žฌ ์ •๋ณด ์ €์žฅํ• ์ง€ ๊ฒฐ์ • (Sigmoid)
    • ์ถœ๋ ฅ ๊ฒŒ์ดํŠธ: ์–ด๋–ค ๊ฐ’ ์ถœ๋ ฅํ• ์ง€ ๊ฒฐ์ • (Sigmoid)
    • tahn ํ™œ์„ฑํ™” ํ•จ์ˆ˜

์žฅ๊ธฐ ์˜์กด์„ฑ: ๋‹ค๋ฃจ๋Š” ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ํด ๊ฒฝ์šฐ ๊ณผ๊ฑฐ์˜ ์ •๋ณด๋ฅผ ๊ธฐ์–ตํ•˜๋Š”๋ฐ ํ•œ๊ณ„๋ฅผ ๊ฐ€์ง€๊ธฐ ๋•Œ๋ฌธ์— ํž˜๋“ค๋‹ค๋Š” ํ•œ๊ณ„์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

TensorFlow vs. PyTorch vs. Keras

image

Tensorflow

  • ์ •์  ๊ทธ๋ž˜ํ”„ ์ƒ์„ฑ; ๋ชจ๋ธ ์ „์ฒด ๊ณ„์‚ฐ ๊ทธ๋ž˜ํ”„ ์ •์˜ํ•œ ๋‹ค์Œ ML ๋ชจ๋ธ ์‹คํ–‰

PyTorch

  • ๋™์  ๊ทธ๋ž˜ํ”„; ๋™์ž‘ ์ค‘์— ๊ทธ๋ž˜ํ”„ ์ •์˜/์กฐ์ž‘

์‹ ๊ฒฝ๋ง ํ•™์Šต์—์„œ '์ •ํ™•๋„'๊ฐ€ ์•„๋‹Œ '์†์‹คํ•จ์ˆ˜' ์‚ฌ์šฉ ์ด์œ ?

์ตœ์ ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜(๊ฐ€์ค‘์น˜์™€ ํŽธํ–ฅ)์„ ํƒ์ƒ‰ํ•  ๋•Œ ์†์‹คํ•จ์ˆ˜์—์„œ๋Š” ๋ฏธ๋ถ„์„ ํ†ตํ•˜์—ฌ ์†์‹คํ•จ์ˆ˜์˜ ๊ฐ’์„ ์ž‘๊ฒŒํ•˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ํƒ์ƒ‰ํ•˜์ง€๋งŒ, ์ •ํ™•๋„๋ฅผ ์ง€ํ‘œ๋กœ ์‚ผ๋Š” ๊ฒฝ์šฐ ๊ทธ ๋ฏธ๋ถ„๊ฐ’์ด ๋Œ€๋ถ€๋ถ„์˜ ์žฅ์†Œ์—์„œ 0์ด ๋˜๋ฏ€๋กœ ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ฐฑ์‹ ์ด ์–ด๋ ต๋‹ค.

์†์‹คํ•จ์ˆ˜์˜ ์˜ˆ๋กœ๋Š” ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ(ํšŒ๊ท€), ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ(๋ถ„๋ฅ˜) ๋“ฑ์ด ์žˆ๋‹ค.

Softmax vs. Sigmoid (๋ถ„๋ฅ˜)

Softmax - ๋‹ค์ค‘๋ถ„๋ฅ˜

Sigmoid - ์ด์ง„๋ถ„๋ฅ˜

๋ชจ๋ธ ์ผ๋ฐ˜ํ™”(Model Generalization) ์„ฑ๋Šฅ ๊ฐœ์„  ๋ฐฉ๋ฒ•

  1. ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ

  2. ์ด๋ฏธ์ง€ ํ™•๋Œ€, ์ฆ๋Œ€, ํšŒ์ „, ๋ฐ๊ธฐ ์กฐ์ ˆ, etc.

  3. ๊ฐ€์ค‘์น˜ ๊ทœ์ œ (Regularization)

  4. etc.

F1 score ์ด๋ž€?

image

F1 Score : ์ •๋ฐ€๋„(precision)์™€ ์žฌํ˜„์œจ(recall)์˜ ์กฐํ™” ํ‰๊ท 

์™œ F1 Score๋ฅผ ์‚ฌ์šฉํ•˜๋‚˜?

  • ๋งŒ์•ฝ, ๋‚ด์ผ ๋ˆˆ์ด ๋‚ด๋ฆด์ง€ ์•„๋‹์ง€๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ์ด ํ•ญ์ƒ False ๋กœ ์˜ˆ์ธกํ•˜๋ฉด ๋ˆˆ์ด ๋‚ด๋ฆฌ๋Š” ๋‚ ์€ ๊ทธ๋ฆฌ ๋งŽ์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ๊ต‰์žฅํžˆ ๋†’์€ accuracy๋ฅผ ๊ฐ–๋Š”๋‹ค. ํ•˜์ง€๋งŒ, ๋†’์€ accuracy๋ฅผ ๋ณด์œ ํ•จ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ด ๋ชจ๋ธ์€ ์ „ํ˜€ ์“ธ๋ชจ๊ฐ€ ์—†๋‹ค. ์ด ๋•Œ, ์žฌํ˜„์œจ(์‹ค์ œ๋กœ True์ธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ธ์ด True๋ผ๊ณ  ์ธ์‹ํ•œ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜) ๊ฐœ๋…์— ๋„์ž…๋œ F1 Score๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ํšจ๊ณผ์ ์œผ๋กœ accuracy ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

Internal Covariate Shift

image

**Covariate shift(๊ณต๋ณ€๋Ÿ‰ ๋ณ€ํ™”)**๋Š” ๊ณต๋ณ€๋Ÿ‰ ๋ณ€ํ™”๋ผ๊ณ  ๋ถ€๋ฅด๋ฉฐ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๊ฐ€ ํ•™์Šตํ•  ๋•Œ์™€ ํ…Œ์ŠคํŠธํ•  ๋•Œ ๋‹ค๋ฅด๊ฒŒ ๋‚˜ํƒ€๋‚˜๋Š” ํ˜„์ƒ์„ ๋งํ•œ๋‹ค.

Internal Covariate Shift๋Š” ๋งค ์Šคํ…๋งˆ๋‹ค hidden layer์— ์ž…๋ ฅ์œผ๋กœ ๋“ค์–ด์˜ค๋Š” ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๊ฐ€ ๋‹ฌ๋ผ์ง€๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜๋ฉฐ Internal Covariate Shift๋Š” layer๊ฐ€ ๊นŠ์„์ˆ˜๋ก ์‹ฌํ™”๋  ์ˆ˜ ์žˆ๋‹ค.

์—ญ์ „ํŒŒ์˜ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ ๊ณผ์ •์—์„œ ReLU๋‚˜ ๊ทœ์ œํ™”, ํ•™์Šต๋ฅ ์„ ๋‚ฎ์ถ”๋Š” ๋“ฑ์˜ ๋ฐฉ๋ฒ•์œผ๋กœ๋„ ๋ ˆ์ด์–ด ์ˆ˜๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก ํ•™์Šต์ด ์ž˜ ๋˜์ง€์•Š๋Š” ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ œ์ ์ด ์กด์žฌํ–ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ทผ๋ณธ์  ๋ฌธ์ œ๊ฐ€ ๋ฐ”๋กœ Internal Covraite Shift์ด๋ฉฐ, ์ด๋Š” *Batch Normalization ๊ธฐ๋ฒ•์œผ๋กœ ํ•ด๊ฒฐ ๊ฐ€๋Šฅํ•˜๋‹ค.

Normalization, Whitening

Normalization

image

๋ฐ์ดํ„ฐ๋ฅผ ๋™์ผํ•œ ๋ฒ”์œ„ ๋‚ด์˜ ๊ฐ’์„ ๊ฐ–๋„๋ก ํ•˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ ๋Œ€ํ‘œ์ ์œผ๋กœ Min-Max, Standardization์ด ์žˆ๋‹ค. ์ด ์ค‘์—์„œ Standardization์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ‰๊ท  0, ํ‘œ์ค€ํŽธ์ฐจ 1์ด ๋˜๊ฒŒ ๋ณ€ํ™˜ํ•˜์—ฌ ์ •๊ทœํ™”์‹œํ‚จ๋‹ค.

Whitening

image

๋ฐ์ดํ„ฐ์˜ ํ‰๊ท ์„ 0, ๊ทธ๋ฆฌ๊ณ  ๊ณต๋ถ„์‚ฐ์„ ๋‹จ์œ„ํ–‰๋ ฌ๋กœ ๊ฐ–๋Š” ์ •๊ทœ๋ถ„ํฌ ํ˜•ํƒœ๋กœ PCA๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋‹ค.

ํ•œ๊ณ„

whitening์„ ํ•˜๊ฒŒ๋˜๋ฉด ์ด์ „ ๋ ˆ์ด์–ด๋กœ๋ถ€ํ„ฐ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•œ parameters์˜ ์˜ํ–ฅ์„ ๋ฌด์‹œํ•œ๋‹ค.

๋”ฐ๋ผ์„œ, *Batch Normalization ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•˜๋‹ค.

Batch Normalization

image

CNN์— ๋งŽ์ด ์‚ฌ์šฉํ•˜๋Š” ๊ธฐ๋ฒ•์œผ๋กœ, ์‹ ๊ฒฝ๋ง ํ•™์Šต ๊ณผ์ •์—์„œ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•˜์—ฌ ๊ฐ ์ฐจ์›(feature)๋ณ„๋กœ mini-batch๋ฅผ ๋งŒ๋“ค์–ด ๊ทธ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ๊ณ„์‚ฐํ•˜๋Š” normalization์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.

BN์€ ํ•™์Šต ๊ฐ€๋Šฅํ•œ parameters๊ฐ€ ์กด์žฌํ•˜๋Š” ํ•˜๋‚˜์˜ ๋ ˆ์ด์–ด ๊ตฌ์กฐ๊ฐ€ ๋˜๋ฉฐ ์ด ๊ธฐ๋ฒ•์ด ๋ฐœํ‘œ๋œ ์ดํ›„ ๊ธฐ์กด์˜ ๋”ฅ๋Ÿฌ๋‹ ๊ตฌ์กฐ์—์„œ Convolution Layer์™€ Activation Layer ์‚ฌ์ด์— BN Layer๊ฐ€ ๋“ค์–ด๊ฐ„ ํ˜•ํƒœ๋กœ ๋ฐœ์ „ํ–ˆ๋‹ค.

L1 vs. L2 Regularization

L1 ๊ทœ์ œ (Lasso)

๊ทœ์ œ๊ฐ€ ์ปค์งˆ ์ˆ˜๋ก ํ›ˆ๋ จ ์„ธํŠธ์˜ ์†์‹ค๊ณผ ๊ฒ€์ฆ ์„ธํŠธ์˜ ์†์‹ค์ด ์ปค์ง€๊ณ  (= underfitting), ๊ทœ์ œ๊ฐ€ ์ปค์งˆ ์ˆ˜๋ก ๊ฐ€์ค‘์น˜ ๊ฐ’์ด "0"์— ๊ฐ€๊นŒ์›Œ์ง„๋‹ค.

L2 ๊ทœ์ œ (Ridge)

L1 ๊ทœ์ œ์™€ ๋น„์Šทํ•œ ์–‘์ƒ์„ ๋ณด์ด๋‚˜, ๊ทœ์ œ๊ฐ€ ๊ฐ•ํ•ด์ ธ๋„ ๊ณผ์†Œ ์ ‘ํ•ฉ์ด ๊ทธ๋ ‡๊ฒŒ ์‹ฌํ•ด์ง€์ง€ ์•Š๋Š” ํŠน์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ๊ทธ๋ž˜์„œ, L2 ๊ทœ์ œ๋ฅผ ๋งŽ์ด ์‚ฌ์šฉํ•œ๋‹ค.

์ •๊ทœ ๋ฐฉ์ •์‹(Normal Equation) vs. Gradient Descent

[์ •๊ทœ ๋ฐฉ์ •์‹]

image

[์ •๊ทœ ๋ฐฉ์ •์‹ vs. GD]

image

Gradient Descent์ฒ˜๋Ÿผ ์•Œ์ง€ ๋ชปํ•˜๋Š” ๊ฐ’(parameter)๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก ์ด๋‹ค.

Gradient Desceent ๋ฐฉ๋ฒ•์€ ๋ฏธ๋ถ„๊ฐ’์œผ๋กœ ์ตœ์ ์˜ ํ”ผ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ๋Š” ๋ฐ˜๋ณต์ ์ธ ์—ฐ์‚ฐ ๊ณผ์ •์ด ๋‹จ์ ์ด์—ˆ์ง€๋งŒ, ์ •๊ทœ ๋ฐฉ์ •์‹์€ ๋‹จ๋ฒˆ์— ํ”ผ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

  • Gradient Descent algorithm: Scaling ํ•„์š”, Normal Equation: ํ•œ๋ฒˆ์— ๊ฒฐ๊ณผ๊ฐ’์„ ๊ตฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— Scaling ํ•„์š”์—†์Œ.

ํ•˜์ง€๋งŒ, ์ •๊ทœ ๋ฐฉ์ •์‹์€ ํ”ผ์ฒ˜ ๊ฐœ์ˆ˜๊ฐ€ ๋งŽ์„ ๊ฒฝ์šฐ ์—ฐ์‚ฐ์ด ๋Š๋ ค์ง„๋‹ค; ๊ทธ๋ž˜๋„, ์ผ์ • ์‹œ๊ฐ„ ๋‚ด์— ํ•ด๋ฒ•์„ ์ฐพ๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

๋ณดํ†ต feature๊ฐ€ 10000๊ฐœ ์ดํ•˜ ๋ผ๋ฉด Normal Equation์ด ํ›จ์”ฌ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ, ๊ทธ ์ด์ƒ ์ด๋ผ๋ฉด Gradient Descent algorithm์ด ์ข‹๋‹ค.

๋˜ํ•œ, Normal Equation์˜ ํ•ต์‹ฌ์€ ์—ญํ–‰๋ ฌ X^t๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์ธ๋ฐ, ๋น„๊ฐ€์—ญํ–‰๋ ฌ(ํ–‰๋ ฌ X๊ฐ€ ์—ญํ–‰๋ ฌ์ด ์กด์žฌํ•˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ)์— ๋Œ€ํ•˜์—ฌ ๋‹ค์Œ ์ฒ˜๋ฆฌ๊ฐ€ ์ˆ˜๋ฐ˜๋œ๋‹ค.

    1. ๋ถˆํ•„์š”ํ•œ feature ํ˜น์€ ๋‘ ๊ฐœ์˜ feature๊ฐ€ ์„œ๋กœ ์œ ์‚ฌํ•œ ๊ฒฝ์šฐ, ํ•˜๋‚˜๋ฅผ ์ง€์›Œ์•ผํ•œ๋‹ค.
    1. ๋ณด์œ ํ•œ ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๋ณด๋‹ค feature์˜ ์ˆ˜๊ฐ€ ๋งŽ์€ ๊ฒฝ์šฐ, feature๋ฅผ ๋ถ€๋ถ„์ ์œผ๋กœ ์ง€์šฐ๊ฑฐ๋‚˜ regularization์„ ์ ์šฉํ•ด์•ผ ํ•œ๋‹ค.

Local Optima์— ๋น ์ ธ๋„ ๋”ฅ๋Ÿฌ๋‹ ํ•™์Šต์— ๊ธ์ •์ ์ธ ์ด์œ ?

์‹ค์ œ ๋”ฅ๋Ÿฌ๋‹์—์„œ ๋กœ์ปฌ ์˜ตํ‹ฐ๋งˆ ๋น ์งˆ ํ™•๋ฅ ์ด ๊ฑฐ์˜ ์—†์œผ๋ฉฐ, ์‹ค์ œ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์—์„œ๋Š” ์ˆ˜๋งŽ์€ w(๊ฐ€์ค‘์น˜)๊ฐ€ ์กด์žฌํ•˜์—ฌ ๋ชจ๋“  ๊ฐ€์ค‘์น˜๊ฐ€ ๋ชจ๋‘ ๋กœ์ปฌ ์˜ตํ‹ฐ๋งˆ๋ผ๋„ ๋น ์ ธ์„œ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ์ข…๋ฃŒ๋˜์•ผ ํ•™์Šต์ด ์ข…๋ฃŒ๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

Fully Connected Layer(= hidden layer)

๋ฐœ๊ฒฌํ•œ ํŠน์ง•์ ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ ˆ์ด์–ด ๊ตฌ๊ฐ„

BERT vs. GPT

BERT

  • ์ธ์ฝ”๋” ์Šคํƒ
  • ์ž๊ธฐ ํšŒ๊ท€ ๋ชจ๋ธ์ด ์•„๋‹ˆ๋‹ค.
  • Self-Attention
    • ์ „์ฒด ๋งฅ๋ฝ์„ ๊ณ ๋ คํ•˜๋Š” ๋Œ€์‹ , ์˜ˆ์ธก ์„ฑ๋Šฅ์ด ์ƒ๋Œ€์ ์œผ๋กœ ์ €์กฐํ•˜๋‹ค.

GPT

  • ๋””์ฝ”๋” ์Šคํƒ
  • ์ž๊ธฐ ํšŒ๊ท€ ๋ชจ๋ธ์ด๋‹ค.
  • Masked Self-Attention
    • ์ „์ฒด ๋งฅ๋ฝ์„ ๊ณ ๋ คํ•˜์ง€ ๋ชปํ•˜์ง€๋งŒ, ์˜ˆ์ธก ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚˜๋‹ค.

์ž๊ธฐ ํšŒ๊ท€ ๋ชจ๋ธ: ๋งˆ์น˜ RNN์ฒ˜๋Ÿผ ์ด์ „ ํ•™์Šต์˜ ์ถœ๋ ฅ๊ฐ’์ด ๋‹ค์Œ ํ•™์Šต์˜ ์ž…๋ ฅ๊ฐ’์ด ๋˜๋Š” ๋ชจ๋ธ์ด๋‹ค.

Batch and Epoch

image

Batch: ์ „์ฒด ํŠธ๋ ˆ์ด๋‹ ๋ฐ์ดํ„ฐ ์…‹์„ ์—ฌ๋Ÿฌ ์ž‘์€ ๊ทธ๋ฃน์œผ๋กœ ๋‚˜๋ˆ„์—ˆ์„ ๋•Œ, ํ•˜๋‚˜์˜ ์†Œ๊ทธ๋ฃน์— ์†ํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ˆ˜๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

  • Batch ์‚ฌ์ด์ฆˆ โ†‘, ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•ด์•ผํ•  ์–‘ โ†‘, ํ•™์Šต ์†๋„๊ฐ€ โ†“, ๋ฉ”๋ชจ๋ฆฌ ๋ถ€์กฑ
  • Batch ์‚ฌ์ด์ฆˆ โ†“, ์ ์€ ์ƒ˜ํ”Œ์„ ์ฐธ์กฐํ•ด์„œ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ๋นˆ๋ฒˆํ•˜๊ฒŒ ์ผ์–ด๋‚˜๊ธฐ ๋•Œ๋ฌธ์—, ๋น„๊ต์  ๋ถˆ์•ˆ์ •ํ•˜๊ฒŒ ํ›ˆ๋ จ๋  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

Epoch: ๋”ฅ๋Ÿฌ๋‹์—์„œ๋Š” epoch์€ ์ „์ฒด ํŠธ๋ ˆ์ด๋‹ ์…‹์ด ์‹ ๊ฒฝ๋ง์„ ํ†ต๊ณผํ•œ ํšŸ์ˆ˜์ด๋‹ค. ๊ฐ€๋ น, 1-epoch๋Š” ์ „์ฒด ํŠธ๋ ˆ์ธ์ด ์…‹์ด ํ•˜๋‚˜์˜ ์‹ ๊ฒฝ๋ง์— ์ ์šฉ๋˜์–ด ์ˆœ์ „ํŒŒ์™€ ์—ญ์ „ํŒŒ๋ฅผ ํ†ตํ•ด ์‹ ๊ฒฝ๋ง์„ ํ•œ ๋ฒˆ ํ†ต๊ณผํ–ˆ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

Padding, Stride, Pooling

Padding: ( n - f + 1 ) x ( n - f + 1 )

  • edge ๋ถ€๋ถ„ ํ”ฝ์…€์€ ํ•œ ๋ฒˆ๋งŒ ์‚ฌ์šฉ๋˜์–ด ์œค๊ณฝ ์ •๋ณด ์†Œ์‹ค์„ ๋ฐฉ์ง€ํ•œ๋‹ค.
  • ์ด๋ฏธ์ง€ ์ถ•์†Œ๋ฅผ ๋ฐฉ์ง€ํ•œ๋‹ค

Stride

image

  • ํ•„ํ„ฐ ์ ์šฉ์‹œ ์ด๋™ ๊ฐ„๊ฒฉ

Pooling

  • ์‚ฌ์ด์ฆˆ๊ฐ์†Œ ๋ฐ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ

convolution layer์˜ ๊ฒฝ์šฐ ์›๋ณธ์ด๋ฏธ์ง€ ํฌ๊ธฐ๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ depth๋ฅผ ํ‚ค์šฐ๊ธฐ ๋•Œ๋ฌธ์— ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ๋งŽ์ด ์ฐจ์ง€ํ•œ๋‹ค. ๋”ฐ๋ผ์„œ, ํŠน์ง•์€ ์œ ์ง€ํ•˜๋ฉด์„œ ๋ฐ์ดํ„ฐ์™€ feature map์˜ ์‚ฌ์ด์ฆˆ๋ฅผ ์ค„์ž„์œผ๋กœ์จ ์šฉ๋Ÿ‰์„ ์ ˆ์•ฝํ•  ์ˆ˜ ์žˆ๋‹ค.

Pre-training vs. Fine-tuning

Pre-training

  • ๊ธฐ์กด ์ž„์˜์˜ ๊ฐ’์œผ๋กœ ์ดˆ๊ธฐํ™”ํ•˜๋˜ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋“ค์„ ๋‹ค๋ฅธ ๋ฌธ์ œ(task)์— ํ•™์Šต์‹œํ‚จ ๊ฐ€์ค‘์น˜๋“ค๋กœ ์ดˆ๊ธฐํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.
    • ํ…์ŠคํŠธ ์œ ์‚ฌ๋„ ์˜ˆ์ธก ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์ „ ๊ฐ์ • ๋ถ„์„ ๋ฌธ์ œ๋ฅผ ํ•™์Šตํ•œ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ํ™œ์šฉํ•ด ํ…์ŠคํŠธ ์œ ์‚ฌ๋„ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋กœ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

Fine-tuning

  • ๊ธฐ์กด์— ํ•™์Šต๋˜์–ด์ง„ ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์•„ํ‚คํ…์ณ๋ฅผ ์ƒˆ๋กœ์šด ๋ชฉ์ ์— ๋งž๊ฒŒ ๋ณ€ํ˜•ํ•˜๊ณ  ์ด๋ฏธ ํ•™์Šต๋œ ๋ชจ๋ธ Weights๋กœ ๋ถ€ํ„ฐ ํ•™์Šต์„ ์—…๋ฐ์ดํŠธ ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.
    • ์‚ฌ์ „ ํ•™์Šต ๋ฐฉ๋ฒ•์ธ ๊ฐ์ • ๋ถ„์„ ๋ฌธ์ œ์— ์‚ฌ์ „ ํ•™์Šต์‹œํ‚จ ๊ฐ€์ค‘์น˜์™€ ๋”๋ถˆ์–ด ํ…์ŠคํŠธ ์œ ์‚ฌ๋„๋ฅผ ์œ„ํ•œ ๋ถ€๊ฐ€์ ์ธ ๊ฐ€์ค‘์น˜๋ฅผ ์ถ”๊ฐ€ํ•ด ํ…์ŠคํŠธ ์œ ์‚ฌ๋„ ๋ฌธ์ œ๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ๋ฏธ์„ธ ์กฐ์ • ๋ฐฉ๋ฒ•์ด๋‹ค.

์ƒด ๋„คํŠธ์›Œํฌ

image

์ƒด๋„คํŠธ์›Œํฌ๋Š” ๋‘ ์‚ฌ์ง„์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„์„œ ๋‘ ์ด๋ฏธ์ง€๋ฅผ ๋ฒกํ„ฐํ™” ์‹œํ‚จ ์ดํ›„, ๋‘ ๋ฒกํ„ฐ๊ฐ„์˜ ์œ ์‚ฌ๋„ (similarity in [0, 1]) ๋ฅผ ๋ฐ˜ํ™˜ํ•˜๋Š” ๋„คํŠธ์›Œํฌ์ž…๋‹ˆ๋‹ค.

image

์ƒด ๋„คํŠธ์›Œํฌ๋Š” ํ•˜๋‚˜์˜ ์ด๋ฏธ์ง€๋ฅผ ํ•˜๋‚˜์˜ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ๋Š” weight๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ, ๋‘ ์ด๋ฏธ์ง€๋Š” ๊ณต์œ ๋˜๋Š” ํ•ด๋‹น weight๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ฒกํ„ฐ๋กœ ์ธ์ฝ”๋”ฉ ๋ฉ๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ ์ •์˜๋œ ๋„คํŠธ์›Œํฌ์— ๋‘ ์‚ฌ์ง„์ด ๊ฐ™์„ ๊ฒฝ์šฐ ์œ ์‚ฌ๋„(Similarity)๋ฅผ 1๋กœ ์ฃผ๊ณ , ๋‘ ์‚ฌ์ง„์ด ๋‹ค๋ฅผ ๊ฒฝ์šฐ ์œ ์‚ฌ๋„(similarity)๋ฅผ 0 ์œผ๋กœ ์ฃผ์–ด์„œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์ด๋•Œ ํ•™์Šต์— ์‚ฌ์šฉํ•˜๋Š” loss๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด cross-entropy๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

image

์ถ”์ถœ๋œ ๋ฒกํ„ฐ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๋Š” ์„œ๋กœ ์œ ์‚ฌํ•œ(=๊ฐ™์€) ์ด๋ฏธ์ง€๋ผ๋ฆฌ๋Š” ๊ฐ€๊นŒ์šด ๊ฑฐ๋ฆฌ(๋†’์€ ์œ ์‚ฌ๋„) ๋ฅผ ๊ฐ€์ง€๊ณ , ์„œ๋กœ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€ ๊ฐ„์—๋Š” ๋จผ ๊ฑฐ๋ฆฌ๋ฅผ (๋‚ฎ์€ ์œ ์‚ฌ๋„) ๊ฐ€์ง€๋„๋ก ํ•™์Šต์ด ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค.

Zero-shot vs. One-shot vs. Few-shot Learning

k-way n-shot Learning

image

Support set์˜ ํด๋ž˜์Šค ๊ฐœ์ˆ˜์™€ ์ƒ˜ํ”Œ ์ˆ˜๋ฅผ ๊ธฐ์ค€์œผ๋กœ k-way n-shot ์ด๋ผ๋Š” ํ‘œํ˜„์„ ์“ด๋‹ค.

  • k-way: Support set์ด k๊ฐœ์˜ ํด๋ž˜์Šค๋กœ ์ด๋ฃจ์–ด ์ง
    • k๊ฐ€ ํด์ˆ˜๋ก ๋ชจ๋ธ์˜ ์ •ํ™•๋„๋Š” ๋‚ฎ์•„์ง€๊ฒŒ ๋œ๋‹ค.
  • n-shot: ๊ฐ ํด๋ž˜์Šค๊ฐ€ ๊ฐ€์ง„ sample์˜ ๊ฐœ์ˆ˜
    • n์ด ํด ์ˆ˜๋ก ๋ชจ๋ธ์˜ ์ •ํ™•๋„๋Š” ๋†’์•„์ง€๊ฒŒ ๋œ๋‹ค.

n์ด 1์ด ๋˜๋ฉด one-shot learning์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.

ํ•™์Šต๋ฐฉ๋ฒ•

image

๋งŽ์€ training set์„ ํ†ตํ•ด ๊ฐ ์‚ฌ์ง„๋ณ„๋กœ ์ค‘์š”ํ•œ ํŠน์ง•๋“ค์„ ์ž˜ ์ถ”์ถœํ•ด์„œ ๊ฐ™๋‹ค์™€ ๋‹ค๋ฅด๋‹ค๋ฅผ ํ•™์Šตํ•ด์•ผ ํ•œ๋‹ค.

image

์ดํ›„, Query ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด Support set์˜ ์ด๋ฏธ์ง€๋“ค๊ณผ ์œ ์‚ฌ์„ฑ์„ ๊ตฌํ•˜๊ณ  ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ์ด๋ฏธ์ง€๋ฅผ ๊ฐ€์ง„ class๋กœ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

image

Positive set, Negative set์œผ๋กœ ๊ตฌ์„ฑํ•˜์—ฌ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๋ฉฐ, ์ผ๋ฐ˜์ ์œผ๋กœ Conv-Relu-Pool์˜ ๊ตฌ์กฐ๋กœ๋„ ์ถฉ๋ถ„ํžˆ ํŠน์ง• ๋ฒกํ„ฐ๋ฅผ ์ž˜ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.

Prediction์—์„œ๋Š” Support set์˜ ์ด๋ฏธ์ง€์˜ representation๊ณผ Query image์˜ representation ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ƒด ๋„คํŠธ์›Œํฌ๋ฅผ ์ด์šฉํ•ด ์œ ์‚ฌ์„ฑ์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

[์ƒด ๋„คํŠธ์›Œํฌ (Siamese Network)]

image

image image image

๊ฐ™์€ CNN ๋ชจ๋ธ์„ ์ด์šฉํ•˜์—ฌ hidden representation์„ ๊ฐ๊ฐ ๊ตฌํ•œ ๋’ค ์ด ์ฐจ์ด๋ฅผ ์ด์šฉํ•œ๋‹ค.

Zero/Few/One Shot

Zero-shot

  • ์ผ๋ฐ˜์ ์œผ๋กœ ๋”ฅ๋Ÿฌ๋‹์€ training์— ์‚ฌ์šฉ๋œ class๋งŒ์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ unseen data๊ฐ€ ์ž…๋ ฅ๋˜๋ฉด seen class๋กœ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ”๋ณด๊ฐ€ ๋˜๋ฒ„๋ฆฌ๋Š”๋ฐ, Zero shot์€ train set์— ํฌํ•จ๋˜์ง€ ์•Š์€ unseen class๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ถ„์•ผ์ด๋‹ค.
    • Unseen data๋ฅผ ์ž…๋ ฅ ๋ฐ›์•„๋„, seen data๋กœ ํ•™์Šต๋œ ์ง€์‹์„ ์ „์ดํ•˜์—ฌ unseen data๋ฅผ unseen class๋กœ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ๋ชจ๋ธ์ด ๋ฐ”๋กœ downstream task์— ์ ์šฉํ•œ๋‹ค.

CV: ํด๋ž˜์Šค ๋ ˆ์ด๋ธ” ๊ฐ„์˜ ํ‘œํ˜„ ์œ ์‚ฌ์„ฑ์— ์˜์กด

NLP: ๋™์ผํ•œ ์˜๋ฏธ์  ๊ณต๊ฐ„์—์„œ์˜ ๋ ˆ์ด๋ธ”์„ ๋‚˜ํƒ€๋‚ด๋Š” '๋ผ๋ฒจ ์ดํ•ด' ๊ธฐ๋Šฅ ๊ธฐ๋ฐ˜

One-shot

image

  • ๋ชจ๋ธ์„ 1๊ฑด์˜ ๋ฐ์ดํ„ฐ์— ๋งž๊ฒŒ ์—…๋ฐ์ดํŠธํ•œ๋‹ค.
  • ๋ณดํ†ต์˜ ์–ผ๊ตด ์ธ์‹ ์‹œ์Šคํ…œ์€ ์‚ฌ์šฉ์ž์˜ ์‚ฌ์ง„์ด ํ•œ ์žฅ๋งŒ ์กด์žฌํ•  ์ˆ˜๋„ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

Few-shot

image

  • ๋ชจ๋ธ์„ ๋ช‡ ๊ฑด์˜ ๋ฐ์ดํ„ฐ์— ๋งž๊ฒŒ ์—…๋ฐ์ดํŠธํ•œ๋‹ค
  • Supervised learning์€ ํ•™์Šต์— ๊ฐ•์•„์ง€ ์‚ฌ์ง„์„ ์ฃผ๊ณ  ๊ฐ•์•„์ง€๋ฅผ ์ž˜ ํ•™์Šตํ–ˆ๋Š” ์ง€ ๋ฌป์ง€๋งŒ, Few shot learning์€ Training set์— ์—†๋Š” ํด๋ž˜์Šค๋ฅผ ๋งž์ถ”๋Š” ๋ฌธ์ œ์ด๋‹ค.

Black box

Black box๋ž€ ๊ฒฐ๊ณผ๋Š” ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ๋˜๋Š” ์›ํ•˜๋Š”๋Œ€๋กœ ๋„์ถœํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ์–ด๋–ป๊ฒŒ, ๋ฌด์—‡์„ ๊ทผ๊ฑฐ๋กœ ๊ทธ๋Ÿฌํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์™”๋Š”์ง€ ์•Œ ์ˆ˜ ์—†๋Š” ๊ฒƒ

GAP vs GMP

image

  • Global Max Pooling์€ ํƒ์ง€ ์‚ฌ๋ฌผ์„ ํฌ์ธํŠธ๋กœ ์งš๋Š” ๋ฐ˜๋ฉด, GAP๋Š” ์‚ฌ๋ฌผ์˜ ์œ„์น˜๋ฅผ ๋ฒ”์œ„๋กœ ์žก์•„๋‚ด๋Š” ์žฅ์ ์ด ์žˆ๋‹ค.
    • Average pooling method: smooths out the image and hence the sharp features may not be identified when this pooling method is used.
    • Max pooling: brighter pixels from the image.

image

GAP layer๋Š” ๊ฐ๊ฐ์˜ feature map์˜ ๊ฐ’๋“ค์„ ํ‰๊ท ์„ ์ทจํ•œ ๊ฒƒ์œผ๋กœ, feature map์˜ ํฌ๊ธฐ์™€ ๊ด€๊ณ„์—†์ด channel์ด k๊ฐœ๋ผ๋ฉด k๊ฐœ์˜ ํ‰๊ท  ๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

  • GAP๋Š” FC Layer์™€ ๋‹ฌ๋ฆฌ ์—ฐ์‚ฐ์ด ํ•„์š”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ํฌ๊ฒŒ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค
    • Regulariztion๊ณผ ์œ ์‚ฌํ•œ ๋™์ž‘์„ ํ†ตํ•ด overfitting์„ ๋ฐฉ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • FC layer๋Š” Convolution layer์—์„œ ์œ ์ง€ํ•˜๋˜ ์œ„์น˜์ •๋ณด๊ฐ€ ์†์‹ค๋˜๋Š” ๋ฐ˜๋ฉด, GAP layer๋Š” ์œ„์น˜์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— localization์— ์œ ๋ฆฌํ•˜๋‹ค.

Grad_CAM

image

์–ด๋–ค target concept์ผ์ง€๋ผ๋„ final convolutional layer๋กœ ํ๋ฅด๋Š” gradient๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€์˜ ์ค‘์š”ํ•œ ์˜์—ญ์„ ๊ฐ•์กฐํ•˜๋Š” localization map์„ ๋งŒ๋“ ๋‹ค.

ํ™œ์„ฑํ™” ํ•จ์ˆ˜ (Activation Function)

image

์ž…๋ ฅ ์‹ ํ˜ธ์˜ ์ดํ•ฉ์„ ์ถœ๋ ฅ ์‹ ํ˜ธ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ์ผ๋ฐ˜์ ์œผ๋กœ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ž…๋ ฅ ์‹ ํ˜ธ์˜ ์ดํ•ฉ์ด ํ™œ์„ฑํ™”๋ฅผ ์ผ์œผํ‚ค๋Š”์ง€๋ฅผ ์ •ํ•˜๋Š” ์—ญํ• ์ž…๋‹ˆ๋‹ค.

Back Propagation

image

image

  1. ์ด๋ ‡๊ฒŒ ๊ธฐ์šธ๊ธฐ(๋ฏธ๋ถ„๊ฐ’)์„ ๊ตฌํ•˜๋Š” ์ด์œ ?
  • ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๊ฐ layer์—์„œ ๊ธฐ์šธ๊ธฐ ๊ฐ’์„ ๊ตฌํ•˜๊ณ  ๊ทธ ๊ธฐ์šธ๊ธฐ ๊ฐ’์„ ์ด์šฉํ•˜์—ฌ Gradient descent ๋ฐฉ๋ฒ•์œผ๋กœ ๊ฐ€์ค‘์น˜ w์™€ b๋ฅผ update์‹œํ‚ค๋ฉด์„œ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋งค์šฐ ๋งŽ๊ณ  layer๊ฐ€ ์—ฌ๋Ÿฌ๊ฐœ ์žˆ์„๋•Œ ํ•™์Šตํ•˜๊ธฐ ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค.
  1. ์ตœ์ข… output์— ๋Œ€ํ•œ ๊ธฐ์šธ๊ธฐ ๊ฐ’์„ ๊ฐ layer๋ณ„๋กœ ๊ตฌํ•˜๋Š” ์ด์œ ?
  • ๊ฐ layer์˜ node(parameter)๋ณ„๋กœ ํ•™์Šต์„ ํ•ด์„œ ๊ฐ ๊ฐ€์ค‘์น˜(๊ธฐ์šธ๊ธฐ ๊ฐ’)์„ ์—…๋ฐ์ดํŠธํ•œ๋‹ค.

Gradient Vanishing/Exploding/Clipping

Gradient Vanishing: ์—ญ์ „ํŒŒ ๊ณผ์ •์—์„œ ์ž…๋ ฅ์ธต์œผ๋กœ ๊ฐˆ ์ˆ˜๋ก ๊ธฐ์šธ๊ธฐ(Gradient)๊ฐ€ ์ ์ฐจ์ ์œผ๋กœ ์ž‘์•„์ง€๋Š” ํ˜„์ƒ (์‹œ๊ทธ๋ชจ์ด๋“œ ๋Œ€์‹  ReLU ์‚ฌ์šฉ์œผ๋กœ ํ•ด๊ฒฐ)

image

image

image

Layer๊ฐ€ ์ง„ํ–‰๋  ์ˆ˜๋ก sigmoid ํ•จ์ˆ˜๊ฐ€ ์—ฐ์†์œผ๋กœ ๊ณฑํ•ด์ง€๋Š” ๋ชจ์Šต์ด๋‹ค.

๋”ฐ๋ผ์„œ, sigmoid ํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„์€ 1๋ณด๋‹ค ์ž‘์œผ๋ฏ€๋กœ ๊ณฑํ•ด์ง€๋Š” ํšŸ์ˆ˜๊ฐ€ ๋งŽ์„ ์ˆ˜๋ก (= layer๊ฐ€ ๋งŽ์„ ์ˆ˜๋ก) ์ž…๋ ฅ์ธต์œผ๋กœ ๊ฐ€๋Š” ์—ญ์ „ํŒŒ ๊ณผ์ •์—์„œ ๊ธฐ์šธ๊ธฐ์˜ ๊ฐ’์€ ๋” ์ž‘์•„์ง„๋‹ค.

์ฆ‰, ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์— ์ˆ˜๋ ดํ•˜๋ฉด ๊ฐ€์ค‘์น˜์˜ ๋ณ€ํ™”๊ฐ€ ๊ฑฐ์˜ ์—†๊ฒŒ ๋˜๊ณ  error๊ฐ’๋„ ๋” ์ด์ƒ ์ค„์–ด๋“ค์ง€ ์•Š๊ฒŒ๋˜์„œ, ๊นŠ์ด๊ฐ€ ๊นŠ์Œ์—๋„ error๊ฐ€ ๋” ๋†’๊ฒŒ ๋‚˜ํƒ€๋‚˜๋Š” ํ˜„์ƒ์ธ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค์ด ๋ฐœ์ƒํ•œ๋‹ค.

Gradient Exploding: ๊ธฐ์šธ๊ธฐ๊ฐ€ ์ ์ฐจ ์ปค์ง€๋”๋‹ˆ ๊ฐ€์ค‘์น˜๋“ค์ด ๋น„์ •์ƒ์ ์œผ๋กœ ํฐ ๊ฐ’์ด ๋˜๋ฉด์„œ ๊ฒฐ๊ตญ ๋ฐœ์‚ฐ๋œ๋‹ค.

Gradient Clipping: ๊ธฐ์šธ๊ธฐ ํญ์ฃผ๋ฅผ ๋ง‰๊ธฐ ์œ„ํ•ด ์ž„๊ณ„๊ฐ’์„ ๋„˜์ง€ ์•Š๋„๋ก ๊ฐ’์„ ์ž๋ฅธ๋‹ค.

Perplexity

image

์–ธ์–ด ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ํ‰๊ฐ€ ์ง€ํ‘œ๋กœ, ๊ทธ ์ˆ˜์น˜๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ์ข‹๋‹ค.


Statistic / Probability

Central Limit Theorem

์ •์˜

๋ชจ์ง‘๋‹จ(ํ‰๊ท : ฮผ, ํ‘œ์ค€ํŽธ์ฐจ: ฯƒ)์ด ์–ด๋–ค ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋˜์ง€ ๋ฌด๊ด€ํ•˜๊ฒŒ, ํ‘œ๋ณธํ‰๊ท ์˜ ํ‘œ๋ณธ๋ถ„ํฌ๋Š” n์ด ์ปค์ง€๋ฉด(>= 30) ํ‰๊ท ์ด ฮผ์ด๊ณ  ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ ฯƒ/n์ธ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค.

์˜์˜

ํ‘œ๋ณธํ‰๊ท ์„ ํ†ตํ•ด์„œ ๋ชจ์ง‘๋‹จ์˜ ๋ชจ์ˆ˜์ธ ๋ชจํ‰๊ท ๊ณผ ๋ชจํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋Š” ํ™•๋ฅ ์  ๊ทผ๊ฑฐ ์ œ์‹œ

Law of Large Numbers (LLN)

๊ฒฝํ—˜์  ํ™•๋ฅ ๊ณผ ์ˆ˜ํ•™์  ํ™•๋ฅ  ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฒ•์น™; ํ‘œ๋ณธ์ง‘๋‹จ์˜ ํฌ๊ธฐ๊ฐ€ ์ปค์ง€๋ฉด ๊ทธ ํ‘œ๋ณธํ‰๊ท ์ด ๋ชจํ‰๊ท ์— ๊ฐ€๊นŒ์›Œ์ง์„ ์˜๋ฏธ

ํ™•๋ฅ  vs. ํ†ต๊ณ„

ํ™•๋ฅ : ํ•˜๋‚˜์˜ ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•  ๊ฒฝ์šฐ

ํ†ต๊ณ„: ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•  ํ™•๋ฅ 

Total variation distance

image

๋‘ ํ™•๋ฅ  ๋ถ„ํฌ์˜ ์ธก์ •๊ฐ’์ด ๋ฒŒ์–ด์งˆ ์ˆ˜ ์žˆ๋Š” ๊ฐ€์žฅ ํฐ ๊ฐ’์ด๋‹ค.

P-value (์œ ์˜ํ™•๋ฅ )

๊ฒ€์ • ํ†ต๊ณ„๋Ÿ‰ ๊ฐ’์— ๋Œ€ํ•ด ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ์†Œ์˜ ์œ ์˜ ์ˆ˜์ค€(์ œ 1์ข… ์˜ค๋ฅ˜ (ฮฑ)๋ฅผ ๋ฒ”ํ•  ํ™•๋ฅ ์˜ ์ตœ๋Œ€ ํ—ˆ์šฉํ•œ๊ณ„).

์ฆ‰, ๊ท€๋ฌด๊ฐ€์„ค์ด ์‚ฌ์‹ค์ผ ํ™•๋ฅ ์ด๋‹ค.

ฮฑ(0.05) > p-value: H0 ๊ธฐ๊ฐ

ฮฑ(0.05) < p-value: H0 ์ฑ„ํƒ

likelihood-ratio test(์šฐ๋„๋น„๊ฒ€์ •)

๋ชจํ˜• ๋‘ ๊ฐœ์˜ ์šฐ๋„(๊ฐ€๋Šฅ์„ฑ ํ™•๋ฅ )์˜ ๋น„๋ฅผ ๊ณ„์‚ฐํ•ด์„œ ๋‘ ๋ชจํ˜•์˜ ์šฐ๋„๊ฐ€ ์œ ์˜ํ•˜๊ฒŒ ์ฐจ์ด ๋‚˜๋Š”์ง€ ๋น„๊ตํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

image

๊ฐ€๋ น, ๋ชจํ˜• B์— '๋น„๋งŒ'์ด๋ผ๋Š” ๋…๋ฆฝ๋ณ€์ˆ˜๋ฅผ ์ถ”๊ฐ€ํ•œ ํ›„ ์šฐ๋„๋น„ ๊ฒ€์ • ๊ฒฐ๊ณผ์—์„œ ๋‘ ๋ชจํ˜•์˜ ์šฐ๋„์˜ ๋น„ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค๋ฉด, '๋น„๋งŒ'์˜ ํšŒ๊ท€๊ณ„์ˆ˜๋Š” ํ†ต๊ณ„์ ์œผ๋กœ ์œ ์˜๋ฏธํ•˜๋‹ค.

pmf vs. pdf vs. cdf

pmf(ํ™•๋ฅ ์งˆ๋Ÿ‰ํ•จ์ˆ˜): ์–ด๋–ค ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•  ์ด์‚ฐํ˜• ํ™•๋ฅ ๋ถ„ํฌ์ด๋‹ค.

pdf(ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜): ์–ด๋–ค ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•  ์—ฐ์†ํ˜• ํ™•๋ฅ ๋ถ„ํฌ์ด๋‹ค.

cdf(๋ˆ„์ ๋ถ„ํฌํ•จ์ˆ˜): pdf ํ™•๋ฅ ๊ฐ’๋“ค์ด ๋ˆ„์ ๋œ ํ™•๋ฅ ๋ถ„ํฌ์ด๋‹ค.

pdf๋ฅผ ์ ๋ถ„ํ•˜๋ฉด cdf๊ฐ€ ๋˜๊ณ , cdf๋ฅผ ๋ฏธ๋ถ„ํ•˜๋ฉด pdf๊ฐ€ ๋œ๋‹ค (cdf์—์„œ ์–ด๋Š ์ง€์ ๊นŒ์ง€์˜ ๋„“์ด๊ฐ€ pdf์—์„œ ๊ทธ ์ง€์ ์˜ ํ™•๋ฅ ์ด๋‹ค)..

์ด์‚ฐํ™•๋ฅ ๋ถ„ํฌ vs. ์—ฐ์†ํ™•๋ฅ ๋ถ„ํฌ

image

์ด์‚ฐํ™•๋ฅ ๋ถ„ํฌ (Binomial, Bernoulli, Multinomial, Multinoulli, Geometric, Poisson, Hypergeometric)

pmf๋ฅผ ํ†ตํ•ด ํ‘œํ˜„ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ํ™•๋ฅ  ๋ณ€์ˆ˜๊ฐ€ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๊ฐ’์ด ๊ฐ€์‚ฐ ๊ฐœ ์žˆ๋‹ค.

Binomial(์ดํ•ญ๋ถ„ํฌ): ๋…๋ฆฝ๋œ ์—ฐ์†๋œ N๋ฒˆ์˜ ๋ฒ ๋ฅด๋ˆ„์ด ์‹œํ–‰์—์„œ ์‹œํ–‰ ํ™•๋ฅ (p)๋ฅผ ๋ฐ˜๋ณตํ–ˆ์„ ๋•Œ์˜ ์ด์‚ฐํ™•๋ฅ ๋ถ„ํฌ์ด๋‹ค (i.e., ๋™์ „๋˜์ง€๊ธฐ)

Negative-Binomial(์Œ์ดํ•ญ๋ถ„ํฌ): ์Œ์ดํ•ญ๋ถ„ํฌ๋Š” ๊ธฐํ•˜๋ถ„ํฌ๋ฅผ ์ผ๋ฐ˜ํ™”ํ•œ ๋ฒ„์ „์œผ๋กœ, ๊ธฐํ•˜๋ถ„ํฌ๋Š” ์ฒ˜์Œ ์„ฑ๊ณต๊นŒ์ง€๋ฅผ ๋ณด์ง€๋งŒ, ์Œ์ดํ•ญ๋ถ„ํฌ๋Š” r๋ฒˆ์งธ ์„ฑ๊ณต๊นŒ์ง€์ด๋‹ค.

Bernoulli(๋ฒ ๋ฅด๋ˆ„์ด): ์ดํ•ญ๋ถ„ํฌ์—์„œ ์‹œํ–‰ ํšŸ์ˆ˜(N)์ด 1์ผ ๋•Œ์ด๋‹ค.

Multinomial(๋‹คํ•ญ๋ถ„ํฌ): ๋ฒ ๋ฅด๋ˆ„์ด ์‹œํ–‰์€ ๋ฐœ์ƒ ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ์˜ ์ˆ˜๊ฐ€ ๋‘ ๊ฐ€์ง€์˜€์ง€๋งŒ, ๋‹คํ•ญ๋ถ„ํฌ๋Š” ๋ฐœ์ƒ ๊ฒฝ์šฐ์˜ ์ˆ˜๊ฐ€ ๊ทธ ์ด์ƒ์ธ ๊ฒฝ์šฐ๋ฅผ ๋งํ•œ๋‹ค (i.e., ์ฃผ์‚ฌ์œ„).

Multinoulli: ๋‹คํ•ญ๋ถ„ํฌ์—์„œ ์‹œํ–‰ ํšŸ์ˆ˜(N)์ด 1์ผ ๋•Œ์ด๋‹ค.

Geometric(๊ธฐํ•˜๋ถ„ํฌ): ์–ด๋–ค ํ–‰์œ„๋ฅผ ์ฒ˜์Œ ์„ฑ๊ณตํ• ๋•Œ๊นŒ์ง€ ์‹œ๋„ํ•˜๋Š”๋ฐ, ์ฒ˜์Œ ์„ฑ๊ณตํ• ๋•Œ๊นŒ์ง€์˜ ์‹œ๋„ํšŸ์ˆ˜ ๋˜๋Š” ์‹คํŒจํ•œ ํšŸ์ˆ˜์˜ ๋ถ„ํฌ์ด๋‹ค.

Poisson(ํฌ์•„์†ก๋ถ„ํฌ): ๋ฅ ๋ก ์—์„œ ๋‹จ์œ„ ์‹œ๊ฐ„ ์•ˆ์— ์–ด๋–ค ์‚ฌ๊ฑด์ด ๋ช‡ ๋ฒˆ ๋ฐœ์ƒํ•  ๊ฒƒ์ธ์ง€๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ์ด์‚ฐํ™•๋ฅ ๋ถ„ํฌ์ด๋‹ค.

Hypergeometric(์ดˆ๊ธฐํ•˜๋ถ„ํฌ): ๋น„๋ณต์›์ถ”์ถœ์—์„œ N๊ฐœ ์ค‘์— M๊ฐœ๊ฐ€ ์›ํ•˜๋Š” ๊ฒƒ์ด๊ณ , K๋ฒˆ ์ถ”์ถœํ–ˆ์„๋•Œ ์›ํ•˜๋Š” ๊ฒƒ x๊ฐœ๊ฐ€ ๋ฝ‘ํž ํ™•๋ฅ ์˜ ๋ถ„ํฌ์ด๋‹ค (i.e., ํฐ/๊ฒ€ ๊ณต์ด ๋“ค์–ด์žˆ๋Š” ํ•ญ์•„๋ฆฌ์—์„œ ํฐ ๊ณต์„ k๊ฐœ ๋ฝ‘์„ ํ™•๋ฅ ๋ถ„ํฌ).

์—ฐ์†ํ™•๋ฅ ๋ถ„ํฌ (์ •๊ทœ๋ถ„ํฌ, ๊ฐ๋งˆ๋ถ„ํฌ, ์ง€์ˆ˜๋ถ„ํฌ, ์นด์ด์ œ๊ณฑ๋ถ„ํฌ, ๋ฒ ํƒ€๋ถ„ํฌ, ๊ท ์ผ๋ถ„ํฌ)

pdf๋ฅผ ํ†ตํ•ด ํ‘œํ˜„ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ํ™•๋ฅ  ๋ณ€์ˆ˜๊ฐ€ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๊ฐ’์ด ์…€ ์ˆ˜ ์—†๋‹ค.

Normal(์ •๊ทœ๋ถ„ํฌ): ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์ข…๋ชจ์–‘ ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์—ฌ๊ธฐ์„œ, ํ‰๊ท ์ด 0์ด๊ณ  ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ 1์ธ ๋ถ„ํฌ๋ฅผ ํ‘œ์ค€์ •๊ทœ๋ถ„ํฌ๋ผ ์ง€์นญํ•œ๋‹ค.

Gamma(๊ฐ๋งˆ๋ถ„ํฌ): ฮฑ ๋ฒˆ์งธ ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•  ๋•Œ ๊นŒ์ง€์˜ ๋Œ€๊ธฐ์‹œ๊ฐ„์˜ ๋ถ„ํฌ

Exponential(์ง€์ˆ˜๋ถ„ํฌ): ์ฒซ๋ฒˆ์งธ ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•  ๋•Œ ๊นŒ์ง€์˜ ๋Œ€๊ธฐ์‹œ๊ฐ„์˜ ๋ถ„ํฌ

Chi-squared(์นด์ด์ œ๊ณฑ๋ถ„ํฌ): ๊ฐ๋งˆ๋ถ„ํฌ์˜ ํŠน์ˆ˜ํ•œ ๊ฒฝ์šฐ๋กœ (ฮฑ=p/2,ฮฒ=2), ๋‘ ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋ถ„์„ ๋ฐฉ๋ฒ•์ด๋‹ค. ์นด์ด์ œ๊ณฑ๋ถ„ํฌ๋Š” ๋ถ„์‚ฐ์˜ ํŠน์ง•์„ ํ™•๋ฅ ๋ถ„ํฌ๋กœ ๋งŒ๋“  ๊ฒƒ์ด๋ฏ€๋กœ ์ง‘๋‹จ์˜ ๋ถ„์‚ฐ์„ ์ถ”์ •ํ•˜๊ณ  ๊ฒ€์ •ํ•  ๋•Œ ๋งŽ์ด ์‚ฌ์šฉ๋œ๋‹ค. ๋ณดํ†ต 0์—์„œ ์‹œ์ž‘๋˜๋Š” positively skewed ํ˜•ํƒœ์˜ ๋ถ„ํฌ๋ชจ์–‘์„ ๋„๋Š”๋ฐ, ์ด๋Š” 0์—์„œ ๋ฉ€์–ด์งˆ์ˆ˜๋ก ๋ถ„์‚ฐ์˜ ํฌ๊ธฐ๊ฐ€ ํฐ ๊ฒฝ์šฐ(๊ฐ€๋ น ํ‚ค ์ฐจ์ด๊ฐ€ 50cm ์ด์ƒ ๋‚˜๋Š” ๊ฒฝ์šฐ)๊ฐ€ ์ ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค.

Beta(๋ฒ ํƒ€๋ถ„ํฌ): ๋‘ ๋งค๊ฐœ๋ณ€์ˆ˜ ฮฑ ์™€ ฮฒ ์— ๋”ฐ๋ผ [0, 1] ๊ตฌ๊ฐ„์—์„œ ์ •์˜ ๋˜๋Š” ๋‹จ์ผ ํ™•๋ฅ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์—ฐ์†ํ™•๋ฅ ๋ถ„ํฌ์ด๋‹ค.

Dirichlet(๋””๋ฆฌํด๋ ˆ๋ถ„ํฌ): ๋‘ ๋งค๊ฐœ๋ณ€์ˆ˜ ฮฑ ์™€ ฮฒ ์— ๋”ฐ๋ผ [0, 1] ๊ตฌ๊ฐ„์—์„œ ์ •์˜ ๋˜๋Š” ๋‹ค๋ณ€์ˆ˜ ํ™•๋ฅ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์—ฐ์†ํ™•๋ฅ ๋ถ„ํฌ์ด๋‹ค.

Uniform(๊ท ์ผ๋ถ„ํฌ): ํŠน์ • ๋ฒ”์œ„ ๋‚ด์—์„œ ๊ท ๋“ฑํ•˜๊ฒŒ ๋‚˜ํƒ€๋‚˜ ์žˆ์„ ๊ฒฝ์šฐ๋ฅผ ๊ฐ€๋ฆฌํ‚จ๋‹ค.

MDS (Multidimensional Scaling, ๋‹ค์ฐจ์›์ฒ™๋„๋ฒ•)

MDS๋Š” linear manifold learning์˜ ํ•œ ์ข…๋ฅ˜๋กœ์จ, ๊ฐœ์ฒด๊ฐ„ (๋น„)์œ ์‚ฌ์„ฑ (= ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ)์„ ์ด์šฉํ•˜์—ฌ ๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•˜๋Š”๋ฐ ์ฃผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.

Manifold: ๊ทผ๊ฑฐ๋ฆฌ์—์„œ๋Š” ์œ ํด๋ฆฌ๋“œ(= ์ง์„ ), ์›๊ฑฐ๋ฆฌ์—์„œ๋Š” ๊ทธ๋ ‡์ง€ ์•Š์€(= ๊ณก์„ ) ๊ณต๊ฐ„์ด๋‹ค.

image

๊ฐ€๋ น, ์ƒ๊ธฐ ๋ชจํ˜•์ฒ˜๋Ÿผ MDS๋ฅผ ์ด์šฉํ•˜์—ฌ ์ €์ฐจ์› ๊ณต๊ฐ„์ƒ์— ๊ฐœ์ฒด๋“ค์„ ๋งคํ•‘์‹œํ‚ค๊ณ  ๊ฐ ๊ฐœ์ฒด๋“ค ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค.

LDA (Latent Dirichlet Allocation, ์ž ์žฌ ๋””๋ฆฌํด๋ ˆ ์ฑ…์ •)

image

์ฃผ์–ด์ง„ ๋ฌธ์„œ์— ๋Œ€ํ•˜์—ฌ ์–ด๋–ค ์ฃผ์ œ๋“ค์ด ์กด์žฌํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ชจํ˜•์ด๋‹ค.

์ƒ๊ธฐ ๊ทธ๋ฆผ์—์„œ ์ƒ‰๊น”๋ณ„๋กœ ํ† ํ”ฝ์ด ๋‚˜๋ˆ ์ ธ ์žˆ๋‹ค.

  • ๋…ธ๋ž€์ƒ‰: gene, dna, genetic --> ์œ ์ „
  • ์ดˆ๋ก์ƒ‰: ๋‡Œ ๊ด€๋ จ ํ† ํ”ฝ

๋‹จ์–ด๋ณ„๋กœ ์“ฐ์—ฌ์ง„ ๊ฐ’์€ ํ† ํ”ฝ์—์„œ ๋“ฑ์žฅํ•  ํ™•๋ฅ ์ด๋‹ค.

์˜ค๋ฅธ์ชฝ์— ์žˆ๋Š” Topic proportions & assignments๊ฐ€ LDA์˜ ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค.

์ฃผ๋ณ€ํ™•๋ฅ ๋ถ„ํฌ(Marginal Distribution)๊ณผ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ(Conditional Distribution)

*์ฃผ๋ณ€ํ™•๋ฅ ๋ถ„ํฌ*: **ํ•˜๋‚˜์˜** ํ™•๋ฅ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๊ฒฐํ•ฉํ™•๋ฅ ๋“ค์„ ๋ชจ๋‘ ํ•ฉํ•œ๋‹ค.

์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ: ์–ด๋–ค ์‚ฌ๊ฑด B๊ฐ€ ์ผ์–ด๋‚ฌ์„ ๋•Œ ์‚ฌ๊ฑด A๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์ด๋‹ค; P(B|A)

image

Unbiased Estimation์˜ ์žฅ์ ์€ ๋ฌด์—‡์ด๋ฉฐ, ๋ฌด์กฐ๊ฑด ์ข‹์€๊ฑด์ง€?

๋ถˆํŽธ์ถ”์ •์น˜(unbiased estimation)์€ ํŽธ์ฐจ(์ถ”์ •๊ฐ’๋“ค์˜ ๊ธฐ๋Œ€์น˜์™€ ์‹ค์ œ ๊ธฐ๋Œ€์น˜์™€์˜ ์ฐจ์ด)๊ฐ€ 0์ธ ๊ฒฝ์šฐ๋ฅผ ์ผ์ปซ๋Š”๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์šฐ๋ฆฌ๋Š” ๋ชจํ‰๊ท ์„ ์ •ํ™•ํ•˜๊ฒŒ ๋„์ถœํ•ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋Ÿผ ๋ฌด์กฐ๊ฑด์ ์œผ๋กœ ๋ถˆํŽธ์ถ”์ •์น˜๋ผ๋Š” ๊ฒƒ์ด ์ข‹์€ ์˜๋ฏธ์ผ๊นŒ? ๋‹ต์€ ์•„๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ฃผ๋ชฉํ•ด์•ผํ•  ๋ถ€๋ถ„์€ ์ถ”์ •๊ฐ’๋“ค์˜ ํ‰๊ท ๊ณผ ์‹ค์ œ๊ฐ’์˜ ์ฐจ์ด์ด๋‹ค. unbiased estimation์ด๋ผ ํ• ์ง€๋ผ๋„ ์ถ”์ •๊ฐ’๋“ค์˜ ๋ถ„์‚ฐ์€ ๋งค์šฐ ํด์ˆ˜๋„ ์žˆ์œผ๋ฏ€๋กœ ์ ˆ๋Œ€์ ์œผ๋กœ ์‹ ๋ขฐํ•  ์ˆ˜๋Š” ์—†๋‹ค.

Bias-Variance Tradeoff ์ •๋ฆฌ๋ฅผ ์ฐธ๊ณ ํ•˜๋ฉด ์ดํ•ด๊ฐ€ ๋” ์ˆ˜์›”ํ•  ๊ฒƒ์ด๋‹ค.

์ฃผ๋ณ€ํ™•๋ฅ ๋ถ„ํฌ(Marginal Distribution)๊ณผ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ(Conditional Distribution)

*์ฃผ๋ณ€ํ™•๋ฅ ๋ถ„ํฌ*: **ํ•˜๋‚˜์˜** ํ™•๋ฅ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๊ฒฐํ•ฉํ™•๋ฅ ๋“ค์„ ๋ชจ๋‘ ํ•ฉํ•œ๋‹ค.

์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ: ์–ด๋–ค ์‚ฌ๊ฑด B๊ฐ€ ์ผ์–ด๋‚ฌ์„ ๋•Œ ์‚ฌ๊ฑด A๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์ด๋‹ค; P(B|A)

image

Confidence Interval(์‹ ๋ขฐ๊ตฌ๊ฐ„)

๋ชจ์ˆ˜๊ฐ€ ์†ํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋˜๋Š” ๋ฒ”์œ„ (๋ชจ์ˆ˜๋ฅผ ํฌํ•จํ•  ๊ฒƒ์œผ๋กœ ์ถ”์ •ํ•œ ๊ตฌ๊ฐ„)

covariance(๊ณต๋ถ„์‚ฐ)/correlation(์ƒ๊ด€๊ณ„์ˆ˜) vs. ๊ฒฐ์ •๊ณ„์ˆ˜

๊ณต๋ถ„์‚ฐ: ๋‘ ๊ฐœ์˜ ํ™•๋ฅ ๋ณ€์ˆ˜์˜ ์ƒ๊ด€์ •๋„(์–ด๋–ป๊ฒŒ ํผ์ ธ์žˆ๋Š”์ง€)๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐ’์ด๋‹ค [-1, 1]. ๊ณต๋ถ„์‚ฐ์˜ ํฌ๊ธฐ๋Š” ๋‘ ํ™•๋ฅ ๋ณ€์ˆ˜์˜ scale์— ํฌ๊ฒŒ ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค.

์ƒ๊ด€๊ด€๊ณ„: ๋‘ ๋ณ€์ˆ˜ ๊ฐ„์— ์„ ํ˜• ๊ด€๊ณ„์˜ ์ •๋„๋ฅผ ์ˆ˜๋Ÿ‰ํ™”ํ•˜๋Š” ์ธก๋„์ด๋‹ค. ์ด๋•Œ ๋‘ ๋ณ€์ˆ˜๊ฐ„์˜ ๊ด€๊ณ„์˜ ๊ฐ•๋„๋ฅผ ์ƒ๊ด€๊ณ„์ˆ˜(correlation coefficient)๋ผ๊ณ  ํ•œ๋‹ค. ๋งŒ์•ฝ, ์ƒ๊ด€๊ณ„์ˆ˜๊ฐ€ 0์ด๋ฉด ๋‘ ํ™•๋ฅ ๋ณ€์ˆ˜๋Š” ์•„๋ฌด๋Ÿฐ ์„ ํ˜• ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๊ฐ–์ง€ ์•Š๋Š”๋‹ค; ์–‘์˜ ์„ ํ˜•๊ด€๊ณ„๋ฉด 1, ์Œ์˜ ์„ ํ˜•๊ด€๊ณ„๋ฉด -1

Coefficient of determination(๊ฒฐ์ •๊ณ„์ˆ˜)

  • ํšŒ๊ท€์„ ์— ์˜ํ•ด ์„ค๋ช…๋˜๋Š” ํšŒ๊ท€๋ชจํ˜•์˜ ์„ค๋ช…๋ ฅ์œผ๋กœ, [0, 1] ๋ฒ”์œ„๋ฅผ ๊ฐ€์ง„๋‹ค.
  • ๋งŒ์•ฝ, ํšŒ๊ท€์„ ์— ๋ชจ๋“  ์ ๋“ค์ด ์กด์žฌํ•œ๋‹ค๋ฉด 1์— ๊ฐ€๊นŒ์šด ๊ฒฐ์ •๊ณ„์ˆ˜๋ฅผ ๊ฐ–๊ณ , ๋ฐ˜๋Œ€๋กœ ๋ณ€์ˆ˜๋“ค๊ฐ„ ํšŒ๊ท€๊ด€๊ณ„๊ฐ€ ์—†๋‹ค๋ฉด 0์— ๊ฐ€๊น๋‹ค.
  1. ๊ณต๋ถ„์‚ฐ vs. ์ƒ๊ด€๊ด€๊ณ„
  • ๊ณต๋ถ„์‚ฐ: ์ƒ๊ด€ ์ •๋„์˜ ์ ˆ๋Œ€์ ์ธ ํฌ๊ธฐ๋ฅผ ์ธก์ • X
  • ์ƒ๊ด€๊ด€๊ณ„: ์ƒ๊ด€ ์ •๋„์˜ ์ ˆ๋Œ€์ ์ธ ํฌ๊ธฐ๋ฅผ ์ธก์ • O
  1. ์ƒ๊ด€๊ณ„์ˆ˜ vs. ๊ฒฐ์ •๊ณ„์ˆ˜
  • ๋‹จ์ˆœํšŒ๊ท€์— ํ•œํ•˜์—ฌ ๊ฒฐ์ •๊ณ„์ˆ˜์˜ ์ œ๊ณฑ๊ทผ = ์ƒ๊ด€๊ณ„์ˆ˜
    • ๋‹ค์ค‘ํšŒ๊ท€/๊ณก์„ ํšŒ๊ท€๋Š” ํ•ด๋‹น์‚ฌํ•ญ ์—†์Œ.

Explained variation(์„ค๋ช…๋ถ„์‚ฐ) vs Uexplained variation(์„ค๋ช…๋˜์ง€ ์•Š๋Š” ๋ถ„์‚ฐ)

image

SST(์ด๋ณ€๋™) = SSR + SSE

Explained variation(์„ค๋ช…๋ถ„์‚ฐ) - SSR

Explained Variance Score = 1 โ€“ ( (Sum of Squared Residuals โ€“ Mean Error) / Total Variance )

์ƒ๊ธฐ ๊ทธ๋ฆผ์—์„œ ๋…น์ƒ‰ ๋ถ€๋ถ„(|predicted - mu|)์— ํ•ด๋‹นํ•˜๋Š” ๋ถ€๋ถ„์œผ๋กœ ์ˆ˜ํ•™์ ์œผ๋กœ ๊ณ„์‚ฐ ๊ฐ€๋Šฅํ•œ ๋ณ€๋™(๋ถ„์‚ฐ)์„ ์„ค๋ช…ํ•˜๋Š” ๋น„์œจ์„ ์ธก์ •ํ•œ๋‹ค

๊ฒฐ์ •๊ณ„์ˆ˜(=R์ œ๊ณฑ)์™€์˜ ์œ ์ผํ•œ ์ฐจ์ด๋Š” SSR์— Mean Error๋ฅผ ๋นผ๋Š” ๊ฒƒ์œผ๋กœ, ๋ชจ๋ธ ํ•™์Šต์— ํŽธํ–ฅ์„ฑ์ด ์กด์žฌํ•  ๊ฒฝ์šฐ Mean Error๊ฐ€ 0์ด ์•„๋‹Œ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ๋œ๋‹ค.

์ด ๊ฒฝ์šฐ, ๊ฒฐ์ •๊ณ„์ˆ˜๊ณผ ์„ค๋ช…๋ถ„์‚ฐ์ ์ˆ˜์˜ ๊ฐ’์ด ๋‹ฌ๋ผ์ง€๊ฒŒ ๋˜์–ด ํŽธํ–ฅ์„ฑ ์œ ๋ฌด๋ฅผ ํŒ๋ณ„ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ผ๋ฐ˜์ ์œผ๋กœ, ํšŒ๊ท€๋ถ„์„๊ณผ ๊ฐ™์€ ๊ฒƒ๋“ค์€ ์ž”์ฐจ์— ํŽธํ–ฅ์ด ์—†๋‹ค๋Š” ์ „์ œ๋กœ ์ˆ˜ํ–‰๋˜๊ธฐ์— ์„ค๋ช…๋ถ„์‚ฐ์ ์ˆ˜๋ฅผ ๋”ฐ์ง€์ง€ ์•Š๋Š”๋‹ค.

Uexplained variation(์„ค๋ช…๋˜์ง€ ์•Š๋Š” ๋ถ„์‚ฐ) - SSE

์ž”์ฐจ์ œ๊ณฑ = 1 โ€“ (Sum of Squared Residuals / Total Variance)

์ƒ๊ธฐ ๊ทธ๋ฆผ์—์„œ ๊ฒ€์ •์ƒ‰ ๋ถ€๋ถ„(|predicted - actual|)์— ํ•ด๋‹นํ•˜๋Š” ๋ถ€๋ถ„์œผ๋กœ ์‹ค์ œ๊ฐ’์€ ์ƒˆ๋กœ ๋“ค์–ด์˜ค๋Š” ๊ฐ’์— ๋”ฐ๋ผ ๊ฐ€๋ณ€์ ์ด๋ฏ€๋กœ ํ•˜๋‚˜์˜ ๊ฐ’์œผ๋กœ ์„ค๋ช… ๋ถˆ๊ฐ€๋Šฅํ•œ ๋ณ€๋™(๋ถ„์‚ฐ)์ด๋‹ค (์ผ๋ฐ˜ '์ž”์ฐจ์ œ๊ณฑํ•ฉ' ์ƒ๊ฐํ•˜๋ฉด ๋จ).

Unexplained variance๋Š” ๋ถ„์‚ฐ ๋ถ„์„ (ANOVA)์— ์‚ฌ์šฉ๋˜๋Š” ์šฉ์–ด๋กœ, ANOVA๋Š” ๋‹ค๋ฅธ ๊ทธ๋ฃน์˜ ํ‰๊ท ์„ ๋น„๊ตํ•˜๋Š” ํ†ต๊ณ„์  ๋ฐฉ๋ฒ•์ด๋‹ค.

d-separation (๋ฐฉํ–ฅ์„ฑ ๋…๋ฆฝ)

๋ฐฉํ–ฅ์„ฑ ๊ทธ๋ž˜ํ”„ ๋ชจํ˜•์—์„œ ์–ด๋–ค ๋‘ ๋…ธ๋“œ(ํ™•๋ฅ ๋ณ€์ˆ˜)๊ฐ€ ์กฐ๊ฑด๋ถ€ ๋…๋ฆฝ์ธ์ง€ ์•„๋‹Œ์ง€ ์•Œ์•„๋ณด๋Š” ๋ฐฉ๋ฒ•

์กฐ๊ฑด๋ถ€ ๋…๋ฆฝ

P(A,B|C) = P(A|C)*P(B|C) , (Aใ…›B)|C ์œผ๋กœ ํ‘œ๊ธฐ๋˜๋ฉฐ, ์กฐ๊ฑด๋ถ€ ๋…๋ฆฝ. A์™€ B ์‚ฌ๊ฑด์€, C์‚ฌ๊ฑด ํ•˜์—์„œ๋Š” ์„œ๋กœ ๋…๋ฆฝ์ด๋‹ค

๊ณ„์ธต์ ์ƒ˜ํ”Œ๋ง

๋ชจ์ง‘๋‹จ์˜ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ๋น„์œจ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ˜ํ”Œ๋ง(์ทจ๋“)ํ•˜๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค.

๊ฐ€๋ น, ๋ชจ์ง‘๋‹จ์˜ ๋‚จ๋…€ ์„ฑ๋น„๊ฐ€ ๊ฐ๊ฐ 54%, 46%๋ผ๊ณ  ํ•œ๋‹ค๋ฉด ์ด ๋ชจ์ง‘๋‹จ์—์„œ ์ทจ๋“ํ•œ ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ ์—ญ์‹œ ๋‚จ๋…€ ์„ฑ๋น„๊ฐ€ ๊ฐ๊ฐ 54%, 46%๊ฐ€ ๋˜๋„๋ก ํ•œ๋‹ค.

Sample Variance๋ฅผ ๊ตฌํ•  ๋•Œ, N๋Œ€์‹ ์— N-1๋กœ ๋‚˜๋ˆ ์ฃผ๋Š” ์ด์œ ๋Š” ๋ฌด์—‡์ธ๊ฐ€?

1. ๋ชจํ‰๊ท ๊ณผ์˜ ์ •ํ™•๋„ ๊ทผ์‚ฌ๋ฅผ ์œ„ํ•ด์„œ

ํ‘œ๋ณธ์„ ๋ฌดํ•œ์ • ์ถ”์ถœํ•˜๋ฉด ํ‘œ๋ณธ๋ถ„์‚ฐ๊ณผ ํ‘œ๋ณธํ‰๊ท ์€ ๋ชจ๋ถ„์‚ฐ๊ณผ ๋ชจํ‰๊ท ์— ์ˆ˜๋ ดํ•˜์—ฌ์•ผ ํ•˜์ง€๋งŒ, ์‹ค์ œ๋กœ N์œผ๋กœ ๋‚˜๋ˆ„์–ด ํ‘œ๋ณธ๋ถ„์‚ฐ์„ ๊ตฌํ•  ๊ฒฝ์šฐ ํ‘œ๋ณธ๋ถ„์‚ฐ๋ณด๋‹ค ๋ชจ๋ถ„์‚ฐ์ด ๋” ํฐ ํ˜„์ƒ์ด ๋ฐœ์ƒํ•œ๋‹ค. ๋”ฐ๋ผ์„œ, ํ‘œ๋ณธ๋ถ„์‚ฐ๊ณผ ๋ชจ๋ถ„์‚ฐ์˜ ์ฐจ์ด๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•˜์—ฌ ํ‘œ๋ณธ๋ถ„์‚ฐ์˜ ํฌ๊ธฐ๋ฅผ ํ‚ค์šฐ๊ณ ์ž ๋ถ„๋ชจ์— N ๋Œ€์‹  N-1์„ ๋ถ„๋ชจ์—์„œ ์‚ฌ์šฉํ•œ๋‹ค.

2. ์ž์œ ๋„ (Degree of Freedom)

๋ถ„์‚ฐ์€ ํŽธ์ฐจ ์ œ๊ณฑ์˜ ํ‰๊ท ์ด๋ฏ€๋กœ, ํ‘œ๋ณธํ‰๊ท ์„ ์•Œ๊ณ  ์žˆ๋‹ค๋Š” ์ „์ œ๋กœ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ’์ด๋‹ค. ๋”ฐ๋ผ์„œ, ํŽธ์ฐจ ์ œ๊ณฑ์˜ ํ‰๊ท ์„ ๊ตฌํ•  ๋•Œ ๋ถ„๋ชจ์— N ๋Œ€์‹  N-1์„ ์‚ฌ์šฉํ•˜๋ฉด, ์šฐ๋ฆฌ๋Š” ํ‘œ๋ณธํ‰๊ท ์„ ์•Œ๊ณ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋งˆ์ง€๋ง‰ ์ถ”์ •๊ฐ’์„ ๋” ๋‚˜์€ ํ†ต๊ณ„์น˜ ๋„์ถœ์„ ์œ„ํ•ด ์ž์œ ๋กญ๊ฒŒ ์ œ์™ธํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋ฅผ ํ† ๋Œ€๋กœ, ์šฐ๋ฆฌ๋Š” ํ‘œ๋ณธ๋ถ„์‚ฐ์˜ ์ž์œ ๋„๊ฐ€ N-1์ž„์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

Conjugate Prior(์ผค๋ ˆ์‚ฌ์ „๋ถ„ํฌ)

๋ฒ ์ด์ฆˆ ํ™•๋ฅ ๋ก ์—์„œ ์‚ฌํ›„ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•จ์— ์žˆ์–ด ์‚ฌํ›„ ํ™•๋ฅ ์ด ์‚ฌ์ „ ํ™•๋ฅ  ๋ถ„ํฌ์™€ ๊ฐ™์€ ๋ถ„ํฌ ๊ณ„์—ด์— ์†ํ•˜๋Š” ๊ฒฝ์šฐ ๊ทธ ์‚ฌ์ „ํ™•๋ฅ ๋ถ„ํฌ๋Š” ์ผค๋ ˆ ์‚ฌ์ „๋ถ„ํฌ(Conjugate Prior)์ด๋‹ค.

์ผค๋ ˆ์‚ฌ์ „๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๋Š” ์‚ฌํ›„๋ถ„ํฌ์˜ ๊ณ„์‚ฐ์ด ํŽธ๋ฆฌํ•ด์ง€๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

์ •ํ™•๋„(accuracy) vs. ์ •๋ฐ€๋„(precision) vs. ์žฌํ˜„์œจ(recall)

์ •ํ™•๋„ : ์˜ˆ์ธก์ด ์ •๋‹ต๊ณผ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•œ๊ฐ€?

์ •๋ฐ€๋„ : ์˜ˆ์ธกํ•œ ๊ฒƒ์ค‘์— ์ •๋‹ต์˜ ๋น„์œจ์€?

์žฌํ˜„์œจ : ์ฐพ์•„์•ผ ํ•  ๊ฒƒ์ค‘์— ์‹ค์ œ๋กœ ์ฐพ์€ ๋น„์œจ์€?

Precision Recall Curve image

  • x์ถ•์„ recall, y์ถ•์„ precision์œผ๋กœ ํ•˜๋Š” ์ปค๋ธŒ๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

Confusion Matrix(FN, TN, TP, FP) with precision and recall

image

  1. TP (True Positive): ์–‘์„ฑ(๊ธ์ •์  ๊ฒฐ๊ณผ)์ด๋ผ๊ณ  ์˜ˆ์ธกํ•œ ๊ฒƒ์ด ์ •๋‹ต์ผ ๋•Œ
  • ์ฆ‰ ์‹ค์ œ๋กœ Positive์ธ ๊ฒƒ์„ ์ž˜ ๋งž์ท„์Œ
  1. TN (True Negative): ์Œ์„ฑ(๋ถ€์ •์  ๊ฒฐ๊ณผ)์ด๋ผ๊ณ  ์˜ˆ์ธกํ•œ ๊ฒƒ์ด ์ •๋‹ต์ผ ๋•Œ
  • ์ฆ‰ ์‹ค์ œ๋กœ Negative์ธ ๊ฒƒ์„ ์ž˜ ๋งž์ท„์Œ
  1. FP (False Positive): ์–‘์„ฑ(๊ธ์ •์  ๊ฒฐ๊ณผ)์ด๋ผ๊ณ  ์˜ˆ์ธกํ•œ ๊ฒƒ์ด ์˜ค๋‹ต์ผ ๋•Œ
  • ์ฆ‰ ์‹ค์ œ Negative์ธ ๊ฒƒ์„ Positive๋กœ ์˜ˆ์ธกํ•ด์„œ ํ‹€๋ ธ์Œ
  1. FN (False Negative): ์Œ์„ฑ(๋ถ€์ •์  ๊ฒฐ๊ณผ)์ด๋ผ๊ณ  ์˜ˆ์ธกํ•œ ๊ฒƒ์ด ์˜ค๋‹ต์ผ ๋•Œ
  • ์ฆ‰ ์‹ค์ œ Positive์ธ ๊ฒƒ์„ Negative๋กœ ์˜ˆ์ธกํ•ด์„œ ํ‹€๋ ธ์Œ

Frequentist vs. Beyas vs. Naive Beyas(๋‚˜์ด๋ธŒ ๋ฒ ์ด์Šค)

Frequentist

ํ™•๋ฅ ์„ ๊ฐ๊ด€์ ์œผ๋กœ ๋ฐœ์ƒํ•˜๋Š” ํ˜„์ƒ์ด๋ผ ๋ณธ๋‹ค (i.e., ์ฃผ์‚ฌ์œ„ ํ•œ ๋ฒˆ ๊ตด๋ฆด ๋•Œ 1/6); ์ฐธ๋œ ํ™•๋ฅ ๊ฐ’์€ ๊ณ ์ •๊ฐ’์„ ๊ฐ€์ง„๋‹ค.

๊ฐ ํ™˜์ž์˜ ๋ณ‘์€ ๋…๋ฆฝ์ ์ด๋ผ ํŒ๋‹จํ•˜์—ฌ ํ•ด๋‹น ํ™˜์ž๋ฅผ ์ง์ ‘ ๊ฒ€์‚ฌํ•˜์—ฌ source of pain์„ ์ฐพ๋Š”๋‹ค.

Beyas ์ •๋ฆฌ

image image

๋‘ ํ™•๋ฅ  ๋ณ€์ˆ˜์˜ ์‚ฌ์ „ ํ™•๋ฅ ๊ณผ ์‚ฌํ›„ ํ™•๋ฅ  ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ •๋ฆฌ์ด๋‹ค.

์ด๋ฏธ ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚ฌ๊ณ (i.e., ์ฐฝ๊ณ ์˜ ๋ถˆ๋Ÿ‰ ์ฒญ๋ฐ”์ง€), ์‚ฌ๊ฑด๋ฐœ์ƒ์˜ ์›์ธ์— ๋Œ€ํ•œ ํ™•๋ฅ (i.e., ์‚ฌํ›„ํ™•๋ฅ  = ์ด ์ฐฝ๊ณ ์˜ ๋ถˆ๋Ÿ‰ ์ฒญ๋ฐ”์ง€๋Š” ์–ด๋–ค ๊ณต์žฅ์—์„œ ๋ถˆ๋Ÿ‰์ƒ์‚ฐ๋˜์–ด ์˜จ๊ฒƒ์ผ๊นŒ?)์„ ์‚ฌ๊ฑด๋ฐœ์ƒ์ „์— ์ด๋ฏธ ์•Œ๊ณ  ์žˆ๋Š” ์ •๋ณด(i.e., ์‚ฌ์ „ํ™•๋ฅ  = ๊ตฌ๋ฏธ, ์ฒญ์ฃผ, ๋Œ€๊ตฌ ๊ณต์žฅ์˜ ๋ถˆ๋Ÿ‰๋ฅ )์„ ์ด์šฉํ•˜์—ฌ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด๋ผ ํ•˜๊ฒ ๋‹ค.

Naive Beyas

ํ˜„์ƒ์— ๋Œ€ํ•œ ๊ด€์ฐฐ์ž์˜ ์ฃผ๊ด€์  ๋ฏฟ์Œ์˜ ์ฒด๊ณ„๋กœ์จ ํŒ๋‹จํ•˜๊ณ  ์‚ฌ์ „ํ™•๋ฅ ์„ ๊ณ ๋ คํ•˜์—ฌ ๊ณผ๊ฑฐ์˜ ์‚ฌ๊ฑด์ด ํ˜„์žฌ ์‚ฌ๊ฑด์— ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•œ๋‹ค; ์ฐธ๋œ ํ™•๋ฅ ๊ฐ’์„ ์ƒ์ˆ˜๊ฐ€ ์•„๋‹Œ ๋ถ„ํฌ, ์ฆ‰ ํ™•๋ฅ  ๋ณ€์ˆ˜๋ผ ์—ฌ๊ธด๋‹ค.

๊ฐ ํŠน์ง•๋“ค์€ ์„œ๋กœ '๋…๋ฆฝ์ '์ด๋ผ๋Š” ์ ์—์„œ ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์™€ ์ฐจ์ด์ ์ด ์žˆ๋‹ค.

๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ ํด๋ž˜์Šค์— ์†ํ•  ํŠน์ง• ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•˜๋Š” ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ๊ธฐ๋ฐ˜์˜ ๋ถ„๋ฅ˜ ๋ฐฉ๋ฒ•์ด๋‹ค.

๋น„์Šทํ•œ ์ฆ์ƒ์˜ ์ด์ „ ํ™˜์ž์˜ ์ฆ์ƒ๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ source of pain์„ ์ฐพ๋Š”๋‹ค.

image image

์‹ค์ œ ์ƒํ™ฉ์—์„œ๋Š” ๋ณ€์ˆ˜๋“ค์ด ์„œ๋กœ ์•Œ๊ฒŒ๋ชจ๋ฅด๊ฒŒ ์˜์กด๋˜์–ด ์žˆ์–ด์„œ ๋ชจ๋ธ ํ•™์Šต์— ์ ์šฉํ•˜๊ธฐ ์–ด๋ ต๋‹ค.

์ด๋Ÿฌํ•œ ํ•œ๊ณ„๋ฅผ ํƒˆํ”ผํ•˜์—ฌ ์—ฌ๋Ÿฌ '๋…๋ฆฝ๋ณ€์ˆ˜'๋“ค๋กœ์จ ๋ชจ๋ธ ํ•™์Šต์— ํ™œ์šฉํ•˜๊ณ ์ž ๊ฐ€์ •ํ•˜์—ฌ Naive๋ผ ์ด๋ฆ„ ๋ถ™์—ฌ์กŒ๋‹ค.

  1. Prior Probability

image

์ „์ฒด ๋ฐ์ดํ„ฐ ์ˆ˜์—์„œ ๊ฐ ์ง‘ํ•ฉ ๋ฐ์ดํ„ฐ ์ˆ˜์˜ ๋น„์œจ์„ ๊ตฌํ•œ ๊ฐ’์„ '์‚ฌ์ „ํ™•๋ฅ '๋กœ ํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋””์— ๋ถ„๋ฅ˜๋ ์ง€ ์˜ˆ์ธกํ•œ๋‹ค.

  1. Likelihood (์šฐ๋„)

image

image

์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ์ฃผ๋ณ€์—์„œ ํ•œ ์›์— ์†ํ•˜๋Š” ๋ฒ”์ฃผ ์•ˆ์— ์†ํ•œ ๋นจ๊ฐ„/ํŒŒ๋ž€๊ณต ๋น„์œจ์„ ๊ฐ๊ฐ ๋„์ถœํ•˜์—ฌ ๋” ํฐ '์šฐ๋„'๋ฅผ ๊ฐ–๋Š” ์ง‘ํ•ฉ์œผ๋กœ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•œ๋‹ค.

  1. Posterior Probability

image

'์‚ฌํ›„ํ™•๋ฅ '์€ ์‚ฌ์ „ํ™•๋ฅ ์— ์šฐ๋„๋ฅผ ๊ณฑํ•œ ๊ฐ’์œผ๋กœ, ์‚ฌํ›„ํ™•์œจ์„ ํ†ตํ•˜์—ฌ ์ตœ์ข…์ ์œผ๋กœ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์˜ ๋ถ„๋ฅ˜ ์ง‘ํ•ฉ์„ ๊ฒฐ์ •ํ•œ๋‹ค.

1-norm vs. 2-norm

image

ํŽธ๋ฏธ๋ถ„์ด๋ž€?

ํŽธ๋ฏธ๋ถ„์€ ํ•จ์ˆ˜์˜ ๋ณ€์ˆ˜๊ฐ€ 1๊ฐœ๊ฐ€ ์•„๋‹Œ 2๊ฐœ ์ด์ƒ์˜ ํ•จ์ˆ˜์—์„œ ๋ณ€์ˆ˜ 1๊ฐœ์˜ ๋ณ€ํ™”์— ๋”ฐ๋ฅธ ๊ธฐ์šธ๊ธฐ๋ฅผ ์•Œ๊ณ  ์‹ถ์„ ๋•Œ ์‚ฌ์šฉ๋œ๋‹ค.

z = f(x, y)์—์„œ z๊ฐ’์— ์˜ํ–ฅ์„ ๋ผ์น˜๋Š” ๋ณ€์ˆ˜๊ฐ€ x, y ๋‘ ๊ฐœ์ธ๋ฐ, ์ด ๋ณ€์ˆ˜๋“ค์ด ์ œ๊ฐ๊ฐ ์›€์ง์ธ๋‹ค๋ฉด ๋ฌด์—‡์ด z์— ์˜ํ–ฅ์„ ์ฃผ๋Š”์ง€ ์•Œ ์ˆ˜ ์—†์Œ์œผ๋กœ, ํ•˜๋‚˜์˜ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋ฏธ๋ถ„ (= ํŽธ๋ฏธ๋ถ„)์„ ์ ์šฉํ•ด์„œ z๊ฐ’์— ์˜ํ–ฅ์„ ์ฃผ๋Š” ๋ณ€์ˆ˜๋ฅผ ์ฐพ๊ณ ์ž ํ•œ๋‹ค.


Lienar Algebra

Linearly Independent/Dependent

image

Basis(๊ธฐ์ €) vs. Dimension(์ฐจ์›)

๊ธฐ์ €

image

์–ด๋–ค ๋ฒกํ„ฐ๊ณต๊ฐ„ V์˜ ๋ฒกํ„ฐ๋“ค์ด ์„ ํ˜•๋…๋ฆฝ์ด๋ฉด์„œ ๋ฒกํ„ฐ๊ณต๊ฐ„ V ์ „์ฒด๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒกํ„ฐ๋“ค์˜ ์ง‘ํ•ฉ์ด๋‹ค.

๋‹ค๋ฅธ ๋ง๋กœ, R^m์˜ ์ž„์˜์˜ ์›์†Œ๋ฅผ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ์ตœ์†Œํ•œ์˜ ๋ฒกํ„ฐ๋กœ ์ด๋ฃจ์–ด์ง„ ์ง‘ํ•ฉ์ด๋‹ค.

๊ธฐ์ €๋Š” ํ•œ ๊ณต๊ฐ„์„ ๊ตฌ์„ฑ ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒกํ„ฐ ์ง‘ํ•ฉ์ด๋‹ค.

์ฐจ์›

๊ธฐ์ € ๋ฒกํ„ฐ์˜ ๊ฐฏ์ˆ˜๋ฅผ ์ฐจ์›(dimension)์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.

๊ฐ€๋ น, 3์ฐจ์› ๊ณต๊ฐ„์„ ๊ตฌ์„ฑํ•˜๋Š”๋ฐ๋Š” 3๊ฐœ์˜ ๊ธฐ์ €๋ฒกํ„ฐ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

์˜๊ณต๊ฐ„์˜ ์ฐจ์›์€ 'nullity'์ด๋‹ค.

Span

๋ฒกํ„ฐ๋“ค์„ ์ด์šฉํ•˜์—ฌ ์„ ํ˜•๊ฒฐํ•ฉ์„ ์ด๋ฃจ์–ด ๋ฒกํ„ฐ ์ŠคํŽ˜์ด์Šค๋ฅผ ๋งŒ๋“œ๋Š” ๊ณผ์ •์„ span์ด๋ผ ํ•œ๋‹ค.

์‚ฌ์šฉํ•˜๋Š” ๋ฒกํ„ฐ์— ๋”ฐ๋ผ์„œ๋Š” ๋ชจ๋“  ๊ณต๊ฐ„์„ ์ฑ„์šธ ์ˆ˜๋„ ์žˆ๊ณ , ํ˜น์€ 2์ฐจ์›์—์„  Line, 3์ฐจ์› ๊ณต๊ฐ„์—์„  ํ‰๋ฉด(Plane)๊ณผ ๊ฐ™์ด ๋ถ€๋ถ„์ ์ธ ๊ณต๊ฐ„๋งŒ์„ ์ฑ„์šธ ์ˆ˜๋„ ์žˆ๋‹ค.

๋ฒกํ„ฐ๊ณต๊ฐ„(Vector space) and ๋ถ€๋ถ„๊ณต๊ฐ„(Subspace)

๋ฒกํ„ฐ๊ณต๊ฐ„

์–ด๋–ค ๋ฒกํ„ฐ ์ง‘ํ•ฉ์ด ์žˆ์„๋•Œ, ๊ทธ ๋ฒกํ„ฐ๋“ค๋กœ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๊ณต๊ฐ„์„ ๋ฒกํ„ฐ ๊ณต๊ฐ„์ด๋ผ ํ•œ๋‹ค.

๋ถ€๋ถ„๊ณต๊ฐ„

์–ด๋–ค ๋ฒกํ„ฐ์ง‘ํ•ฉ์˜ ์ผ๋ถ€๋ถ„์œผ๋กœ ๋งŒ๋“  ๊ณต๊ฐ„์„ ์ „์ฒด ๊ณต๊ฐ„์˜ ๋ถ€๋ถ„ ๊ณต๊ฐ„์ด๋ผ ํ•œ๋‹ค.

์˜ˆ๋ฅผ๋“ค์–ด ๊ธฐ์ €๋ฒกํ„ฐ 3๊ฐœ๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•˜๋ฉด, ๊ทธ 3๊ฐœ์˜ ๋ฒกํ„ฐ๋กœ ๋งŒ๋“ค์ˆ˜ ์žˆ๋Š” ๊ณต๊ฐ„์„ ์ „์ฒด ๋ฒกํ„ฐ๊ณต๊ฐ„์ด๋ผ๊ณ  ํ•˜๋ฉฐ, ๊ธฐ์ €๋ฒกํ„ฐ 3๊ฐœ ์ค‘ ์ผ๋ถ€์ธ 2๊ฐœ๋‚˜ 1๊ฐœ๋งŒ ์‚ฌ์šฉํ•ด์„œ ๋งŒ๋“ค์ˆ˜ ์žˆ๋Š” ๊ณต๊ฐ„์ด ๋ถ€๋ถ„๊ณต๊ฐ„์ž…๋‹ˆ๋‹ค.

๋‹ค๋ฅธ ์˜ˆ์‹œ๋กœ, ์ „์ฒด ๊ณต๊ฐ„์„ 3์ฐจ์› ๊ณต๊ฐ„์ด๋ผ ํ–ˆ์„๋•Œ ์ „์ฒด ๊ณต๊ฐ„์˜ ์ผ๋ถ€์ธ ์„ (line)์ด๋‚˜ ๋ฉด(plane)์€ 3์ฐจ์› ๊ณต๊ฐ„์˜ ๋ถ€๋ถ„๊ณต๊ฐ„์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์ฃ .

Positive-definite(์–‘์˜ ์ •๋ถ€ํ˜ธ, ์ •์ •ํ–‰๋ ฌ) vs. Negative-definite(์Œ์˜ ์ •๋ถ€ํ˜ธ)

์„ฑ๋ถ„์ด ๋ชจ๋‘ ์‹ค์ˆ˜์ด๊ณ  ๋Œ€์นญ์ธ nxn ์ •๋ฐฉํ–‰๋ ฌ A๊ฐ€ 0์ด ์•„๋‹Œ x์— ๋Œ€ํ•ด ๋‹ค์Œ ๋ถ€๋“ฑ์‹์„ ํ™•์ธํ•˜๋ผ.

์ •์ • ํ–‰๋ ฌ

image image

ํ•ด๋‹น ํ–‰๋ ฌ์ด ๊ทน์†Œ์ ์„ ๊ฐ–๋Š”๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

์ค€์ •์ • ํ–‰๋ ฌ

image

์Œ์˜ ์ •๋ถ€ํ˜ธ

image

image

ํ•ด๋‹น ํ–‰๋ ฌ์ด ๊ทน๋Œ€์ ์„ ๊ฐ–๋Š”๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

์„ ํ˜•๋ณ€ํ™˜ vs. ๋น„์„ ํ˜•๋ณ€ํ™˜

์„ ํ˜•๋ณ€ํ™˜

image image

๊ธฐํ•˜ํ•™์ ์œผ๋กœ ์„ ํ˜•๋ณ€ํ™˜์ด๋ž€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŠน์ง•์„ ๊ฐ€์ง„ ๋ณ€ํ™˜์ด๋‹ค.

  • ๋ณ€ํ™˜ ํ›„์—๋„ ์›์ ์˜ ์œ„์น˜๊ฐ€ ๋ณ€ํ•˜์ง€ ์•Š๋Š”๋‹ค.
  • ๋ณ€ํ™˜ ํ›„์—๋„ ๊ฒฉ์ž๋“ค์˜ ํ˜•ํƒœ๊ฐ€ ์ง์„ ์˜ ํ˜•ํƒœ๋ฅผ ์œ ์ง€ํ•˜๊ณ  ์žˆ๋‹ค.
  • ๊ฒฉ์ž ๊ฐ„์˜ ๊ฐ„๊ฒฉ์ด ๊ท ๋“ฑํ•˜๋‹ค.

๋น„์„ ํ˜•๋ณ€ํ™˜

image image

Jacobian Matrix

image

๋น„์„ ํ˜• ๋ณ€ํ™˜์„ ์„ ํ˜• ๋ณ€ํ™˜์œผ๋กœ ๊ทผ์‚ฌ์‹œํ‚ค๋Š” ํ–‰๋ ฌ์ด๋‹ค.

์ƒ๊ธฐ ์‚ฌ์ง„์—์„œ ๋น„์„ ํ˜•๋ณ€ํ™˜์€ ์ฐจ์›์˜ ๊ท ์—ด์ด ๋ฐœ์ƒํ•˜์—ฌ ์„ ํ˜•์˜ ํ˜•ํƒœ๊ฐ€ ์‚ฌ๋ผ์ง€์ง€๋งŒ, ์ง€์ฝ”๋น„์•ˆ ํ–‰๋ ฌ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๊ตญ์†Œ์ ์œผ๋กœ ๊ด€์ฐฐํ•ด๋ณด๋ฉด ๋งˆ์น˜ ์„ ํ˜•๋ณ€ํ™˜์„ ์ทจํ•œ ๊ฒƒ์ฒ˜๋Ÿผ ์ง์„ ์œผ๋กœ ํ‘œํ˜„๋œ๋‹ค.

Eigen Vector & Eigen Value, ๊ทธ๋ฆฌ๊ณ  ์˜์˜

image

Eigen Vector

์„ ํ˜•๋ณ€ํ™˜์„ ์ทจํ•˜์˜€์„ ๋•Œ, ๋ฐฉํ–ฅ์€ ๋ณ€ํ•˜์ง€ ์•Š๊ณ  ํฌ๊ธฐ๋งŒ ๋ณ€ํ•˜๋Š” ๋ฒกํ„ฐ๋ฅผ ๊ณ ์œ ๋ฒกํ„ฐ๋ผ ์ผ์ปซ๋Š”๋‹ค.

Eigen Value

๊ณ ์œ ๋ฒกํ„ฐ๊ฐ€ ๋ฐฉํ–ฅ์€ ์œ ์ง€ํ•œ ์ฑ„ ํฌ๊ธฐ๋งŒ ๋ณ€ํ•œ๋‹ค๊ณ  ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋‹ค.

์—ฌ๊ธฐ์„œ, ๊ณ ์œ ๊ฐ’์€ ๊ทธ ํฌ๊ธฐ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋ณ€ํ•˜๋Š”์ง€๋ฅผ ์˜๋ฏธํ•œ๋‹ค.

์˜์˜

๊ณ ์œ ๊ฐ’/๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ •๋ฐฉํ–‰๋ ฌ์— ๋Œ€ํ•˜์—ฌ ๋™์ž‘ํ•˜๋Š” eigendecomposition(๋Œ€๊ฐํ™”)๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.

  • eigendecomposition๊ฐ€ ๊ฐ€๋Šฅํ•˜๋ ค๋ฉด, ํ–‰๋ ฌ A๊ฐ€ n๊ฐœ์˜ linearly independentํ•œ ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ๊ฐ€์ ธ์•ผ ํ•œ๋‹ค.

์ด ๋Œ€๊ฐํ™”๋Š” AI์—์„œ PCA ๊ธฐ๋ฒ•์— ํ™œ์šฉ๋œ๋‹ค.

์ง๊ต(orthogonal)์™€ ์ •๊ทœ์ง๊ต(orthonormal), ๊ทธ๋ฆฌ๊ณ  ์ง๊ตํ–‰๋ ฌ(orthogonal matrix)

orthogonal: v1ยทv2 = 0

  • ๋‘ ๋ฒกํ„ฐ ๋‚ด์ ๊ฐ’์ด 0์ด๋ฉด, ๊ทธ๋“ค์€ ์ง๊ตํ•œ๋‹ค.

orthonormal: v1ยทv2 = 0 & โˆฅv1โˆฅ = 1, โˆฅv2โˆฅ = 1

  • ๋‘ ๋ฒกํ„ฐ์˜ ๋‚ด์ ์ด 0์ด๊ณ  ๋ฒกํ„ฐ ๊ฐ๊ฐ ํฌ๊ธฐ๊ฐ€ 1์ด๋ผ๋ฉด, ๊ทธ๋“ค์€ ์ •๊ทœ์ง๊ตํ•œ๋‹ค.

์ง๊ตํ–‰๋ ฌ(orthogonal matrix)

image

์ˆ˜ํ•™์ ์œผ๋กœ ์ „์น˜ํ–‰๋ ฌ(transpose)๋ฅผ ์—ญํ–‰๋ ฌ๋กœ ๊ฐ–๋Š” ์ •๋ฐฉํ–‰๋ ฌ(nxn)์ด๋‹ค.

์ง๊ตํ–‰๋ ฌ(orthogonal matrix)์€ transpose๋ฅผ ์‹œํ‚ค๋ฉด ์ž์‹ ์˜ ์—ญํ–‰๋ ฌ์ด ๋˜๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค์–‘ํ•œ ์„ ํ˜•๋Œ€์ˆ˜ํ•™ ๊ณ„์‚ฐ์—์„œ ๋งค์šฐ ํŽธ๋ฆฌํ•œ ์„ฑ์งˆ์„ ๊ฐ€์ง„ ํ–‰๋ ฌ์ด๋‹ค.

Determinant

๊ทธ ํ–‰๋ ฌ์˜ ํŠน์„ฑ์„ ๊ฒฐ์ •์ง“๋Š” ์ค‘์š”ํ•œ ๊ฐ’์œผ๋กœ, ์—ญํ–‰๋ ฌ์ฒ˜๋Ÿผ ์ •๋ฐฉํ–‰๋ ฌ์— ๋Œ€ํ•ด์„œ๋งŒ ์ •์˜๋œ๋‹ค

Rank & Null space

Rank: linearly independentํ•œ column vector์˜ ์ตœ๋Œ€ ๊ฐฏ์ˆ˜(pivot ๊ฐœ์ˆ˜)

Null space: Ax=0์„ ๋งŒ์กฑ์‹œํ‚ค๋Š” ๋ฒกํ„ฐ x์˜ ๋ชจ์ž„

image