-
๋ณธ ์ฐ๊ตฌ๋ (์ฃผ)๋ง์ปค์ (์ฃผ)๋ฏธ๋์ด๊ทธ๋ฃน์ฌ๋๊ณผ์ฒ์ ์คํ์์ค LLM ์ฐ๊ตฌ ์ปจ์์์์์ ์งํ๋์์ต๋๋ค.
-
ํ๊ตญ ์คํ์์ค ์ปค๋ฎค๋ํฐ์ ๋ฒ์๊ณผ, ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์ ๋ฐ์ ์ ๊ธฐ์ํฉ๋๋ค.
-
์ด Repo๋
Self Supervised Learning
๋งค๋๋ก Corpus์์ Fine-tuning Data๋ฅผ ์์ฑํ๊ธฐ ์ํ repository ์ ๋๋ค. -
ํ๊ตญ LLM ์ํ๊ณ์ ๊ฒฝ์ฐ, ๊ณ ํ์ง์ Fine-tuning ๋ฐ์ดํฐ์ ์ด ๋งค์ฐ ๋ถ์กฑํฉ๋๋ค.
-
GPT4๋ Gemini๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ฌ ํ์ฉํ ์ ์์ง๋ง, ํ์ฌ ๊ฐ ๋ผ์ด์ผ์ค์์ ๊ฐ ๋ชจ๋ธ์ ํตํด ์์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฒฝ์ํ๋ ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉํ๋๊ฑด ํ์ฌ ๋ผ์ด์ผ์ค ์๋ฐ์ผ๋ก ๋์ ์์ต๋๋ค.
- ์์ธํ ๋ด์ฉ์ Open AI์ ๋ผ์ด์ผ์ค๋ฅผ ์ฐธ๊ณ ๋ฐ๋๋๋ค.
-
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ํจ์จ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก, ๋ผ์ด์ผ์ค Freeํ ๋ฐ์ดํฐ์ ์ ๋ง๋ค๊ธฐ ์ํ ๋ฐฉ๋ฒ๋ก ์ ๊ณต์ ํ๊ณ ์ ์ด๋ ๊ฒ ๊นํ๋ธ repo๋ฅผ ์์ฑํ๊ฒ ๋์์ต๋๋ค.
-
๊ธฐ์กด ํ๊น ํ์ด์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ์๋, ์ ์๊ถ ๋ ผ์๊ฐ ์ด๋ฃจ์ด์ง๊ณ ์์ด SSL ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ์ง ์๋ ๋ฐ์ดํฐ์ ์
-
AI-Hub
์ ๋ง๋ญ์น๋ฅผ ํ์ฉํ์ฌ ๋ฐ์ดํฐ์ ์ ์์ฑํ๋ ๋ฐฉ๋ฒ๋ก ์ ๊ณต์ ํฉ๋๋ค.-
์ฌ์ฉ ๋ฐ์ดํฐ ๋ฆฌ์คํธ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
-
์ 4๊ฐ์ ๋ฐ์ดํฐ์ ๋ํด์ ๊ฐ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ์ฝ๋๋ฅผ ๊ณต์ ํ๋๋ก ํ๊ฒ ์ต๋๋ค.
-
- 1. Multi question
-
์ ๋ฐ์ดํฐ๋, ์ฃผ์ด์ง๋ ๋ค์ํ ์ง๋ฌธ์ ๋ชจ๋ธ์ด ์ดํดํ๊ณ , ๊ฐ ์ง๋ฌธ์ ๋ํด์ ๋ชจ๋ธ์ด ๋ตํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ๊ตฌ์ฑํ ๋ฐ์ดํฐ ์ ๋๋ค.
-
์ฐ์์ ์ธ ์ง๋ฌธ์ ๋๋ตํ๋ ๊ฒ์ ๋งค์ฐ ๊น๋ค๋ก์ด task์ด๋ฉฐ, ์ด๋ฅผ ๊ณ ๋ คํ์ฌ ํฅํ RAG์ ๊ฐ์ ์์คํ ๋ด์์์์๋ ๋ฉํฐํด ํ์คํฌ์ ๋์ ํ ์ ์๋๋ก ์์ฑํ์์ต๋๋ค.
-
<Instruction>
์ฃผ์ด์ง ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ง๋ฌธ์ ๋ตํ์ธ์. ๋ต์ ๋ชจ๋ฅธ๋ค๋ฉด ๋ต์ ์ง์ด๋ด์ง ๋ง๊ณ ๊ทธ๋ฅ ๋ชจ๋ฅธ๋ค๊ณ ๋งํ์ธ์.
1839๋
๋ฐ๊ทธ๋๋ ๊ดดํ
์ ํ์ฐ์คํธ์ ์ฒ์ ์ฝ๊ณ ๊ทธ ๋ด์ฉ์ ๋ง์์ด...
์ง๋ฌธ:
1. ๋ฐ๊ทธ๋๋ ๊ดดํ
์ ํ์ฐ์คํธ๋ฅผ ์ฝ๊ณ ๋ฌด์์ ์ฐ๊ณ ์ ํ๋๊ฐ?
2. ๋ฐ๊ทธ๋๋ ๊ตํฅ๊ณก ์๊ณก์ ์ด๋๊น์ง ์ด ๋ค์ ์ค๋จํ๋๊ฐ?
3. ๋ฐ๊ทธ๋๊ฐ ํ์ฐ์คํธ ์๊ณก์ ์ธ ๋ ์ด๋ค ๊ณก์ ์ํฅ์ ๋ฐ์๋๊ฐ?
4. 1839๋
๋ฐ๊ทธ๋๊ฐ ๊ตํฅ๊ณก์ ์์ฌ๋ก ์ฐ๋ ค๊ณ ํ๋ ์ฑ
์?
5. ํ์ฐ์คํธ ์๊ณก์ ๋ผ๋จ์กฐ ์กฐ์ฑ์ด ์ํฅ์ ๋ฐ์ ๋ฒ ํ ๋ฒค์ ๊ณก์?
6. ๋ฐ๊ทธ๋๊ฐ ํ์ฐ์คํธ๋ฅผ ์ฒ์์ผ๋ก ์ฝ์ ๋
๋๋?
7. ๋ฐ๊ทธ๋๊ฐ ์ฒ์ ๊ตํฅ๊ณก ์๊ณก์ ํ ์ฅ์๋?
8. ๋ฐ๊ทธ๋์ 1์
์ฅ์ ์ด์ฐ์ ์ด๋์ ์ฐ์ฃผ๋์๋๊ฐ?
<Answer>
1. ๊ตํฅ๊ณก
2. 1์
์ฅ
3. ๋ฒ ํ ๋ฒค์ ๊ตํฅ๊ณก 9๋ฒ
4. ํ์ฐ์คํธ
5. ํฉ์ฐฝ๊ตํฅ๊ณก
6. 1839
7. ํ๋ฆฌ
8. ๋๋ ์ค๋ด
- 2. Summary & Instruction-Answer
-
์ ๋ฐ์ดํฐ๋, ์ฃผ์ด์ง ๋ฌธ์ฅ์ ํตํด ์ ์ ํ ์ ๋ชฉ์ ์์ฑํ๊ณ , ๋ด์ฉ์ ์์ฝํ๊ธฐ ์ํ ๋ฐ์ดํฐ ์ ๋๋ค.
-
๋ชจ๋ธ์ด ์ฃผ์ด์ง ์ ๋ณด ๊ธฐ๋ฐ์์ ๋งฅ๋ฝ์ ์ดํดํ๊ณ , ์์ฒญ์ ์ ์ ํ ๋ต์ ์ํํ๊ธฐ ์ํ ๋ชฉ์ ์์ ๊ณ ์๋ ๋ฐ์ดํฐ ๊ตฌ์ฑ ๋ฐฉ์์ ๋๋ค.
-
<Instruction>
์ฃผ์ด์ง ๋ฌธ์ฅ์ ์ ์ ํ ์ ๋ชฉ์ ์์ฑํ๊ณ , ๋ด์ฉ์ ์์ฝํด์ฃผ์ธ์.
๋ฌธ์ฅ: ์๊ณ ๊ฐ ์์ํ์ฌ์ ๋
ธ๋์กฐํฉ์์ ๋ถ๊ท๊ฐ ๋ฐ์ํ์ ๋
ธ์กฐํ๋์ ๊ตฌ์ค๋ก ์ ์์ ์ธ ๊ทผ๋ฌด๋ฅผ ํดํํ๊ณ , ...
<Answer>
์ ๋ชฉ: ๋ถ๋น๋
ธ๋ํ์๊ตฌ์ ์ฌ์ฌํ์ ์ทจ์
์๊ณ ๊ฐ ์ฃผ๋ํ์ฌ ํ์ฌ์
๋ฌด๋ฅ๋ฅ ์ ์ ํดํ๊ณ ํ์ฌ์
๋ฌด์์ ์งํ๋ช
๋ น์ ์๋ฐํ์๋ค๋ฉด ์ด์ ๋ฐ๋ฅธ ์ง๊ณํด๊ณ ๋ ์ฌ๋ด์ง์๋ฅผ ์ ์งํ๊ธฐ ์ํ ์ฌ์ฉ์ ๊ณ ์ ์ ์ ๋นํ ์ง๊ณ๊ถ์ ํ์ฌ๋ก ๋ณด์์ผ ํ๋ค.
- 3. Original sentence inference
-
์ ๋ฐ์ดํฐ๋, ์ฃผ์ด์ง ์์ฝ๋ฌผ์ ๊ธฐ๋ฐ์ผ๋ก, ์๋ณธ ๋ฌธ์ฅ์ ์์ฑํ๊ธฐ ์ํด ๊ณ ์๋ ๋ฐ์ดํฐ์ ๋๋ค.
-
๋ชจ๋ธ์ด ์ ์ ํ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์ํ๊ฒ ํ๊ธฐ ์ํด ๊ณ ์ํ ๋ฐ์ดํฐ ์ ๋๋ค.
-
<Instruction>
์ฃผ์ด์ง ์ ๋ชฉ๊ณผ ์์ฝ๋ฌธ์ ๋ํ ์ ๋ณด๋ฅผ ํ ๋๋ก, ์์ฝ๋๊ธฐ ์ ๋ฌธ์ฅ์ ์ ์ถํด์ ์์ฑํด์ฃผ์ธ์.
์ ๋ชฉ: ์์ฐ๋ฌผ ์๊ธ ์๊ธฐ๊ด๋ฆฌ์ฒด๊ณ ๊ตฌ์ถ์ ์ํ ๊ธฐ์ด์ฐ๊ตฌ
์์ฝ๋ฌธ: ํ๋ ์ฌํ์์ ๋ฐ์ํ๋ ๋ค์ํ๊ณ ...
<Answer>
์ง๊ธ์ ๊ตญ๊ฐ๊ฐ ์ง๋ฉดํ๋ ์๊ธฐ๋ ์ ํต์ฌํ์ ๊ทธ๊ฒ๊ณผ ์๊ธฐ์ ๊ท๋ชจ๋ฟ๋ง์๋๋ผ...
- 4. Sentence order inference
-
์ ๋ฐ์ดํฐ๋, ์ฃผ์ด์ง ๋ฌธ์ฅ ํน์ ๋จ์ด๋ค์ ํ์ฉํ์ฌ ์ ์ ํ ๋ฌธ์ฅ ์์ฑ์ ์ํ ๋ฐ์ดํฐ ์ ๋๋ค.
-
๋ชจ๋ธ์ด ์ฃผ์ด์ง ๋ฌธ์ฅ ํน์ ๋จ์ด๋ฅผ ํตํด, ์ ์ ํ ๋ฌธ์ฅ์ ์์ฑํ์ฌ ๋ชจ๋ธ์ ์์ฑ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํ ๋ฐ์ดํฐ์ ์ ๋๋ค.
-
<Instruction>
์์์ ์์๋ก ๋์ด๋ ๋ฌธ์ฅ๋ค์ด ์ฃผ์ด์ง๋๋ค. ์ฃผ์ด์ง ๋ฌธ์ฅ๋ค์ ์ด์ฉํด ์๋ณธ์ ๋ฐฐ์ด์ ์ ์ถํ๊ณ , ๊ทธ ๋ด์ฉ์ ์ฌ๊ตฌ์ฑํ์ธ์.
์์์ ์์๋ก ๋์ด๋ ๋ฌธ์ฅ: ['๋๋', '์ฒ์ฌ๋ค', '๊ทธ๋ฌ๋', '๋ฐ๋ณด๋ค', '๋์์']
<Answer>
๋๋ ์ฒ์ฌ๋ค. ๊ทธ๋ฌ๋ ๋์์ ๋ฐ๋ณด๋ค.
- 5. Last sentence prediction
-
์ ๋ฐ์ดํฐ๋, ์ฃผ์ด์ง ๋ฌธ๋จ์ ๋ง์ง๋ง ๋ฌธ์ฅ์ ์์ฑํ๊ธฐ ์ํ ๋ชฉ์ ์ ๊ฐ์ง ๋ฐ์ดํฐ ์ ๋๋ค.
-
๋ชจ๋ธ์ ๋ฌธ๋งฅ ์ดํด๋ ฅ ํฅ์๊ณผ, ์ ์ ํ ์์ฑ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๊ณ ์ํ ๋ฐ์ดํฐ์ ๋๋ค.
-
<Instruction>
์ฃผ์ด์ง ๋ฌธ์ฅ ๋ค์ ์์ฐ์ค๋ฝ๊ฒ ์ด์ด์ง ๋ฌธ์ฅ์ ์์ฑํด์ฃผ์ธ์.
๋ฌธ์ฅ: ...์ต๊ทผ์ ๋ฐฉ๋ฌธํ ์กฐ์ ์์ ์ํ์ดฌ์์ ์ ์๋ โ๋ฌธํ์ฑํ๋ช
์ฌ์ ๊ดโ(๊น์ ์ผ๊ด)์๋ 1960๋
๋ ์ค๋ฐ๋ถํฐ 2000๋
๋๊น์ง 40๋
๋์ ๊น์ ์ผ์ ๋ฌธํ์์ ๋ถ๋ฌธ ์ง๋๊ฐ 11,890๊ฑด์ด๋ฉฐ, ๊ทธ ์ค ๋ฌธํ์์ ๊ธฐ๊ด์ ์ง์ ๋ฐฉ๋ฌธํ์ฌ ์ง๋ํ ์ด๋ฅธ๋ฐ โํ์ง์ง๋โ๊ฐ 1,770๊ฑด์ด๋ผ๋ ์๋ดํ์ด ์์๋ค.
<Answer>
๋ถํ ์ฐ๊ทน์ด ๊น์ ์ผ๊ณผ ์ฃผ์ฒด์ฌ์์ด๋ผ๋ ํค์๋๋ฅผ ๋ ๋ ์กด์ฌํ ์ ์๋ค๋ ๊ฒ์ ๋จ์ ์ผ๋ก ๋งํด ์ค๋ค
- 6. Mask Prediction
-
LLM ์ Transformer์ Decoder๋ง์ ํ์ฉํ์ฌ ๊ตฌ์ฑ๋ Auto-regressive ์ธ์ด ์์ฑ ๋ชจ๋ธ์ ๋๋ค.
-
Transformer Decoder์๋ง ์กด์ฌํ๋ Masked-Multi Head Attetntion ๋ธ๋ก์, ๋ชจ๋ธ์ด ๋ฏธ๋์ ์ ๋ณด๋ฅผ ์ฐธ์กฐํ์ง ์๊ณ , ๊ณผ๊ฑฐ์ ํ์ฌ state๋ง์ ํ์ฉํ์ฌ ํ ํฐ์ ์์ฑํ๊ฒ ํ๋๋ฐ, ์ด๋ ๊ตฌ์กฐ์ ์ผ๋ก ํ์ฌ LLM์ ์ฌ์ ํ์ต ๋ฐฉ์์ธ CLM ๋ฐฉ์์ ์ ์ฉํ๋ ์ด์ ์ ๋๋ค.
-
๋ค๋ง, ๊ธฐ์กด Transforemer์ Encoder๋ง์ ํ์ฉํ BERT๋ Bidirectional ํ๊ฒ ํ์ต์ ์งํํ๊ธฐ์, MLM ๋ฐฉ์์ผ๋ก ์ฌ์ ํ์ต์ ์งํํด ์ธ์ด์ ๋ฌธ๋งฅ์ ์ดํดํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
-
์ด๋ฌํ ๋งค์ปค๋์ฆ์ ์ธ์ฌ์ดํธ๋ฅผ ์ป์ด, ๋ฌธ์ฅ์ ๋๋คํ ๋จ์ด๋ฅผ maskingํ๊ณ , ๋ง์คํน ํ ๋จ์ด๋ฅผ ์์ธกํ๊ฒ ํ์ฌ ๋ชจ๋ธ์๊ฒ ๋ฌธ๋งฅ์ ์ดํด์ ์ถ๋ก ๋ฅ๋ ฅ์ ํค์ฐ๊ณ ์ ํ๋ ๋ชฉ์ ์ฑ์์ ์์ฑ๋ ๋ฐ์ดํฐ์ ๋๋ค.
-
<Instruction>
<Instruction>
์ฃผ์ด์ง ๋ฌธ์ฅ์์ <MASK>์ ๋ค์ด๊ฐ ์ ์ ํ ๋จ์ด๋ฅผ ์์ฑํด์ฃผ์ธ์.
๋
๋๋ <MASK> ์ด๋ค.
<Answer>
์ฐ๋ฆฌ๋
-
- ์ฐ์ ์ ํฌ repo์ ์ฌ๋ผ์ ์๋,
KoCommercial-Dataset.ipynb
๋ฅผ ์คํ ์ํจํ fine-tuning dataset์ผ๋ถ์ Corpus์ ์ ๋ฅผ ์ํํฉ๋๋ค.
- ์ฐ์ ์ ํฌ repo์ ์ฌ๋ผ์ ์๋,
-
- ์ดํ ,
แแ ตแฏแแ กแซแแ กแผแแ ตแจแแ ฎแซแแ กแผแแ ขแผแแ ฅแผแแ ฆแแ ตแแ ฅ.ipynb
์แแ ฉแซแแ ฎแซแแ กแ แ ญแแ ญแแ ฃแจ.ipynb
๋ฅผ ์คํํ์๋ฉด ๋ฉ๋๋ค.
- ์ดํ ,
-
LLM์ ์ฐ๊ตฌํ๋ฉด์ ์ฐธ ๋ง์ ์คํ์์ค ๊ฐ๋ฐ์๋ค๊ณผ ์ฐ๊ตฌ์๋ค์ ๋ ธ๋ ฅ์ ๋ณด๋ฉฐ ์ ํฌ๋ ์ด์ฌํ ๋ ธ๋ ฅํ๊ณ ์ฐ๊ตฌํ์๋ ๊ฒ ๊ฐ์ต๋๋ค.
-
์ด์ ์ ํฌ๋ ์ํ๊ณ ๋ฐ์ ๊ณผ, ๋ ๋์๊ฐ ์ ์ฒด์ ์ธ ์์คํฅ์์ ์กฐ๊ธ์ด๋ผ๋ ๊ธฐ์ฌํ๊ธฐ ์ํด์ ์ด๋ ๊ฒ ๊ณตํํด๋ณด๊ณ ์ ํฉ๋๋ค.
-
๋ค์ ํ๋ฒ, ๊ฐ์ฌ๋๋ฆฌ๋ฉฐ, ์ฝ๋๋ ๋ฌด๋จ์ผ๋ก ๊ฐ์ ธ๊ฐ์ ๋ฉ๋๋ค (๋ ํผ๋ฐ์ค๋ง ๋จ๊ฒจ์ฃผ์ธ์๐ฅฒ).
-
(์ฃผ)๋ง์ปค์ (์ฃผ)๋ฏธ๋์ด๊ทธ๋ฃน์ฌ๋๊ณผ์ฒ์ ์ปจ์์์์์ ํ์ ์ ์ธ ๋ชฉ์ ์ผ๋ก ์ฐ๊ตฌ๋์์ผ๋ฉฐ, MIT License๋ฅผ ๋ฐ๋ฆ ๋๋ค.
-
์ด ๋ชจ๋ธ์ ๊ณผํ๊ธฐ์ ์ ๋ณดํต์ ๋ถยท๊ด์ฃผ๊ด์ญ์๊ฐ ๊ณต๋ ์ง์ํ '์ธ๊ณต์ง๋ฅ ์ค์ฌ ์ฐ์ ์ตํฉ ์ง์ ๋จ์ง ์กฐ์ฑ์ฌ์ '์ผ๋ก ์ง์์ ๋ฐ์ ์ํ๋ ์ฐ๊ตฌ ๊ฒฐ๊ณผ์ ๋๋ค.
-
This model was supported by Artificial intelligence industrial convergence cluster development project funded by the Ministry of Science and ICT(MSIT, Korea)&Gwangju Metropolitan City.
-
๋ฐ์ดํฐ ์์ฒ์ ์ ๊ณตํด ์ค NIA์ AI-Hub์ ๊ฐ์ฌ์ ์ธ์ฌ๋ฅผ ๋๋ฆฝ๋๋ค.
-
ํ๊ตญ์ LLM ์ํ๊ณ ๋ฐ์ ์ ํ์จ์ฃผ์ , ํ๊ตญ ์คํ์์ค ๊ฐ๋ฐ์๋ค๊ณผ ์ฐ๊ตฌ์ ๋ถ๋ค์๊ฒ ๊ฐ์ฌ๋๋ฆฝ๋๋ค.