μ΅κ·Ό μ½λ‘λλ‘ μΈνμ¬ λΉλλ©΄ νλμ΄ μ¦κ°νλ©΄μ 1μΈ κ°κ΅¬μ μ¬νμ κ³ λ¦½μ΄ μ¬νλκ³ μλ€κ³ ν©λλ€. λν μ΄λ‘ μΈν΄ μΈλ‘μ, κ³ λ¦½κ°, μ°μΈκ°κ³Ό μ€νΈλ μ€ λ±μ μμΉκ° λ§€μ° λμμ‘λ€κ³ ν©λλ€. μ΄λ¬ν μ¦μμ 'μ½λ‘λ μ°μΈμ¦' νΉμ 'μ½λ‘λ λΈλ£¨'λΌκ³ νννλλ° μ΄λ₯Ό μΉλ£νκΈ° μν λ°©λ² μ€ νλκ° μΌκΈ°λ₯Ό μμ±νλ κ²μ΄λΌκ³ ν©λλ€. λ°λΌμ μ΄λ² νλ‘μ νΈμμλ μΌκΈ°λ₯Ό μμ±νκ² λλ©΄ μμ±μμ κ°μ±μ λΆμνμ¬ μλ €μ€ μ μλ λͺ¨λΈμ μ μνκ³ μ΄λ₯Ό ν΅ν΄ μμ λ μ μ§ λͺ»νλ μμ μ κ°μ μ λν΄ μ΄ν΄ν μ μλλ‘ λκ³ μ ν©λλ€.
https://aihub.or.kr/aidata/7978
λ°μ΄ν°λ 'AIhub'μμ μ 곡νλ 'κ°μ± λν λ§λμΉ μκ°' λ°μ΄ν°λ₯Ό μ¬μ©νμμ΅λλ€.
λͺ¨λΈμ λ§μ§λ§ μκ°μ λ°°μ λ Transformerμ μΈμ½λλ§μ μ¬μ©νλ BERT κΈ°λ°μ λͺ¨λΈμ μ¬μ©νμμ΅λλ€. νμ¬ BERT κΈ°λ°μ λ€μν λͺ¨λΈλ€μ΄ μ‘΄μ¬νλλ°, μ΄λ² νλ‘μ νΈμμλ SK T-Brainμμ λ§λ KoBERTλ₯Ό fine-tuningνμ¬ μ¬μ©νμμ΅λλ€.
SK T-Brain https://github.com/SKTBrain/KoBERT
monologg https://github.com/monologg/KoBERT-Transformers
μκ³ λ¦¬μ¦μ μλμ λ§ν¬μ μμμ λ³΄κ³ κ³΅λΆνμμ΅λλ€.
λ₯ λ¬λμ μ΄μ©ν μμ°μ΄ μ²λ¦¬ μ
λ¬Έ
02) λ²νΈ(Bidirectional Encoder Representations from Transformers, BERT)
https://wikidocs.net/115055
κ³ λ €λνκ΅ μ°μ
κ²½μ곡νλΆ DSBA μ°κ΅¬μ€
08-5: BERT
https://www.youtube.com/watch?v=IwtexRHoWG0
toolμ jupyter notebookμ μ¬μ©νμκ³ , κ° κ³Όμ μ νλμ .ipynb νμΌλ‘ μ§ννμμ΅λλ€. fine-tuning κ³Όμ μ KoBERT κΉνλΈλ₯Ό μ°Έκ³ νμκ³ BERTλ₯Ό μ§μ μ¬μ©ν΄λ³Έλ€λ κ²μ μμλ₯Ό λκ³ μ§ννμμ΅λλ€.
μ²μμλ μλ³Έ λ°μ΄ν°μμ κ°λ¨νκ² νμν μνλ‘ λ³ννκ³ κ·Έλλ‘ κ°μ μ μλΆλ₯ κΈ°μ€μΌλ‘ μ΄ 58κ°μ classλ‘ λΆλ₯νλ λͺ¨λΈμ λ§λ€μμ΅λλ€.
μ΄ λ, test κΈ°μ€μΌλ‘ μ νλ 50% μ λμ μ±λ₯μ 보μ¬μ£Όμμ΅λλ€.
μ±λ₯μ΄ μ‘°κΈ λΆμ‘±νλ€κ³ νλ¨νμκ³ Confusion Matirxλ₯Ό κΈ°λ°μΌλ‘ μλͺ» λΆλ₯ν λ¬Έμ₯λ€μ νμΈνμμ΅λλ€.
λ€μκ³Ό κ°μ΄ μ¬λμ΄ λΆλ₯λ₯Ό νλλΌλ μ΄λ €μΈ μ μλ λΆλΆμ΄λΌκ³ νλ¨νμκΈ° λλ¬Έμ μ΄κ²λ€μ λ³ν©νμ¬ classμ μλ₯Ό 47κ°λ‘ μ€μΈ νμ μ§ννμμ΅λλ€.
μ΄ λ, test κΈ°μ€μΌλ‘ μ νλ 55% μ λμ μ±λ₯μ 보μ¬μ£Όμμ΅λλ€.
55%μμ μ νλλ₯Ό λ λμ΄κΈ° μν΄ λλΆλ₯λ‘ 1μ°¨ λΆλ₯λ₯Ό νκ³ , μ΄νμ μλΆλ₯λ₯Ό μλνμμ΅λλ€. μ¦ λλΆλ₯ λͺ¨λΈ 1κ°, μλΆλ₯ λͺ¨λΈ 6κ°λ₯Ό νμ΅νμμ΅λλ€. νμ§λ§ λλΆλ₯ 70%, μλΆλ₯μμ 70~80% μ λμ μ±λ₯μ 보μ¬μ£ΌμκΈ° λλ¬Έμ Ver. 2λ³΄λ€ μ±λ₯μ΄ μ’μμ‘λ€κ³ νλ¨νκΈ°μλ μ΄λ €μμ΄ μμμ΅λλ€. μ€νλ € Ver. 2μ μ±λ₯μ΄ μ μ¬νκ² λμκΈ° λλ¬Έμ κ°μ μ labeling νλ κ³Όμ μμ μλ²½νκ² κ°μ μ΄ νλμ μνκΈ° μ 맀νκΈ° λλ¬Έμ λ°μνλ κ²°κ³ΌλΌκ³ νλ¨νμμ΅λλ€.
μ§μ λ§λ λΆλ₯κΈ°λ‘ ν μ€νΈ ν΄ λ³Έ κ²°κ³Όμ λλ€. μκ°λ³΄λ€ μλλ λΉ λ₯΄κ³ μ±λ₯λ μ’λ€λ μκ°μ΄ λ€μμ΅λλ€.
μ±λ₯μ΄ 55%μ΄κΈ° λλ¬Έμ μ΄λ»κ² 보면 λμ μ±λ₯μ΄ μλλΌκ³ νλ¨ν μ μμ§λ§, classκ° 47κ°μκΈ° λλ¬Έμ μ¬λμ΄ λΆλ₯νλλΌλ μ 맀ν κ²½μ°κ° λ§μμ΅λλ€. μ¦, μμ νκ² λ€λ₯Έ ν΄λμ€λ‘ μλͺ» λΆλ₯νμλ€κΈ° 보λ€λ μ μ΄μ labelμ΄ μ‘°κΈ κ²½κ³κ° λͺ¨νΈνλ€λ μκ°μ νμμ΅λλ€. BERT λͺ¨λΈμ μ±λ₯μ΄ μ λ§ μ°μνλ€λ μκ°κ³Ό ν¨κ» μ¬μ©νκΈ°μλ νΈλ¦¬νλ€κ³ μκ°νμμ΅λλ€.