๋ค์ด๋ฒ ๋ถ์คํธ์บ ํ NLP 6์กฐ HAPPYํ์ด ์ ์ํ ๊ตญ๋ด ์๋ฅ domain-specific dataset์
๋๋ค.
์ด ๋ฐ์ดํฐ์
์ Relation Extraction Task๋ฅผ ์ํด ์ ์๋์์ผ๋ฉฐ ํ๊ตญ์ด ์ํค๋ฐฑ๊ณผ๋ฅผ ํฌ๋กค๋งํ์ต๋๋ค.
โ DISCLAIMER โ ๋ณธ Dataset์ ํ์ค ๋ฐ ์ฐจ๋ณ์ ํํ์ ํฌํจํ๊ณ ์์ ์ ์์ต๋๋ค. ์ด๋์ ์ฃผ์ํ์ธ์
full dataset
: 1663
train dataset
: 1332
valid dataset
: 167
test dataset
: 168
Guideline: 6์กฐ(HAPPY)-์๋ฅ ๊ฐ์ด๋๋ผ์ธ.pdf
Relation map:
class_name(ko) | class_name(eng) | direction(sub, obj) | description |
---|---|---|---|
๊ด๊ณ_์์ | no_relation | (,) | ๊ด๊ณ๋ฅผ ์ ์ถํ ์ ์๊ฑฐ๋ ์ ์๋ relation ์ผ๋ก ๋ถ๋ฅํ ์ ์์ |
๋จ์ฒด:๋ณ์นญ | org:alternate_name | (ORG,ORG) | object๋ subject์ ๋ณ์นญ |
๋จ์ฒด:์์์ธ | org:employee | (ORG,PER) | object๋ subject์ ์ข ์ฌํ๋ ์ฌ๋ |
๋จ์ฒด:ํ๋ก๊ทธ๋จ | org:program | (ORG,PRO) | object๋ subject์ ํ๋ก๊ทธ๋จ |
์ธ๋ฌผ:๋ณ์นญ | per:alternate_name | (PER:PER/POH) | object๋ subject์ ๋ณ์นญ |
์ธ๋ฌผ:๋๋ฃ | per:colleagues | (PER:PER) | object๋ subject์ ๋ฌธ์ฅ ๋ด ๊ณตํต ์์ ๋ช ์๋์ด ์๋ ์ฌ๋ |
์ธ๋ฌผ:์ฌ๊ฑด | per:event | (PER:POH) | object๋ subject๊ฐ ์ฐ๋ฃจ๋ ์ฌ๊ฑด |
์ธ๋ฌผ:์์๋จ์ฒด | per:member_of | (PER:ORG) | object๋ subject๊ฐ ์ํ๋/์ํ ๋จ์ฒด |
์ธ๋ฌผ:์ฐธ์ฌํ๋ก๊ทธ๋จ | per:participate_in | (PER:PRO) | object๋ subject๊ฐ ์ฐธ์ฌํ /์ฐธ์ฌํ๋/์ฐธ์ฌํ๋ ํ๋ก๊ทธ๋จ |
์ธ๋ฌผ:์ง์ /์งํจ | per:title | (PER:POH) | object๋ subject์ ๊ณผ๊ฑฐ/ํ์ฌ ์ง์ /์งํจ |
ํ๋ก:๋ฐฉ์ก์๊ฐ | pro:air_time | (PRO:DAT) | object๋ subject์ ๋ฐฉ์ก ์์, ์ข ๋ฃ, ์ง์์๊ฐ |
ํ๋ก:์ข ์์ผ | pro:end_at | (PRO:DAT) | object๋ subject์ ์ข ์์ผ |
ํ๋ก:๋ฐฉ์์์์ผ | pro:start_at | (PRO:DAT) | object๋ subject์ ๋ฐฉ์์์์ผ |
ํ๋ก:ํ์_ํ๋ก | pro:subprogram | (PRO:PRO/POH) | object๋ subject๋ด ์ฝ๋/์ํผ์๋/์์ฆ |
Example Sentences
org:alternate_name
:์ดํ ๊ตญ๋ด ์ต์ด์ ๋ฏผ๊ฐ ๋ฐฉ์ก์ธ CBS๊ธฐ๋
๊ต๋ฐฉ์ก, 1954๋
12์ 15์ผ์ ๊ฐ๊ตญํ์๊ณ , ๋ถ์ฐ์์ ์ต์ด์ ์์
๋ฐฉ์ก์ธ ๋ฌธํ๋ฐฉ์ก(MBC)์ด 1961๋
12์์ ๊ฐ๊ตญํ์๋ค.
org:employee
:์ ์ฌ์์ ์ฌํ๋์๋ ์ํ ์ดฌ์์ ํตํด ๊ฐ์ด ์ธ์ฐ์ ๋งบ์ด์จ ์ฌ์ด์ด๋ฉฐ KBS ๊ณต์ฑ 7๊ธฐ ๊ฐ๊ทธ๋งจ์ผ๋ก์ KBS ๊ณต์ฑ ๊ฐ๊ทธ๋งจ ์ค ๊ฝ์ด๋ผ ๋ถ๋ฆฌ๋ 7๊ธฐ ๋ฉค๋ฒ๋ค๊ณผ๋ ๊น์ ์น๋ถ์ ์ ์งํ๊ณ ์๋ค.
org:program
:ใ์ธ๊ณํ
๋ง๊ธฐํใ์ ๋ํ๋ฏผ๊ตญ์ EBS 1TV์์ ๋งค์ฃผ ์์์ผ๋ถํฐ ๊ธ์์ผ๊น์ง ์ ๋
8์ 40๋ถ์ ๋ฐฉ์ก ์ค์ธ ์ฌํ ์ ๋ฌธ ๊ต์ ํ๋ก๊ทธ๋จ์ด๋ค.
per:alternate_name
:์ด ์๊ธฐ์ ๋ฌดํ๋์ ์ ํน๋ณํ ์ถ์ฐํ๋ ๊ฒ์คํธ๋ค๋ก๋ ๋ฐฐ์ฐ ์ฐจ์น์, ์ธ๊ณ ํ
๋์ค์ ์์ ๋ง๋ฆฌ์ ์ค๋ผํฌ๋ฐ ๋ฑ์ด ์๋ค. 1๊ธฐ์ ๋ง์ง๋ง ํธ์์๋ '๋์ด๊ธฐ๊ตฌ์์ ๋ฆฝ์คํฑ ๋ฐ๋ฅด๊ธฐ'๊ฐ ๋์ ๊ณผ์ ์์ผ๋ฉฐ, ๊ฒ์คํธ๋ก ๊ทธ๋ฃน ์๊ฐ๊ฐ ์ถ์ฐํ์๋ค.
per:colleagues
:5ํ ์์ ์ฌํ์ ๋ช
ํ ์กฐ์ฐ ํน์ง์ผ๋ก ๊ฐํธ๋๊ณผ ์ฑ๋์ผ์ด ๋์ฅ์ ๋งก์๋ค.
per:event
:์ด๋ ๊ฒฐ๊ตญ ํ๋ผ์ด๋จธ๋ฆฌ์ ํ์ ์ํน์ผ๋ก ์ด์ด์ก๊ณ , ์นด๋ก ์๋ฉ๋๋ ์ธก์์๋ "ํ์ ์ด ๋ง๋ค."๋ผ๊ณ ์
์ฅ์ ํํ์๋ค.
per:member_of
:๊ทธ ์ดํ ์ปจ์ธ๋ฆฌ ๊ผฌ๊ผฌ๋ ๋๋ฐ์ด ๋ฌ์ผ๋ฉฐ ์ ์ ํ๊ณผ ํ์ฌํ์ด ์์ฒญ๋๊ฒ ์ ๋ช
์ธ๋ฅผ ํ๋๋ฐ ํ์ฌํ์ ์ด ์ ๋ช
์ธ๋ฅผ ์ด์ฉํด์ ์ํ ๋ฐฐ์ฐ๋ก ๋ฐ๋ทํ๊ณ ๊น์๋ฏธ์ ๊ฐ์ด ์ฌ๋ฌ ์ํ๋ฅผ ์ดฌ์ํ๋ค.
per:participate_in
:ํ์ฌํ์ ๊ทธ ํ์ ์๊ณ์ ๊ณค๋์ ๊ฒช์์ผ๋ฉฐ ์๊ณ ๋๋ฌธ์ ๊ฒฝ์ฐฐ์ฒญ ์ฌ๋๋ค์์ ๋จ์ญ์ผ๋ก ์ถ์ฐํ์ฌ ๋ฒ์ฃ์(๋๋) ์ญํ ์ ํ๋ค.
per:title
:์ ์ฌ์(ๅๅจ้ซ, Yu Jae-Seok, 1972๋
8์ 14์ผ ~ )์ ๋ํ๋ฏผ๊ตญ์ ๋ฐฉ์ก์ธ, MC, ํฌ๊ทน ๋ฐฐ์ฐ์ด๋ค.
pro:air_time
:ใTV ๋๋ฌผ๋์ฅใ์ ๋งค์ฃผ ์ผ์์ผ ์ค์ 9์ 30๋ถ์ ๋ฐฉ์ก๋๋ ๋๋ฌผ ์ ๋ฌธ ๊ต์ ํ๋ก๊ทธ๋จ์ด๋ค.
pro:end_at
:๋ฌดํ๋์ ์ 2005๋
4์ 23์ผ๋ถํฐ 2018๋
3์ 31์ผ๊น์ง MBC TV์์ ๋ฐฉ์๋์๋ ํ
๋ ๋น์ ํ๋ก๊ทธ๋จ์ด๋ค.
pro:start_at
:ใ๊ฐ๊ทธ์ฝ์ํธใ๋ 1999๋
9์ 4์ผ๋ถํฐ 2020๋
6์ 26์ผ๊น์ง ๋ฐฉ์ก๋์๋ ์ฝ๋ฏธ๋ ํ๋ก๊ทธ๋จ์ด๋ค.
pro:subprogram
:๋ฐ์ค์ผ์ ํ๊ณ ์ฌ๋ผ๊ฐ๋ ๊ฒ์ ๋ํด ๋๋ ค์ํ๋ ๋ถ๋ถ์ด ๊ฐ์ ๋ฐฉ์ก์ฌ ํ๋ก๊ทธ๋จ ์ผ์์ผ ์ผ์์ผ ๋ฐค์์ ์ฝ๋์ธ '๋ถ๊ฐ๋ฅ์ ์๋ค'์ ํก์ฌํ๋ค๋ ๋ด์ฉ์ด์๋ค.
Pretrained Model | Micro F1 | Auprc | Accuracy |
---|---|---|---|
klue/bert-base | 87.649 | 90.582 | 0.8468 |
klue/roberta-small | 81.633 | 81.783 | 0.8138 |
klue/roberta-base | 83.333 | 90.080 | 0.8288 |
klue/roberta-large | 88.095 | 88.708 | 0.8559 |
monologg/koelectra-small-v3-discriminator | 40.976 | 36.338 | 0.5045 |
monologg/koelectra-base-v3-discriminator | 69.959 | 69.417 | 0.7087 |
jinmang2/kpfbert | 85.600 | 84.315 | 0.8468 |
PM : ๋ฅ์ฌํ
๊น์คํ, ๋ฐ์ํ, ๋ฐ์นํ, ์ค์ ๋ฏผ
NLP_6์กฐ_๋ฐ์ดํฐ_์ ์_๋ฉ์ _๋ฆฌํฌํธ.pdf
์๋ฌธ ์ถ์ฒ : https://ko.wikipedia.org/wiki/