KPF BERT

사용방법

Step 1. Installation

python>3.6 이어야 함

pip3 install torch>=1.4.0
pip3 install transformer>=4.9.2

Step 2. Load Tokenizer, Model

from transformers import BertModel, BertTokenizer

model_name_or_path = "LOCAL_MODEL_PATH"  # Bert 바이너리가 포함된 디렉토리

model = BertModel.from_pretrained(model_name_or_path, add_pooling_layer=False)
tokenizer = BertTokenizer.from_pretrained(model_name_or_path

Step 3. Tokenizer

>>> text = "언론진흥재단 BERT 모델을 공개합니다."
>>> tokenizer.tokenize(text)
['언론', '##진흥', '##재단', 'BE', '##RT', '모델', '##을', '공개', '##합니다', '.']
>>> encoded_input = tokenizer(text)
>>> encoded_input
{'input_ids': [2, 7392, 24220, 16227, 28024, 21924, 7522, 4620, 7247, 15801, 518, 3],
 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

Step 4. Model Inference

>>> import torch
>>> model.eval()
>>> pt_encoded_input = tokenizer(text, return_tensors="pt")
>>> model(**pt_encoded_input, return_dict=False)
(tensor([[[-4.1391e-01,  7.3169e-01,  1.1777e+00,  ...,  1.2273e+00, -4.1275e-01,  2.4145e-03],
          [ 1.6289e+00, -1.9552e-01,  1.6454e+00,  ...,  2.5763e-01, 1.7823e-01, -7.6751e-01],
          [ 7.4709e-01, -4.1524e-01,  3.0054e-01,  ...,  1.1636e+00, -2.3667e-01, -1.0005e+00],
          ...,
          [-7.9207e-01, -2.9005e-01,  1.7217e+00,  ...,  1.5060e+00, -2.3975e+00, -4.3733e-01],
          [-4.1402e-01,  7.3164e-01,  1.1777e+00,  ...,  1.2273e+00, -4.1289e-01,  2.3552e-03],
          [-4.1386e-01,  7.3167e-01,  1.1776e+00,  ...,  1.2273e+00, -4.1259e-01,  2.5745e-03]]],
          grad_fn=<NativeLayerNormBackward>), None)

총 5개의 모델에 대해서 평가 작업 수행

kpfBERT base (https://github.com/KPFBERT/kpfbert)
KLUE BERT base (https://huggingface.co/klue/bert-base)
ETRI BERT base (KorBERT, https://aiopen.etri.re.kr/service_dataset.php)
KoBERT (https://github.com/SKTBrain/KoBERT)
BERT base multilingual cased (https://huggingface.co/bert-base-multilingual-cased)

Sequence Classification 성능 측정 결과 비교 (10/22/2021):

구분	NSMC	KLUE-NLI	KLUE-STS
데이터 특징 및 규격	영화 리뷰 감점 분석, 학습 150,000 문장, 평가: 50,000문장	자연어 추론, 학습: 24,998 문장 평가: 3,000 문장 (dev셋)	문장 의미적 유사도 측정, 학습: 11,668 문장 평가: 519 문장 (dev셋)
평가방법	accuracy	accuracy	Pearson Correlation
KPF BERT	91.29%	87.67%	92.95%
KLUE BERT	90.62%	81.33%	91.14%
KorBERT Tokenizer	90.46%	80.56%	89.85%
KoBERT	89.92%	79.53%	86.17%
BERT base multilingual	87.33%	73.30%	85.66 %

Question Answering 성능 측정 결과 비교 (10/22/2021):

구분	KorQuAD v1	KLUE-MRC
데이터 특징 및 규격	기계독해, 학습: 60,406 건 평가: 5,774 건 (dev셋)	기계독해, 학습: 17,554 건 평가: 5,841 건 (dev셋)
평가방법	Exact Match / F1	Exact Match / Rouge W
KPF BERT	86.42% / 94.95%	69.51 / 75.84%
KLUE BERT	83.84% / 93.23%	61.91% / 68.38%
KorBERT Tokenizer	20.11% / 82.00%	30.56% / 58.59%
KoBERT	16.85% / 71.36%	28.56% / 42.06 %
BERT base multilingual	68.10% / 90.02%	44.58% / 55.92%

KPF BERT 활용 사례

KPFBERTSUM (https://github.com/KPFBERT/kpfbertsum)
- KpfBertSum은 Bert 사전학습 모델을 이용한 텍스트 요약 논문 및 모델인 PRESUMM모델을 참조하여 한국어 문장의 요약추출을 구현한 한국어 요약 모델이다.
- 한국언론진흥재단에서 구축한 방대한 뉴스기사 코퍼스로 학습한 kpfBERT를 이용하여 특히 뉴스기사 요약에 특화된 모델이다.
YouTube 'BERT란 무엇인가' 설명 링크 https://youtu.be/Pj6563CAnKs

KPFBERT/kpfbert

KPF BERT

사용방법

Step 1. Installation

Step 2. Load Tokenizer, Model

Step 3. Tokenizer

Step 4. Model Inference

총 5개의 모델에 대해서 평가 작업 수행

Sequence Classification 성능 측정 결과 비교 (10/22/2021):

Question Answering 성능 측정 결과 비교 (10/22/2021):

KPF BERT 활용 사례