shineware/RKOMORAN

KOMORAN의 결과가 R에서와 홈페이지에서 다릅니다.

Opened this issue · 7 comments

안녕하세요. R에서 코로란을 사용하고 있습니다.

근데 코모란 홈페이지(https://www.shineware.co.kr/products/komoran/) 에서의 결과와

R에서의 결과가 서로 다릅니다.

R에서 결과

komoran <- RKOMORAN::RKOMORAN$new(model_type = "EXP")
komoran$get_plain_text("안녕하세요. 저는 ABC 입니다.")
#> [1] "안녕하세요/IC ./SF 저/NP 는/JX ABC/SL 이/NP 이/VCP ㅂ니다/EF ./SF"

홈페이지 결과

KakaoTalk_20200424_130836494

입력문장 : "안녕하세요. 저는 ABC 입니다."
적용 모델 : Full 버젼
결과 : 이미지 확인 부탁드립니다.

이렇게 다른 결과가 나오는 이유를 알 수 있을까요?

감사합니다.

9bow commented

안녕하세요,
현재 SHINEWARE 홈페이지에서 제공되는 KOMORAN의 버전이 예전 버전(3.3.4)으로, 현재 버전(3.3.9)에서는 RKOMORAN의 결과처럼 나오는 것이 정상입니다.
과거 버전(3.3.4)의 Full 모델에는 위키피디아의 표제어가 포함되어 있어 안녕하세요가 고유명사(TV 프로그램명)로 나오는 이슈가 있었으나, 최근 정제된 학습 데이터를 추가/학습하여 기본 모델의 결과가 바뀐 부분이 있습니다.
홈페이지 상의 KOMORAN 버전을 조만간 최신 버전으로 업데이트하도록 하겠습니다.
감사합니다.

9bow commented

@shin285 님,
혹시 제 설명에 부족한 부분이나 잘못된 부분이 있다면 추가 부탁드립니다.

@parksanha 안녕하세요. 보고해주셔서 감사합니다. 확인해야 할 부분이 여러 가지가 있네요. 우선 홈페이지에서 제공하는 모델의 버전과 RKOMORAN이 사용하는 모델의 버전이 달라서 생기는 이슈로 보입니다. 추가로 혹시 EXP 모델을 꼭 사용해야 하는 이유가 있는 것이 아니라면 STABLE 버전 사용을 권장해 드립니다.
@shin285 최신 master 기준 jar로 EXP 분석이 안녕하세요/IC ./SF 저/NP 는/JX ABC/SL 이/NP 이/VCP ㅂ니다/EF ./SF 조금 이상해 보이는데 올바르게 분석되는 것이 맞는 건가요?

@dolpang2 @9bow 답변 주셔서 대단히 감사합니다.

@dolpang2 EXP모델을 사용하는 이유는 EXP가 FULL버젼인줄 알았습니다. EXP = EXPERT라고 오해를 했네요.

STABLE을 활용해보도록 하겠습니다.

위에서 예시를 든 문장에서 "이"가 두번 나오는 현상이 잘 이해가 되지 않습니다.
[이/NP] [이/VCP]

지금 확인해보니 STABLE에서도 이렇게 나오네요.

@parksanha STABLE에서도 동일하게 분석되는 것은 확인을 해봐야겠네요. 감사합니다 : )

@shin285 최신 master 기준 jar로 EXP 분석이 안녕하세요/IC ./SF 저/NP 는/JX ABC/SL 이/NP 이/VCP ㅂ니다/EF ./SF 조금 이상해 보이는데 올바르게 분석되는 것이 맞는 건가요?

분석 결과가 이상해 보이네요. 해당 내용 KOMORAN 이슈로 등록해놓겠습니다.

shineware/KOMORAN#118

OLD 버전(3.3.4)의 stable에서는 이렇게 나오네요.
안녕하세요/IC ./SF
저/NP 는/JX
ABC/SL
이/VV ㅂ니다/EF ./SF

이 분석이 맞는 것 같아 보이네요.