KOMORAN의 결과가 R에서와 홈페이지에서 다릅니다.
Opened this issue · 7 comments
안녕하세요. R에서 코로란을 사용하고 있습니다.
근데 코모란 홈페이지(https://www.shineware.co.kr/products/komoran/) 에서의 결과와
R에서의 결과가 서로 다릅니다.
R에서 결과
komoran <- RKOMORAN::RKOMORAN$new(model_type = "EXP")
komoran$get_plain_text("안녕하세요. 저는 ABC 입니다.")
#> [1] "안녕하세요/IC ./SF 저/NP 는/JX ABC/SL 이/NP 이/VCP ㅂ니다/EF ./SF"
홈페이지 결과
입력문장 : "안녕하세요. 저는 ABC 입니다."
적용 모델 : Full 버젼
결과 : 이미지 확인 부탁드립니다.
이렇게 다른 결과가 나오는 이유를 알 수 있을까요?
감사합니다.
안녕하세요,
현재 SHINEWARE 홈페이지에서 제공되는 KOMORAN의 버전이 예전 버전(3.3.4)으로, 현재 버전(3.3.9)에서는 RKOMORAN의 결과처럼 나오는 것이 정상입니다.
과거 버전(3.3.4)의 Full 모델에는 위키피디아의 표제어가 포함되어 있어 안녕하세요
가 고유명사(TV 프로그램명)로 나오는 이슈가 있었으나, 최근 정제된 학습 데이터를 추가/학습하여 기본 모델의 결과가 바뀐 부분이 있습니다.
홈페이지 상의 KOMORAN 버전을 조만간 최신 버전으로 업데이트하도록 하겠습니다.
감사합니다.
@parksanha 안녕하세요. 보고해주셔서 감사합니다. 확인해야 할 부분이 여러 가지가 있네요. 우선 홈페이지에서 제공하는 모델의 버전과 RKOMORAN이 사용하는 모델의 버전이 달라서 생기는 이슈로 보입니다. 추가로 혹시 EXP 모델을 꼭 사용해야 하는 이유가 있는 것이 아니라면 STABLE 버전 사용을 권장해 드립니다.
@shin285 최신 master 기준 jar로 EXP 분석이 안녕하세요/IC ./SF 저/NP 는/JX ABC/SL 이/NP 이/VCP ㅂ니다/EF ./SF
조금 이상해 보이는데 올바르게 분석되는 것이 맞는 건가요?
@dolpang2 @9bow 답변 주셔서 대단히 감사합니다.
@dolpang2 EXP모델을 사용하는 이유는 EXP가 FULL버젼인줄 알았습니다. EXP = EXPERT라고 오해를 했네요.
STABLE을 활용해보도록 하겠습니다.
위에서 예시를 든 문장에서 "이"가 두번 나오는 현상이 잘 이해가 되지 않습니다.
[이/NP] [이/VCP]
지금 확인해보니 STABLE에서도 이렇게 나오네요.
@parksanha STABLE에서도 동일하게 분석되는 것은 확인을 해봐야겠네요. 감사합니다 : )
@shin285 최신 master 기준 jar로 EXP 분석이
안녕하세요/IC ./SF 저/NP 는/JX ABC/SL 이/NP 이/VCP ㅂ니다/EF ./SF
조금 이상해 보이는데 올바르게 분석되는 것이 맞는 건가요?
분석 결과가 이상해 보이네요. 해당 내용 KOMORAN 이슈로 등록해놓겠습니다.
OLD 버전(3.3.4)의 stable에서는 이렇게 나오네요.
안녕하세요/IC ./SF
저/NP 는/JX
ABC/SL
이/VV ㅂ니다/EF ./SF
이 분석이 맞는 것 같아 보이네요.