UNA 라는 tag 은 무엇인지요?
Closed this issue · 2 comments
zidane100e commented
안녕하세요
좋은 코드 잘 사용할 수 있게 해주셔서 감사드립니다
현재 clean 된 결과에 구어체에 정리된 단어에 UNA 라는 tag 이 있는데
원문에 찾아보면 없는 것 같습니다. 혹시 UNA 는 어떤 것입니까?
eojeol_morphtag_colloquial.txt:비잖아, 비/VV + 잖/UNA + 아/EF + ,/SP
eojeol_morphtag_colloquial.txt:다니잖아? 다니/VV + 잖/UNA + 아/EF + ?/SF
eojeol_morphtag_colloquial.txt:타잖아? 타/VV + 잖/UNA + 아/EF + ?/SF
lovit commented
세종 말뭉치의 원문을 살펴보니 대화체 데이터에서 잖/UNA
가 존재합니다.
5CT_0042-0000700 말이잖아 말/NNG+이/VCP+잖/UNA+아/EF
5CT_0042-0001910 않았잖아. 않/VX+았/EP+잖/UNA+아/EF+./SF
5CT_0042-0003020 되잖아. 되/VV+잖/UNA+아/EF+./SF
5CT_0042-0003860 거잖아. 거/NNB+(이)/VCP+잖/UNA+아/EF+./SF
5CT_0042-0005370 거잖아. 거/NNB+(이)/VCP+잖/UNA+아/EF+./SF
...
대부분 UN-
으로 시작하는 태그들은 unknown 을 의미하기 때문에 아예 신경을 안썼는데 통계표를 보니 높은 비율로 존재하는 태그네요.
짐작이지만, unknown adjective 가 아닐까 싶습니다. 거잖아
는 대화체에서 것이지 않아
의 축약이고, 이 때 잖
은 형용사 역할을 하지만 실제로는 축약된 단어이기 때문에 unknown morpheme 으로 표기한 것이 아닐까 싶습니다.
zidane100e commented
아 그렇네요
grep 로 찾으니 안나오고, Konlpy 에 있는 태그표에도 없어서
없는 줄로 알았습니다. 뭔가 잘못했었나 봅니다.
통계표에 tag 들이 잘 나와있네요
감사합니다.