lovit/sejong_corpus_cleaner

UNA 라는 tag 은 무엇인지요?

Closed this issue · 2 comments

안녕하세요
좋은 코드 잘 사용할 수 있게 해주셔서 감사드립니다
현재 clean 된 결과에 구어체에 정리된 단어에 UNA 라는 tag 이 있는데
원문에 찾아보면 없는 것 같습니다. 혹시 UNA 는 어떤 것입니까?

eojeol_morphtag_colloquial.txt:비잖아,  비/VV + 잖/UNA + 아/EF + ,/SP
eojeol_morphtag_colloquial.txt:다니잖아?        다니/VV + 잖/UNA + 아/EF + ?/SF
eojeol_morphtag_colloquial.txt:타잖아?  타/VV + 잖/UNA + 아/EF + ?/SF
lovit commented

세종 말뭉치의 원문을 살펴보니 대화체 데이터에서 잖/UNA 가 존재합니다.

5CT_0042-0000700	말이잖아	말/NNG+이/VCP+잖/UNA+아/EF
5CT_0042-0001910	않았잖아.	않/VX+았/EP+잖/UNA+아/EF+./SF
5CT_0042-0003020	되잖아.	되/VV+잖/UNA+아/EF+./SF
5CT_0042-0003860	거잖아.	거/NNB+(이)/VCP+잖/UNA+아/EF+./SF
5CT_0042-0005370	거잖아.	거/NNB+(이)/VCP+잖/UNA+아/EF+./SF
...

대부분 UN- 으로 시작하는 태그들은 unknown 을 의미하기 때문에 아예 신경을 안썼는데 통계표를 보니 높은 비율로 존재하는 태그네요.

짐작이지만, unknown adjective 가 아닐까 싶습니다. 거잖아 는 대화체에서 것이지 않아 의 축약이고, 이 때 은 형용사 역할을 하지만 실제로는 축약된 단어이기 때문에 unknown morpheme 으로 표기한 것이 아닐까 싶습니다.

아 그렇네요
grep 로 찾으니 안나오고, Konlpy 에 있는 태그표에도 없어서
없는 줄로 알았습니다. 뭔가 잘못했었나 봅니다.
통계표에 tag 들이 잘 나와있네요
감사합니다.