lovit/sejong_corpus_cleaner

부사 + VCP 를 두 개의 어절로 구분

Closed this issue · 0 comments

lovit commented

현재는 명사 + VCP 는 두 개의 어절로 구분되지만, 부사 + VCP 는 아래처럼 하나의 어절로만 처리됩니다. 부사도 어절 구분이 되도록 수정해야 합니다.

input : 지금이라면은, (지금/MAG + 이/VCP + 라면은/EC + ,/SP)
output : ["지금이라면은 (지금/Adverb + 이라면은/Adjective)"] 
input : 지금이라면은, (지금/NNG + 이/VCP + 라면은/EC + ,/SP)
output : ["지금 (지금/Noun)", "이라면은 (이/Adjective + 라면은/Eomi)"]