lovit/sejong_corpus_cleaner

한 어절이 여러 개의 분석된 형태소를 지닐경우, 이를 이용하여 잘못된 형태소 분석 결과를 수정

Opened this issue · 0 comments

lovit commented

어절 어째어쨌건 은 여러 종류의 분석 결과를 지닌다. 이 중 어찌/MAG, 하/XSV, 아/EC)어찌/MAG, 하/XSV, 았/EP, 건/EC 은 지나치게 많은 형태소들로 분석되었는데, 대체 가능한 어절은 (다른 식으로 분석된 형태소가 존재한다면) 다른 분석결과를 이용한다.

('어째', (어찌/MAG, 하/XSV, 아/EC)) 45
('어째', (어째/MAG,)) 23
('어째', (어쩌/VV, 어/EC)) 19
('어째', (어쩌/VV, 아/EC)) 2
('어쨌건', (어찌/MAG, 하/XSV, 았/EP, 건/EC)) 23
('어쨌건', (어쩌/VV, 었/EP, 건/EC)) 3
('어쨌건', (어쨌건/MAG,)) 2