lovit/sejong_corpus_cleaner

구어 말뭉치의 원 발음 기록 처리

Closed this issue · 1 comments

lovit commented

구어 말뭉치는 발음된 어절을 그대로 기록하며, 발음이 어절과 다를 경우 괄호 안에 기술되어 있기도 합니다.

colloquial/9CT_0013.txt 파일의 어절 예시

다릅니다,달릅니다, [다르/VA, ㅂ니다/EF, ,/SP]

이러한 어절이 포함된 문장은 형식상 문제가 없기 때문에 세종말뭉치 품사 체계를 따르는 스크립트에서는 제거하기 어렵지만, L-R 형식으로 품사 체계를 변형하는 경우에는 이를 확인하여 제거해야 합니다.

lovit commented

concat_R 과 어절 내의 surface 길이 길이 기반으로 어절이 지나치게 긴 경우를 제거합니다. 형태소의 원형으로 이뤄진 concat_R 보다 길이가 지나치게 긴 표현형 R 은 위처럼 잘못된 글자가 어절에 포함된 경우입니다.