한글 NLP 정보처리 패키지
Opened this issue · 0 comments
Minyoung-Lee-Sejong commented
한국어로 이루어진 텍스트 데이터는 KoNLPy(코엔엘파이)로 전처리 과정을 처리하는 것 같습니다.
형태소 분석은 단어나 문장의 언어적 속성을 파악하는 것을 의미합니다.
품사의 태깅( PoS)을 통해 이루어지며 한국어 형태소 분석을 위해 Konlpy 패키지에 있는 다양한 함수를 이용하여 진행할 수 있습니다.
형태소 분석을 하는 이유 -> 형태소 단위로 의미있는 단어 를 가져가고 싶거나 품사를 태깅하여 형용사 or 명사를 추출하고 싶을 때 많이 사용합니다.
https://dacon.io/competitions/official/235670/codeshare/1823?dtype=recent
위와 같이 사용할 수 있고, 카카오에서 발표한 khaiii 분석기도 있다고 합니다 !
다음은1 각 분류기에 대한 설명입니다! 나중에 한국어로 된 텍스트 데이터를 다룰 때 사용해보세요!!
Mecab: 굉장히 속도가 빠르면서도 좋은 분석 결과를 보여준다.
Komoran: 댓글과 같이 정제되지 않은 글에 대해서 먼저 사용해보면 좋다.(오탈자를 어느정도 고려해준다.)
Kkma: 분석 시간이 오래걸리기 때문에 잘 이용하지 않게 된다.
Okt: 품사 태깅 결과를 Noun, Verb등 알아보기 쉽게 반환해준다.
khaiii: 카카오에서 가장 최근에 공개한 분석기, 성능이 좋다고 알려져 있으며 다양한 실험이 필요하다.