2022-1 언어와 컴퓨터(LING405) 수업에서 기말과제로 진행한 <2018 네이버 NLP Challenge>의 NER(Named Entity Recognition, 개체명인식) 과제를 해결한 과정을 기록해둡니다.

세부적인 과제 해결과정은 Jupyter Notebook 및 pdf 파일 을 참고하세요.


과제 요구사항

  • NLTK의 나이브 베이즈 분류기를 활용해 정확도 87% 이상의 모델을 설계할 것.
  • 모듈은 re, os, nltk, Hangul.py 모듈만 사용가능.
    • 별도의 한국어 형태소 분석기를 사용하지 말 것.
  • 언어학적으로 적절한 특징을 설정하고, 해당 특징을 설정한 이유를 설명할 것.
  • validation set은 고려하지 말고, test.txt를 테스트데이터로, train.txt를 학습용데이터로 사용할 것.

과제 수행 결과

  • 언어학적 특징들을 활용해 나이브베이즈분류기를 구축한 결과,
    • 학습 데이터셋에 대해서는 93.18%,
    • 테스트 데이터셋에 대해서는 **88.15%**의 정확도를 확인할 수 있었다.