/Awesome-Korean-NLP

A curated list of resources for NLP (Natural Language Processing) for Korean

Awesome-Korean-NLP

A curated list of Natural Language Processing (NLP) of

  • NLP of Korean Text
  • NLP information written in Korean.

Feel free to contribute! or blab it here

Maintainer: Jaemin Cho

Index

  1. Tools
  2. Dataset
  3. Blogs / Slides / Researchers
  4. Papers
  5. Lectures
  6. Journals / Conferences / Institutes / Events
  7. Online Communities
  8. How to contribute

1. Tools

(Korean-specific tools are listed ahead of language-agnostic tools.)

1.1. Morpheme/형태소 분석기 + Part of Speech(PoS)/품사 Tagger

  • Hannanum (한나눔) (Java, C) [link]
    • KoNLPy (Python) [link]
  • Kkma (꼬꼬마) (Java) [link] [paper]
    • KoNLPy (Python) [link]
  • Komoran (Java) [link]
    • KoNLPy (Python) [link]
  • Mecab-ko (C++) [link]
    • KoNLPy (Python) [link]
  • Twitter (Scala, Java) [link]
    • KoNLPy (Python) [link]
    • .NET, Node.js, Python, Ruby, Elasitc Search bindings
  • dparser (REST API) [link]
  • UTagger [link]
  • Arirang (Lucence, Java) [link]
  • Rouzeta [link] [slide] [video]
  • seunjeon (Scala, Java) [link]
  • RHINO (라이노) [link]
  • KTS [paper]
  • 깜짝새 [link]

1.2. Named Entity(NE) Tagger / 개체명 인식기

1.3. Spell Checker / 맞춤법 검사기

  • PNU Spell Checker [link]
  • Naver Spell Checker [link]
  • Daum Spell Checker [link]
  • hunspell-ko [link]

1.4. Syntax Parser / 구문 분석기

  • dparser (REST API) [link]
  • NLP HUB (Java) [link]

1.5. Sentimental Analysis / 감정 분석기

1.6. Translator / 번역기

1.7. Packages

1.8. Others / 기타

  • Hangulpy (Python) [link]
    • 자동 조사/접미사 첨부, 자모 분해 및 결합
  • Hangulize (Python) [link]
    • 외래어 한글 변환
  • Hanja (Python) [link]
    • 한자 한글 변환
  • kroman [link]
  • hangul (Perl) [link]
    • Hangul Romanization
  • textrankr (Python) [link] [demo]
    • TextRank 기반 한국어 문서 요약
  • 한국어 Word2Vec [demo] [paper]
    • 한국어 Word2Vec의 analogy test 데모
  • 나쁜 단어 사전 [link]
    • crowdsourced dic about badword in korean

2. Dataset

  • Sejong Corpus [link]
  • KAIST Corpus [link]
  • Yonsei Univ. Corpus
  • Korea Univ. Corpus
  • Ulsan Univ. Corpus [link]
  • Wikipedia Dump [link] [Extractor]
  • NamuWiki Dump [link] [Extractor]
  • Naver News Archive [link]
  • Chosun Archive [link]
  • Naver sentiment movie corpus [link]
  • sci-news-sum-kr-50 [link]

3. Blogs / Slides / Researchers

3.1. Blogs

  • dsindex's blog [link]
  • 엑사젠, "혼자 힘으로 한국어 챗봇 개발하기" [link]
  • Beomsu Kim, "word2vec 관련 이론 정리" [link]
  • CPUU, "Google 자연어 처리 오픈소스 SyntaxNet 공개" (Korean tranlsation of Google blog) [link]
  • theeluwin, "python-crfsuite를 사용해서 한국어 자동 띄어쓰기를 학습해보자" [link]
  • Jaesoo Lim, "한국어 형태소 분석기 동향" [link]

3.2. Slides

  • Lucy Park, "한국어와 NLTK, Gensim의 만남" (PyCon APAC 2015) [link]
  • Jeongkyu Shin, "Building AI Chat bot using Python 3 & TensorFlow" (PyCon APAC 2016) [link]
  • Changki Lee, "RNN & NLP Application" (Kangwon Univ. Machine Learning course) [link]
  • Kyunghoon Kim, "뉴스를 재미있게 만드는 방법; 뉴스잼" (PyCon APAC 2016) [link]
  • Hongjoo Lee, "Python 으로 19대 국회 뽀개기" (PyCon APAC 2016) [link]
  • Kyumin Choi,"word2vec이 추천시스템을 만났을 때" (PyCon APAC 2015) [link]
  • 進藤裕之 (translated by Hongbae Kim), "딥러닝을 이용한 자연어처리의 연구동향" [link]
  • Hongbae Kim, "머신러닝의 자연어 처리기술(I)" [link]
  • Changki Lee, "자연어처리를 위한 기계학습 소개" [link]
  • Taeil Kim, Daeneung Son, "기계 번역 모델 기반 질의 교정 시스템" (Naver DEVIEW 2015) [link]

4. Papers

4.1. Korean

  • 김동준, 이연수, 장정선, 임해창, 고려대학교, (주)엔씨소프트, "한국어 대화 화행 분류를 위한 어휘 자질의 임베딩(2015년 동계학술발표회 논문집)" [paper] link dead

4.2. English

5. Lectures

5.1. Korean Lectures

  • Kangwon Univ. 자연언어처리 [link]
  • 데이터 사이언스 스쿨 [link]
  • SNU Data Mining / Business Analytics [link]

5.2. English Lectures

  • Stanford CS224n: Natural Language Processing [link] [YouTube]
  • Stanford CS224d: Deep Learning for Natural Language Processing [link] [YouTube]
  • NLTK with Python 3 for NLP (by Sentdex) [YouTube]
  • LDA Topic Models [link]

6. Conferences / Institutes / Events

6.1. Conferences

  • 한글 및 한국어 정보처리 학술대회 [link]
  • KIPS (한국정보처리학회) [link]
  • 한국음성학회 학술대회 [link]

6.2. Institutes

  • 언어공학연구회 [link]
    • 한글 및 한국어 정보처리 학술대회 (Since 1989, 매년 개최) [link]
    • 국어 정보 처리 시스템 경진대회 (Since 2010, 매년 개최, 주최: 문화체육관광부 및 국립국어원) [link]
    • 자연언어처리 튜토리얼 (비정기적) [link]
    • 자연어처리 및 정보검색 워크샵 [link]
  • 한국음성학회 [link]

6.3. Events / Contests

  • 국어 정보 처리 시스템 경진 대회 [link]

7. Online Communities

  • Tensorflow KR (Facebook Group) [link]
  • AI Korea (Facebook Group) [link]
  • Bot Group (Facebook Group) [link]
  • 바벨피쉬 (Facebook Group) [link]
  • Reddit Machine Learning Top posts [link]

8. How to contribute

  1. Fork this Repository, by clicking on "fork" icon at the top right corner.

  2. Get the link for the forked repo, by clicking on the green button on your page. something like, "https://github.com/[username]/Awesome-Korean-NLP.git"

  3. On your local machine, "git clone https://github.com/[username]/Awesome-Korean-NLP.git"

  4. "cd Awesome-Korean-NLP"

  5. open "README.md" with your favorite text editor.

  6. Edit.

  7. git commit -a -m "added section 8: emoticons"

  8. git push, and verify on your fork

  9. goto https://github.com/datanada/Awesome-Korean-NLP and create pull request.

  10. "compare across forks" with base: datanada/Awesome.. and head: [username]/Awesome..

[beginners guide]