embedding tutorials

본 레파지토리는 자연언어처리의 근간이 되는 각종 임베딩 기법들에 관련한 튜토리얼입니다. 한국어 처리를 염두에 두고 작성됐습니다. 본 레파지토리에 있는 코드를 실행하면 corpus preprocess, embedding, fine-tuning 등을 수행할 수 있습니다. 이 모든 과정을 안내하는 튜토리얼 페이지는 다음과 같습니다.

http://ratsgo.github.io/embedding

book

본 튜토리얼은 다음 도서를 보완하기 위해 작성됐습니다. 도서를 구매하지 않아도 튜토리얼 수행에 문제는 없으나 일부 내용은 도서를 참고해야 그 맥락을 완전하게 이해할 수 있습니다. 다음 그림을 클릭하면 도서 구매 사이트로 이동합니다.

정오표

embedding methods

본 튜토리얼에서 다루는 임베딩 기법은 다음과 같습니다.

단어 수준 임베딩
- Latent Semantic Analysis
- Word2Vec
- GloVe
- FastText
- Swivel
문장 수준 임베딩
- Weighted Embeddings
- Latent Semantic Analysis
- Latent Dirichlet Allocation
- Doc2Vec
- Embeddings from Language Models (ELMo)
- Bidirectional Encoder Representations from Transformer (BERT)

corpus preprocess

임베딩 학습데이터를 만들기 위해서는 전처리(preprocess)를 해야 합니다. 본 튜토리얼에서 다루는 오픈소스 패키지는 다음과 같습니다.

KoNLPy : http://konlpy.org
Khaiii : https://github.com/kakao/khaiii
soynlp : https://github.com/lovit/soynlp
sentencepiece : https://github.com/google/sentencepiece

embedding fine-tuning

네이버 영화 리뷰 말뭉치(NSMC)를 가지고 임베딩을 파인튜닝하는 방법을 실습합니다. 영화 댓글(문서)를 입력으로 하고 긍/부정 극성(polarity)을 분류하는 태스크를 수행합니다. 본 튜토리얼에서 다루는 임베딩 파인튜닝 기법은 다음과 같습니다.

문장 수준 임베딩 활용 : Word2Vec, FastText, Swivel + Bi-LSTM with attention layer
ELMo 활용 : ELMo layer + Bi-LSTM with attention layer
BERT 활용 : BERT layer + Fully-connected layer

code

본 레파지토리의 디렉토리 및 코드 구조는 다음과 같습니다.