2017년 6월 27일 (화) Spark Day 2017의 세션 Spark & Zeppelin을 활용한 한국어 텍스트 분류 발표에 사용된 노트북입니다.
네이버 영화 리뷰 데이터셋에 대해 Word2Vec을 적용해보고 감정 분류를 합니다. (영화 리뷰가 긍정적인지 부정적인지)
전체 목록 (총 7개의 노트)
네이버 영화 리뷰 데이터셋입니다. 총 20만개의 리뷰로 구성되어 있으며 긍정적인 리뷰는 1, 부정적인 리뷰는 0으로 labeling 되어 있습니다. 자세한 내용은 아래의 출처를 참고해주세요!
Spark와 Zeppelin은 설치하셨다고 가정합니다.
저장소를 원하는 곳에 복제합니다.
git clone git@github.com:uosdmlab/playdata-zeppelin-notebook.git
복제한 저장소의 notebook
디렉터리 안의 내용물들을 $ZEPPELIN_HOME/notebook/
밑으로 복사
기존에 사용하던 노트들과 저장소의 노트들이 섞이는 것이 싫다면 추천하는 방법!
$ZEPPELIN_HOME/conf/zeppelin-env.sh
파일을 열어 다음과 같은 라인 추가.
export ZEPPELIN_NOTEBOOK_DIR="<저장소경로>/notebook"
추가 후 Zeppelin을 재시작합니다.
$ZEPPELIN_HOME/bin/zeppelin-daemon.sh restart
다시 원래 노트들을 사용하려면 $ZEPPELIN_HOME/conf/zeppelin-env.sh
에 추가한 라인을 지우거나 주석처리하고 Zeppelin을 재실행하시면 됩니다.
한국어 형태소 분석기 spark-nkp을 사용하기 위해 Spark interpreter dependency에 다음과 같이 추가해주세요.
artifact com.github.uosdmlab:spark-nkp_2.11:0.2.1
GitHub issue로 올려주셔도 되고(한국어 가능), 아래 주소로 메일주셔도 됩니다.
김태준(i2r.jun@gmail.com)