Wikipediaのダンプイメージを用いたWord2Vecモデル学習パイプライン

ダウンロード、前処理、モデル生成と手間がかかる一連のモデル学習作業をパイプラインとして再現可能な形にまとめました。

依存OSS

動作確認環境

Ubuntu 14.04 LTS

使用方法

# Ubuntu向け環境構築
./00_prepare_envirionment_ubuntu.bash
# データダウンロード及び学習
./01_download_and_train.sh
# 学習結果を用いて類似度等を計算する
## 北海道の市町村同士の類似度を計算する
./02_calc_similarity_of_hokkaido_communes.sh
## なんとなく楽しそうな加減算をしてみる
./03_operate_words.py

参考文献