Theanoで実装されたskip-thoughtモデルを日本語文に適用。
Python2 他ライブラリ多数(MeCab等)
Sent2vec : ryankiros氏のskip-thoughtモデルを日本語に対応させたもの。
skip-thought : 実行ファイル(Similarity_a_file.py)と自作関数ファイル(funcs_treatData.py)
実行ファイルSimilarity_a_fileに辞書作成・訓練・テストが記述されている。
実行の際は必要に応じてコメントアウトする。
$ THEANO_FLAGS=mode=FAST_RUN,device=cpu,floatX=float32 python Similarity_a_file.py
embed_map = word2vec.load('ja.bin')
※学習済みword2vecモデルをリンク等から別途ダウンロードする必要がある。
skip-thoughtモデル
日本語学習済みword2vecモデル
Skip-thoughtを用いたテキストの数値ベクトル化 - Platinum Data Blog