コーパスのTFIDF値を算出して,その重みをもとに, 単語の分散表現を足し合わせ,文単位の分散表現を獲得するモジュールです.
単語の分散表現を与える際には,東北大学の日本語Wikipediaエンティティベクトルを用いました.
(参考)http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/
-20161101.tar.bz2 (2016年11月1日版, 1.3GB, 解凍後 2.6GB)のファイル
これにより,文単位の分散表現を獲得できます.
形態素解析器:janome 文章内の単語が,分散表現の辞書になかった場合は, その単語は考慮せずに, 文の分散表現を計算します.
使い方は, s2v_tfidf_sample.pyを参考にしてみてください. 計算効率に凝ったプログラムではないので, 実行速度は少し遅いかもしれません.