sen2vec

コーパスのTFIDF値を算出して，その重みをもとに，単語の分散表現を足し合わせ，文単位の分散表現を獲得するモジュールです．

単語の分散表現を与える際には，東北大学の日本語Wikipediaエンティティベクトルを用いました．

-20161101.tar.bz2 (2016年11月1日版, 1.3GB, 解凍後 2.6GB)のファイル

これにより，文単位の分散表現を獲得できます．

形態素解析器:janome 文章内の単語が，分散表現の辞書になかった場合は，その単語は考慮せずに，文の分散表現を計算します．

使い方は， s2v_tfidf_sample.pyを参考にしてみてください．計算効率に凝ったプログラムではないので，実行速度は少し遅いかもしれません．

xjtuerz0/sen2vec