/sen2vec

【TFIDF,文の分散表現】word2vec, TFIDFを用いて,文単位の分散表現を与える

Primary LanguagePython

sen2vec

コーパスのTFIDF値を算出して,その重みをもとに, 単語の分散表現を足し合わせ,文単位の分散表現を獲得するモジュールです.

単語の分散表現を与える際には,東北大学の日本語Wikipediaエンティティベクトルを用いました.

(参考)http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/

-20161101.tar.bz2 (2016年11月1日版, 1.3GB, 解凍後 2.6GB)のファイル

これにより,文単位の分散表現を獲得できます.

形態素解析器:janome 文章内の単語が,分散表現の辞書になかった場合は, その単語は考慮せずに, 文の分散表現を計算します.

使い方は, s2v_tfidf_sample.pyを参考にしてみてください. 計算効率に凝ったプログラムではないので, 実行速度は少し遅いかもしれません.