LexRank: Graph-based Lexical Centrality as Salience in Text Summarization のうち, Continuous LexRankを実装しました.
- macOS
- VisualStudio
- C++ 12.0.5
$./lexrank 入力データのファイル名 べき乗法の回数 テレポーテーションの確率
入力データはtf-idfやpmi値を各要素ごとに求めたものを使用する. また,入力データのフォーマットは以下の通りである.
file_id,element_id:value,element_id:value,element_id:value, ..... file_id,element_id:value,element_id:value,element_id:value, ..... file_id,element_id:value,element_id:value,element_id:value, .....
-
スパースな行列を疎行列として扱う
CSR形式で疎行列を扱うようにし,少ないメモリで記述できるようにした.
-
式変形を行い, 大量のデータでも計算できるようにした
計算結果を陽に持たないように式変形を行うことで大量のデータでも計算できるようにした. また,隣接行列を計算する際には全ての要素が1の縦ベクトルを使用することで,大量のデータでも計算できるようにした.
Twitter : @kazun6ri
slideshare : KazunariHemmi