/samplecode.mallet-lda

Mallet Training, Prediction Sample

Primary LanguageScalaApache License 2.0Apache-2.0

Sample Code for Mallet LDA (ParallelTopicModel)

Mallet の gibbs-sampling LDA を使用してドキュメントのトピック分類を行うサンプルコード。

  1. 学習用とトピック推定用に使用するデータは1行に1ドキュメントが保存されているテキストファイル。
  2. 日本語の形態素解析には Kuromoji + NEologd を使用している。
$ sbt "runMain train.txt --predict predict.txt"

Maven に登録されているライブラリを使用しているが、Mallet のサイトからコマンドライン版がダウンロードできる。 コマンドラインで使用するには Getting Started with Topic Modeling and MALLET のチュートリアルを参照。