text_classification

work 說明

  • 爬取ptt的版:Baseball, cat, dog, MobileComm, NBA, PC_Shopping
  • 各版各有10000篇文章
  • 存至 mongodb
  • 用word2vec轉成詞向量後,用lstm進行文本分類

套件

  • keras

程式說明

  • prepare_word2vec_corpus.py 用來產生訓練 word2vec 的文檔
  • train_word2vec_model.py 用來訓練 word2vec model
  • prepare_training_data.py 準備六個版的data
  • train_nn.py 訓練lstm, 以 9:1的方式訓練

結果