Requirement

  • Python3.x
  • JUMAN & KNP

ROAD MAP

  1. keyword extraction
  2. similarity 2.1. keyword similarity 2.2. all document similarity 2.3. sentence per sentence similarity
  3. all words clustering & word distribution per document

Directories

  • resources 原文に近い状態のファイルディレクトリ。著作権とかに触れたくないので、commit対象外
  • processed_resources 加工済みファイル。可視化などに使うデータ。commit対象範囲