Doom

介绍

这个项目是实现了文本聚类算法，使用的是 Kmeans。

这里的文本是来自于 Lucifer 项目中的数据。前期需要做很多的处理。包括中文数据的分词，计算相关度。使用的工具分别是 jieba 和 word2vec。

最后生成的文件为 word_file word_vec_file。

这个版本是非 mapreduce 实现，关于 mapreduce 是版本看 Luna。

前期处理文本需要用到的代码在 script 中，使用 python 来做的。把所有的文件导入到 idea 中运行即可。可能需要改文件的路径。