/Spark-tf-idf

spark

Primary LanguageScala

Calculate tf-idf for Newspaper using Spark.

使用tf-idf对抓取的新闻计算特征向量,计算的特征向量可以用于以后对新闻的聚类分析。 计算使用了spark大数据处理框架,当文章数量很多的时候可以显著的提高计算的速度。 对新闻进行预处理的类需要的代码没有包括在里面。