/Python_work

大创项目---个性化高校新闻分类推荐应用研究

Primary LanguagePython

Python_work

大创项目---个性化高校新闻分类推荐应用研究

注:此代码为聚类模块代码,支持语言python3.6,运行系统WindowsLinux均可。

  1. 执行代码crawler.py,从学校新闻网站爬取所有新闻,存储到nefu_news.xlsx里面;
  2. 执行代码jieba_news.py,利用哈工大的停用词表(存储在discontinuation_words.txt中)去除停用词,生成经过结巴切词后的新闻信息,并将其存储在jieba_nefu_news.xlsx中;
  3. 为方便后面的计算或对接一些sklearnw2v等工具,执行代码change_xlsx_to_txt.py,将所有新闻的分词结果存储在nefu_news.txt中,每行表示一条新闻的分词结果;
  4. 执行get_tfidf.py,计算新闻文本的tfidf矩阵,并将结果存储到Tfidf_nefu_news.txt中;
  5. 执行K_means.py,先执行包含肘部法则的代码,得到畸变程度变化曲线,判断聚几类合适,然后将这部分代码注释掉,进行最终的聚类;
  6. 执行get_cluster.py,将聚类结果保存到cluster_id.txtcluster_content.txt中;
  7. 执行jieba_data.py,对聚好类的新闻内容进行切词;
  8. 执行data_main_word.py,得到每一类出现频率高的词语,挑选一个作为该类的类名。