注:此代码为聚类模块代码,支持语言python3.6
,运行系统Windows
、Linux
均可。
- 执行代码
crawler.py
,从学校新闻网站爬取所有新闻,存储到nefu_news.xlsx
里面; - 执行代码
jieba_news.py
,利用哈工大的停用词表(存储在discontinuation_words.txt
中)去除停用词,生成经过结巴切词后的新闻信息,并将其存储在jieba_nefu_news.xlsx
中; - 为方便后面的计算或对接一些
sklearn
或w2v
等工具,执行代码change_xlsx_to_txt.py
,将所有新闻的分词结果存储在nefu_news.txt
中,每行表示一条新闻的分词结果; - 执行
get_tfidf.py
,计算新闻文本的tfidf
矩阵,并将结果存储到Tfidf_nefu_news.txt
中; - 执行
K_means.py
,先执行包含肘部法则的代码,得到畸变程度变化曲线,判断聚几类合适,然后将这部分代码注释掉,进行最终的聚类; - 执行
get_cluster.py
,将聚类结果保存到cluster_id.txt
与cluster_content.txt
中; - 执行
jieba_data.py
,对聚好类的新闻内容进行切词; - 执行
data_main_word.py
,得到每一类出现频率高的词语,挑选一个作为该类的类名。