Python_work

注：此代码为聚类模块代码，支持语言python3.6，运行系统Windows、Linux均可。

执行代码crawler.py，从学校新闻网站爬取所有新闻，存储到nefu_news.xlsx里面；
执行代码jieba_news.py，利用哈工大的停用词表（存储在discontinuation_words.txt中）去除停用词，生成经过结巴切词后的新闻信息，并将其存储在jieba_nefu_news.xlsx中；
为方便后面的计算或对接一些sklearn或w2v等工具，执行代码change_xlsx_to_txt.py，将所有新闻的分词结果存储在nefu_news.txt中，每行表示一条新闻的分词结果；
执行get_tfidf.py，计算新闻文本的tfidf矩阵，并将结果存储到Tfidf_nefu_news.txt中；
执行K_means.py，先执行包含肘部法则的代码，得到畸变程度变化曲线，判断聚几类合适，然后将这部分代码注释掉，进行最终的聚类；
执行get_cluster.py，将聚类结果保存到cluster_id.txt与cluster_content.txt中；
执行jieba_data.py，对聚好类的新闻内容进行切词；
执行data_main_word.py，得到每一类出现频率高的词语，挑选一个作为该类的类名。

Pengxin-Guo/Python_work