liangkeng/word_frequency_analysis

爬虫+词频+词云

Python

对**宪治网(http://www.calaw.cn)爬虫

总体介绍

BeautifulSoup爬虫
jieba词频分析
wordcloud词云展示

文件详情

main.py
find_url_list.py 获取文章url
find_article_info.py 爬虫函数
url_counters.py 检测已爬虫文章数量
wb_text.txt 爬虫原始文章
tiananmen.jpg 词云原始图样
cloud_result.jpg 词云结果

执行

按照main中1.2.3.4顺序执行

todo

爬虫原始文章的存储格式：感觉txt不太好
多线程爬虫:Pool
反爬措施：可参照https://www.cnblogs.com/zhisy/p/6897604.html
自定义词库：删除不需要的词语，还有目前结果只有两字词语。
自动化执行： main中的步骤摆脱手动