对**宪治网(http://www.calaw.cn)爬虫
- BeautifulSoup爬虫
- jieba词频分析
- wordcloud词云展示
- main.py
- find_url_list.py 获取文章url
- find_article_info.py 爬虫函数
- url_counters.py 检测已爬虫文章数量
- wb_text.txt 爬虫原始文章
- tiananmen.jpg 词云原始图样
- cloud_result.jpg 词云结果
按照main中1.2.3.4顺序执行
- 爬虫原始文章的存储格式:感觉txt不太好
- 多线程爬虫:Pool
- 反爬措施:可参照https://www.cnblogs.com/zhisy/p/6897604.html
- 自定义词库: 删除不需要的词语,还有目前结果只有两字词语。
- 自动化执行: main中的步骤摆脱手动