keywordk:搜索的关键字
count:本页文章数量
cur_tab:当前页数
F12选择Network/All,选择preview/data节点
ToutiaoCrawler\ToutiaoCrawler\demo.py 这里可以根据需求获取文章标题、标签、内容链接
--------------------以下为项目代码,部分接口已失效--------------------
- 需要python3.6版本
- 首先安装需要的包,使用pycharm打开会自动安装
- 创建数据库和数据表ToutiaoCrawler/toutiao.sql;配置mysql连接ToutiaoCrawler/ToutiaoCrawler/Utils/Util.py
- 运行Crawler/get_toutiao_news_byapi.py 获取新闻列表【此接口16年开发,部分已失效】
- 运行Crawler/get_toutiao_content_byapi.py 获取新闻内容
- (到这一步数据库已经有内容了)
- 运行Analysis/levenshtein.py 计算编辑距离
- 运行svd/svd.py 奇异值分解
- 运行svd/test_kmeans.py 进行聚类分析和绘图
- 如果需要txt文件,执行Utils/list_to_txt.py