/CommentRepile

基于爬虫批量爬取网页美团、单视频抖音评论

Primary LanguagePython

CommentRepile

基于爬虫批量爬取网页美团美食评论、单视频抖音美食评论

获取美团全国各地美食店网页评论

基于python的爬虫库,使用了基本的request网页同步请求模块,利用线程池获得全国城市所有美食店的评论url链接,使用异步下载获取评论信息。

获取抖音网页单视频美食评论

基于python爬虫库中selenium模块,使用无头浏览器模拟上网,半人工采集评论,效率较获取美团评论较低。

所用技能

  1. 基本网页源代码分析,动态请求分析。
  2. 分析不同数据链接载荷中细微差异,批量获取并生成。
  3. 线程池+协程+异步下载
  4. 无头浏览器获取网页数据并下载