/doutu

斗图表情包爬虫,爬取数万个表情包,一辈子都用不完

Primary LanguagePython

斗图表情包爬虫

介绍

从网上提供的 API 爬取数万个表情包图片,包括 jpg 和 gif 两种格式,采用分爬虫管理,分别有关键字爬虫,图片链接爬虫和图片爬虫三个部分,可以分别执行,数据保存方式分别为文件保存和 mongodb 保存,在图片爬虫中采用了多进程爬取,加快了爬虫速度,每套表情包分别用一个文件夹来保存,爬取的图片总大小约10G,爬虫参数可以任意更改以爬取更多的图片或者更少的图片。

Requirements

  • requests
  • bs4
  • pymongo

Environment

python3