mm131: A Python repository from Alan-love

MM131妹子图片批量下载爬虫py脚本

爬取网站:MM131

爬了2000套妹子图集将近10万张，共8.5个G （图为我的腾讯云cos存储

最开始的版本其实是先解析页面再提取url链接逐个请求, 后来发现了图片的url规律： url变量只有末尾的: id/num

然后发现对req header请求头伪装一下UA用户代理和链接所在文档位置Referer 就可以直接就可以对图片进行请求,这就很舒服~

再配合上多进程+协程的一个库aiomultiprocess进行异步请求,concurrent包的futures线程池进行并发爬取,爬取速度效率大幅提升。

1.安装依赖(Python3):

pip install -r requirements.txt

运行脚本,爬虫有两个版本
windows建议运行多线程版本: thread_mm131.py
~~linux/os x 运行多进程+协程版本: aio_mm131.py 或前者皆可~~

只需

python main.py

来不及解释了，快上车！！