最近学习python写的一点爬虫,记录总结一些问题
使用bs4爬取多张图片。
爬取目标站点:http://www.tuku.cn/bizhi/tuji2715_page1.aspx ~ http://www.tuku.cn/bizhi/tuji2715_page4.aspx 下的高清大图。
爬取目标站点:http://www.tuku.cn/
在前一爬虫的基础加入进程池
使用多进程爬取指定小说网,原本计划是爬完,但是本地数据库mysql装太多,加载太慢,不过按照进度应该是可以爬完的。
爬取目标站点: http://www.quanshuwang.com/
使用多线程爬取今日头条图片下搜索'美女'的前80条结果里面的所有图片,并加入数据库(PS:美女项目可修改),主要是模拟请求然后分析异步返回的json结果。 爬取目标站点: https://www.toutiao.com/
爬取目标站点:http://www.budejie.com/
使用requests库爬取小视频