欢迎来到Corley的Python爬虫实战项目!
随着互联网的快速发展,海量数据充斥在网络中,如何有效地获取并处理这些数据成为一个重要的问题。Python作为一种功能强大的编程语言,其庞大的第三方库能够轻松地帮助我们实现网络数据的抓取和分析。本项目旨在通过Python爬虫技术,实现对多种网站和应用的数据抓取和整理。内容方面,从Python基础和进阶开始,包含常用工具使用、JavaScript基础、抓包工具、爬虫基础、反爬虫基础、反爬虫进阶、验证码反爬和分布式爬虫等,内容由浅入深,不仅包含了理论基础,同时也包含很多爬虫实战案例,面向副业、转行、就业和技术提升,适合新手入门和进阶爬虫技术。通过本项目,不仅可以实现更便捷地获取数据,而且可以实现提升工作效率、自动化、解放双手,从而提升工作质量和生活幸福感。
所有代码和案例都是基于Python 3.9环境安装和调试,环境的安装和配置主要依赖于conda。
1.创建虚拟环境
conda create -n pythoncrawlbase python=3.9 -y
2.进入虚拟环境并安装所依赖的库
conda activate pythoncrawlbase
conda install jupyter jieba blessed pymysql pymongo redis lxml aiohttp selenium fonttools scrapy -y
conda install paddlepaddle-gpu==2.5.2 cudatoolkit=10.2 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/Paddle/ -y
pip install paddlehub
1.Python基础
4.基础爬虫——爬取豆瓣电影:
- 爬取豆瓣Top电影——串行版
- 爬取豆瓣Top电影——线程进程版
- 爬取豆瓣Top电影——协程版
- 爬取豆瓣Top电影——aiohttp版
- 递归爬取豆瓣电影Top 250——基于Python之父Guido van Rossum的实现
5.JavaScript基础
6.基础反爬
7.浏览器自动化反爬
- 使用selenium操作edge访问百度
- 使用selenium操作Edge实现网页动态渲染反爬
- 使用selenium操作Edge实现内嵌iframe网页反爬
- 自动化工具控制浏览器被识别特征
- 使用selenium操作Edge实现浏览器特征检测反爬
8.前端技巧反爬
9.调试干扰
10.JavaScript混淆与逆向
11.JS Hook
12.环境模拟
13.验证码反爬
欢迎您通过Github Issues来提交问题与建议,也欢迎找我交流:
- 个人主页:https://github.com/corleytd
- 个人邮箱:cutercorleytd@gmail.com
- 更多细节:Python爬虫实战