CDUT-AI-Club/Web-Scraping-Journey-with-Python

本项目计划用于2024成都理工大学CDUT人工智能协会技术培训使用

PythonMIT

Python爬虫培训

在这个项目中，我们将带你深入探索 Python 爬虫的世界。从基础的网页结构到高级的数据获取技巧，我们的课程为你准备了全面的实战演练。

本项目计划用于2024成都理工大学人工智能协会技术培训使用。

目录

教学大纲

第0节网页前端基础

掌握HTML的语言逻辑和文件基本结构
能够识别HTML的常用标签，掌握通用容器的概念
了解HTML和CSS的关系
了解HTML和DOM、JavaScript之间的关系

第1节爬虫基础

初步了解爬虫程序的设计逻辑
初步掌握request、beautifulsoup库的用法
学会用os库创建文件夹并保存文件
了解HTTP/HTTPS协议的基本内容
理解爬虫的伦理和法律

第2节图片爬取

进一步掌握爬虫程序的设计逻辑
进一步掌握beautifulsoup库的用法
学会异常处理、使用代理头等爬虫优化方法
学会通过读取csv文件进行爬虫（pandas基础）

第3节小说爬取

进一步了解爬虫程序的设计逻辑
进一步掌握beautifulsoup、os库的用法
学会延长响应时间、增加请求次数等爬虫优化方法
学会将请求失败的日志信息输出到csv文件中（pandas基础）

第4节使用API获取数据

进一步掌握request库的用法
学会使用JSON文件保存数据
学会看懂官方文档

第5节使用selenium爬取动态内容

进一步掌握os库的用法
学会下载安装chrome和chromedriver
了解使用selenium进行爬虫的流程

第6节使用scrapy框架进行爬虫

感受所谓“框架”的含义
了解使用scrapy框架进行爬虫的基本流程

演示代码

演示代码不做教学要求（即不用手把手书写过程），而是作为正面/反面教材去讲解其中值得学习/反思的地方

许可证

本项目采用 MIT 许可证。详情请参阅 LICENSE 文件。