Python 爬虫学习路线 Python版本--2.7.11版本 IDE开发环境--PyCharm 运行平台--Windows 7 Python入门书籍推荐--《Python简明教程》 Part1、Python爬虫初窥 ——第一部分主要学习python爬虫过程中用到的一些基本的工具 网页页面下载的工具 Urllib2 Requests 页面内容提取的工具 正则表达式 BeautifulSoup lxml & Xpath 实战项目 百度百科词条 糗事百科 百度贴吧 淘宝MM照片 Part2、数据的简单存储 ——第二部分学习将数据存放到Excel、MySQL 中 通过第一部分的学习我们已经学会如何将爬取到的数据存储在txt文件中了,这一部分主要简单介绍如何利用MySQLdb、xlsxwriter这些模块将数据存放到Excel表格、MySQL数据库中 Excel MySQL 实战项目 高考分数线 豆瓣图书Top250 Part3、登录页面的爬取 ——第三部分介绍如何爬取需要登录的页面 有很多页面都是需要我们登录了才能够访问的,比如知乎,新浪微博,豆瓣,淘宝,京东我们在这一部分介绍两种爬取需要登录页面的方法;分别是表单提交和利用Selenium来控制浏览器 实战项目 知乎 手机&电脑版新浪微博 豆瓣 qq空间 SJTU教务管理信息系统 GDUT教务管理信息系统 Part4、初识多进程、多线程&协程 ——第四部分主要简单的介绍多线程、多线程和协程的基本概念 为了提高我们的爬虫爬取的速度,于是在原有的单进程的基础上,我们引入了多进程和多线程的概念,它可以大幅度提高我们爬取的效率 实战项目 网易云音乐 Part5、Scrapy框架 ——第五部分介绍一个非常强大的爬虫框架Scrapy Scrapy是一个使用Python编写的,轻量级的框架,可以大大提高开发的效率,缩短开发的时间 实战项目 豆瓣图书Top250 satomi_pic airi_pic