PJdacainiao/Data-Scratch-with-Python

利用Python进行数据采集

Python

Python 爬虫学习路线

Python版本--2.7.11版本
IDE开发环境--PyCharm
运行平台--Windows 7
Python入门书籍推荐--《Python简明教程》

Part1、Python爬虫初窥

——第一部分主要学习python爬虫过程中用到的一些基本的工具

网页页面下载的工具

页面内容提取的工具

实战项目

Part2、数据的简单存储

——第二部分学习将数据存放到Excel、MySQL 中

通过第一部分的学习我们已经学会如何将爬取到的数据存储在txt文件中了，这一部分主要简单介绍如何利用MySQLdb、xlsxwriter这些模块将数据存放到Excel表格、MySQL数据库中

Excel
MySQL

实战项目

Part3、登录页面的爬取

——第三部分介绍如何爬取需要登录的页面

有很多页面都是需要我们登录了才能够访问的，比如知乎，新浪微博，豆瓣，淘宝，京东我们在这一部分介绍两种爬取需要登录页面的方法；分别是表单提交和利用Selenium来控制浏览器

实战项目

Part4、初识多进程、多线程&协程

——第四部分主要简单的介绍多线程、多线程和协程的基本概念

为了提高我们的爬虫爬取的速度，于是在原有的单进程的基础上，我们引入了多进程和多线程的概念，它可以大幅度提高我们爬取的效率

实战项目

网易云音乐

Part5、Scrapy框架

——第五部分介绍一个非常强大的爬虫框架Scrapy

Scrapy是一个使用Python编写的，轻量级的框架，可以大大提高开发的效率，缩短开发的时间

实战项目