/Data-Scratch-with-Python

利用Python进行数据采集

Primary LanguagePython

Python 爬虫学习路线

  • Python版本--2.7.11版本
  • IDE开发环境--PyCharm
  • 运行平台--Windows 7
  • Python入门书籍推荐--《Python简明教程》

Part1、Python爬虫初窥

——第一部分主要学习python爬虫过程中用到的一些基本的工具

网页页面下载的工具

页面内容提取的工具

实战项目

Part2、数据的简单存储

——第二部分学习将数据存放到Excel、MySQL 中

通过第一部分的学习我们已经学会如何将爬取到的数据存储在txt文件中了,这一部分主要简单介绍如何利用MySQLdbxlsxwriter这些模块将数据存放到Excel表格、MySQL数据库中

实战项目

Part3、登录页面的爬取

——第三部分介绍如何爬取需要登录的页面

有很多页面都是需要我们登录了才能够访问的,比如知乎新浪微博豆瓣淘宝京东我们在这一部分介绍两种爬取需要登录页面的方法;分别是表单提交和利用Selenium来控制浏览器

实战项目

Part4、初识多进程多线程&协程

——第四部分主要简单的介绍多线程、多线程和协程的基本概念

为了提高我们的爬虫爬取的速度,于是在原有的单进程的基础上,我们引入了多进程和多线程的概念,它可以大幅度提高我们爬取的效率

实战项目

Part5、Scrapy框架

——第五部分介绍一个非常强大的爬虫框架Scrapy

Scrapy是一个使用Python编写的,轻量级的框架,可以大大提高开发的效率,缩短开发的时间

实战项目