/spider-learning

chatting for network spiders...

Primary LanguagePython

Spider Learning

Chatting on web spiders...

爬虫的基本知识

爬虫是通过向网站服务器发送请求来获取响应,并通过解析响应来获取所需信息的工具。

爬虫基本技术入门

首先,根据笔者的习惯,推荐各位使用Python作为编写爬虫的语言,因为Python的库环境丰富,安装方便简单,对新手较为友好。 请各位使用Windows系统的同学们选择以下两种方式中的一种来进行实验环境的搭配。

Bash on Windows

请各位同学去Windows的软件商城搜索Ubuntu并下载,来建立Windows上的Linux环境

随后启动Ubuntu,在命令行中顺次输入以下内容:

sudo apt update
sudo apt upgrade
sudo apt install python3 python3-pip
pip3 install requests beautifulsoup4

以上命令将完成Linux环境下的Python3爬虫环境配置。

Pycharm

请各位同学去百度搜索Pycharm并去官方网站下载该程序

依次点选File->New->Python File,建立一个新的Python脚本

依次点选File->Settings...->Project: ***.py->Project Interpreter

于右边Project Interpreter下拉菜单中选择Python 3.6,如果没有Python 3.6,请选择Show All...,在弹出选项卡右边点击+,在新的选项卡中找到解释器的路径,并添加。(可能有些同学并没有Python 3.6环境,请在网上搜索“在Windows中安装Python 3.6环境”的方法)

Settings一级菜单中选择新添加的解释器环境,之后点击右边的+

在最上方的搜索栏中搜索:requestsbeautifulsoup4,并点击左下角的按钮安装环境包

一路确定返回编辑器界面,此时点击右上角的|>按钮即可用解释器环境去运行脚本

爬虫的要点讲解

首先观察网站结构

Chrome浏览器中按F12按钮调出开发者视图

在要提取的信息上点击鼠标右键,选择检查

这将会在开发者视图中选中所选取的元素,这就是我们要提取的对象

通过requests库来获取请求

r = requests.get('url', headers=your_headers)

其中headers需要进行设置,否则请求很大概率会被对方后端拒绝

开发者视图Networks选项卡中任意点选一个GET请求

Request Header中的User-AgentRefererCookiecopy下来

放进headers字典中,即完成了headers的配置

通过BeautifulSoup来解析Response

值得赞美的BeautifulSoup支持多种parser,不过对于像豆瓣网这样成型,规范的网站,基础的parser就已经够用

Response放入BeautifulSoup中进行解析

soup = BeautifulSoup(r.text)

这样就得到了整个网站的全部结构,之后对具体想要了解的对象进行解析即可。

后注

本代码仓库将开源笔者编写的爬虫程序,供大家参考。