该项目主要记录Scrapy的安装、学习及爬虫案例。
系统:win10(64位)
版本:python3.6
框架:scrapy1.5.0
扩展下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 需要根据自己的版本进行选择,分别下载。
如运行环境一致,也可以通过extension目录进行安装
$ pip3 install Twisted-17.9.0-cp36-cp36m-win_amd64.whl
然后运行根目录下的文件
$ pip3 instlal -r requirements.txt
新建虚拟环境并激活虚拟环境:
$ virtualenv --no-site-packeages my_env
$ my_env/Scripts/activate
Scrapy文档地址:https://docs.scrapy.org/en/latest/
在开始爬取之前,您必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中,运行下列命令:
$ scrapy startproject tutorial
该命令将会创建包含下列内容的 tutorial 目录:
tutorial/
scrapy.cfg
tutorial/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
...
这些文件分别是:
scrapy.cfg: 项目的配置文件
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.
第一个项目官方提供的spider,在tutorial/tutorial/spiders下的quotes_spider.py
$ cd tutorial/tutorial
$ scrapy crawl quotes
*如果windows下面没有安装pypiwin32会遇到报错:
ModuleNotFoundError: No module named 'win32api'
当返回
2018-02-02 14:36:13 [scrapy.core.engine] INFO: Spider closed (finished)
表示成功。
爬虫网站及对应目录如下:
https://www.iamue.com/ => ./iamue_web 具体查看iamue_web的README.md