pip install -r requirements.txt
安装依赖包- 在 items.py 中定义
item
的字段(基本不用改现有的内容) - 在 pipelines.py 中完成将爬取的
item
存入数据库的逻辑(基本不用改现有的内容) - 为了爬取某个网站,在 spiders 文件夹下新建一个 *_spider.py 的文件,完成将网页解析为
item
的逻辑 - 在项目目录下用命令行跑
scrapy shell 想要解析的url
,可以交互式地尝试解析网页的方法,参照 scrapy 的官方文档