LukeLike/wsm_crawler

Python

工作流

pip install -r requirements.txt 安装依赖包
在 items.py 中定义 item 的字段（基本不用改现有的内容）
在 pipelines.py 中完成将爬取的 item 存入数据库的逻辑（基本不用改现有的内容）
为了爬取某个网站，在 spiders 文件夹下新建一个 *_spider.py 的文件，完成将网页解析为 item 的逻辑
在项目目录下用命令行跑 scrapy shell 想要解析的url，可以交互式地尝试解析网页的方法，参照 scrapy 的官方文档