本爬虫为**质量新闻网爬虫,主要爬取检验不合格数据。
- 先安装依赖库
pip install -r requirements.txt
- 创建数据库,和创建表
python init_db.py
- 运行爬虫
scrapy crawl cqn
scrapy startproject ChinaQualityNews
cd ChinaQualityNews
scrapy genspider -t crawl cqn 'www.cqn.com.cn'
通过scrapy 的shell命令来开启交互式的环境进行编写Xpath调试
scrapy shell 'www.baidu.com'
进入交互式环境后可以通过response
对象来获取结果。
body = response.xpath('.//body')
body
- 由于页面中大多数的表格列数不一致,而且列的数据项是乱的,所以样要完全抓取有点困难。目前只抓了2019年的数据,但是目前是按照列的多少来区分的,这样会有问题,因为时间仓促,暂时先这样。
- 正确的应该是建立表格字典,将表格的字段通过表头进行映射,找到对应表格的解析方法再进行解析。这样出来的数据就相对完整。