计划写一旅游网站,还在进行中,数据库将从携程等旅游网站中获取。
是一些 Scrapy 的设置信息
只需要记得把修改 piplines 和打开 ROBOTSTXT_OBEY 即可
毕竟也没必要爬的太快
将数据保存到数据库中
这里用的是 MongoDB
提前定义好所有数据的字段
携程有专门的景点页,很方便爬取
只需要获取每一城市的url后半段,再将url拼接全就可以访问。
本项目中只爬取的国内城市景点
需要注意进入城市页首页的图片是js渲染的,不能直接用。右侧的缩略图图片太小,因此需要进入城市图片页再获取图片。
城市中的景点也是用同样的方法,url拼接直接访问。
得到的数据保存在 MongoDB 中。
设置 pipelines 就可以了
还有很多不完善的地方,近期会继续完善。。。。