/ctrip

使用Scrapy从携程获取数据

Primary LanguagePython

Scrapy获取携程景点信息

计划写一旅游网站,还在进行中,数据库将从携程等旅游网站中获取。

项目介绍

setting.py

是一些 Scrapy 的设置信息

只需要记得把修改 piplines 和打开 ROBOTSTXT_OBEY 即可

毕竟也没必要爬的太快

pipelines.py

将数据保存到数据库中

这里用的是 MongoDB

items.py

提前定义好所有数据的字段

Spider

携程有专门的景点页,很方便爬取

只需要获取每一城市的url后半段,再将url拼接全就可以访问。

本项目中只爬取的国内城市景点

需要注意进入城市页首页的图片是js渲染的,不能直接用。右侧的缩略图图片太小,因此需要进入城市图片页再获取图片。

城市中的景点也是用同样的方法,url拼接直接访问。

得到的数据保存在 MongoDB 中。

设置 pipelines 就可以了

还有很多不完善的地方,近期会继续完善。。。。