Peteling/spider

爬取steam游戏,maoyan电影,amazon图书

Python

spider

爬取steam游戏,maoyan电影,amazon图书

steam

steam爬取过程的问题

部分页面会重定向到验证页面，例如年龄验证，生日验证，未成年等等各种验证解决方法：捕捉验证之后的cookie，抓取时存入Request即可
游戏发布日期的处理很多游戏的发布日期格式不一样，数据处理的时候比较麻烦，着重分别处理了年月日,年月,年这三种格式，其他不处理
爬取了前500页的游戏资讯，因为在后面页码中很多不是游戏
数据库存储采用mongodb，不能映射python的date格式，所以日期基本是原样存入
spider继承scrapy的基本类spider

Amazon

爬取亚马逊图书过程的问题

spider继承scrapy的CrawlSpider（只用来索引下一页的链接）
数据库存储采用mysql

film

爬取猫眼电影资讯的问题

http://maoyan.com/films 猫眼电影这个网站防爬虫机制比较严格，很难一次抓取所有信息，爬取一定量电影后网站会识别到爬虫并重定向到验证码页面（至今没解决）

requirements

scrapy>=1.1.1
scrapy-fake-useragent 产生动态的 User-Agent
scrapy-proxies 配置后可以使用 IP 代理

settings

ROBOTSTXT_OBEY = False
CONCURRENT_REQUESTS = 4
DOWNLOAD_DELAY = 2
CONCURRENT_REQUESTS_PER_IP = 16