简书文章地址:http://www.jianshu.com/p/efa80ef9ebd0
本文没有什么新的内容,就是提供练习、分析思路和讲解,方法步骤都可以参考我之前写的文章。都说豆瓣(图书、电影、小组)、知乎的内容是爬虫学习最好的练习,整理一下作为刚开始学习童鞋的资料,也回答一下之前有同学留言的问题,看代码就行了。另外把之前没有整理的代码,抽这几天时间集中整理一下。
豆瓣图书TOP250 URL
https://book.douban.com/top250
要抓取的字段
bookname = Field()
author = Field()
rating_nums = Field() #豆瓣评分
quote = Field() # 一句话介绍、推荐
comment_nums = Field() # 评价人数
pubday = Field()
price = Field()
url = Field()
依然是关键三步:
-
分析页面,确定循环抓取点,解析字段
selector = Selector(response) infos = selector.xpath('//tr[@class="item"]') item = DoubanItem() for info in infos: bookname = info.xpath('td/div/a/@title').extract()[0] url = info.xpath('td/div/a/@href').extract()[0]
- 确定分页的方式
for i in range(25,250,25):
url = 'https://book.douban.com/top250?start=%s'%i
yield Request(url,callback=self.parse)
- 保存数据 数据比较少,保存为csv,分析起来方便。在配置文件settings.py中两行代码:
FEED_URI=u'/Users/apple/Desktop/douban-top250.csv'
FEED_FORMAT='CSV'
######代码Github地址
####豆瓣图书TOP250数据
- 把这些书都读完需要RMB 7688.55元,要多长时间不知道
-
最贵的一本(套)书是《明朝那些事儿(1-9)》358.20元 最便宜的一本书是《呐喊》0.36元(现在肯定不是这个价吧) 最新的一本书是《无声告白》[美] 伍绮诗 2015-7
-
豆瓣评分最高的三本书 都是9.5分 红楼梦 [清] 曹雪芹 著 灌篮高手31 [日] 井上雄彦 海贼王 尾田荣一郎
-
可以对比一下简书上的读书推荐。2016你读了哪些书?-- 简书·读书