Brucepk/DoubanSpider

python 爬虫爬取豆瓣读书信息

Python

DoubanSpider

python 爬虫爬取豆瓣读书信息

程序主要是由 6 个函数组成：

get_html()：请求页面，返回页面 html 源码。

get_pageurl(base_url)：从 html 源码中提取分页链接部分字段。

def bookinfo(url)：提取图书信息，以列表形式返回。

get_num(person)：判断评价人数，没有评价人数的按 10 人处理。

write2csv()：将图书信息保存为 csv 文件。

main()：程序执行的主函数。

程序思路：

1.分析豆瓣读书链接，分析分页链接规律。

2.循环提取链接中书本信息。

3.将书本信息保存为 csv 文件