python 爬虫爬取豆瓣读书信息
程序主要是由 6 个函数组成:
get_html():请求页面,返回页面 html 源码。
get_pageurl(base_url):从 html 源码中提取分页链接部分字段。
def bookinfo(url):提取图书信息,以列表形式返回。
get_num(person):判断评价人数,没有评价人数的按 10 人处理。
write2csv():将图书信息保存为 csv 文件。
main():程序执行的主函数。
程序思路:
1.分析豆瓣读书链接,分析分页链接规律。
2.循环提取链接中书本信息。
3.将书本信息保存为 csv 文件