baike_spider
爬百度百科相关文章的标题与摘要 感觉教程很好,思路清晰明确,给老师点赞~
教程地址
慕课网:https://www.imooc.com/video/10695?_blank
爬虫流程
以下三个为测试文件不用理
- mysoup.py
- myspider.py
- html.txt
问题简单说明
- html_downloader.py下载那里,没有用urllib,使用requests代替,感觉更熟悉与方便
- html_outputer.py里面不需要对data['title']转码,添加.encode('utf-8')后,反而乱码,变成二进制了
- html_parser.py里面,去掉soup = BeautifulSoup(html_cont, 'html.parser')最后的编码from-encoding='utf-8',否则报错
- spider_main.py 开始测试可以写个5或者10,测试结束后,可以改为1000
代码执行效果图
git地址
https://github.com/lypeng29/baike_spider.git?_blank