lypeng29/baike_spider

Python

baike_spider

爬百度百科相关文章的标题与摘要感觉教程很好，思路清晰明确，给老师点赞～

教程地址

慕课网：https://www.imooc.com/video/10695?_blank

爬虫流程

以下三个为测试文件不用理

mysoup.py
myspider.py
html.txt

问题简单说明

html_downloader.py下载那里，没有用urllib，使用requests代替，感觉更熟悉与方便
html_outputer.py里面不需要对data['title']转码，添加.encode('utf-8')后，反而乱码，变成二进制了
html_parser.py里面，去掉soup = BeautifulSoup(html_cont, 'html.parser')最后的编码from-encoding='utf-8',否则报错
spider_main.py 开始测试可以写个5或者10，测试结束后，可以改为1000

代码执行效果图

git地址

https://github.com/lypeng29/baike_spider.git?_blank

效果预览

http://t.dpshop.net/python/baike_spider/output.html?_blank