通过百度百科词条爬虫实战,掌握通用爬虫入门级框架,本框架简单易懂,适合刚入门的小白同志观摩学习。
https://mp.csdn.net/mdeditor/74935906#
http://www.imooc.com/learn/563
#源码结构
- 1.爬虫调度模块 spider_main.py
- 2.URL管理模块 url_manager.py
- 3.网页下载模块 html_downloader.py
- 4.网页解析模块 html_parser.py
- 5.数据输出模块 html_outputer.py