/baike_spider

运用简单通用爬虫框架,爬去百度百科词条

Primary LanguageHTML

Python爬虫框架

通过百度百科词条爬虫实战,掌握通用爬虫入门级框架,本框架简单易懂,适合刚入门的小白同志观摩学习。

博文笔记

https://mp.csdn.net/mdeditor/74935906#

视频地址

http://www.imooc.com/learn/563

#源码结构

  • 1.爬虫调度模块 spider_main.py
  • 2.URL管理模块 url_manager.py
  • 3.网页下载模块 html_downloader.py
  • 4.网页解析模块 html_parser.py
  • 5.数据输出模块 html_outputer.py