/effective_python

:snake:优雅的Python~,这里是练习的例子以及记录到的大神优雅的Python代码:green_book:

Primary LanguagePythonMIT LicenseMIT

effective_python

基础爬虫框架主要包括五大模块,分别为爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。功能分析如下:

  • 爬虫调度器主要负责统筹其他四个模块的协调工作。
  • URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。
  • HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。
  • HTML解析器用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效数据交给数据存储器。
  • 数据存储器用于将HTML解析器解析出来的数据通过文件或者数据库的形式存储起来