gloomyline/net_spider

easy demo of net_spider powered by python

Python

instance of netSpider

确定目标
- 抓取百度百科python词条页面：标题和简介
- 以及相关页面标题和简介
分析目标(抓取网站的策略)
- URL格式，限定抓取页面的范围
  
  目的：便面抓取不相干的网页，造成资源的浪费
  
  词条页面URL：/view/123.htm
- 数据格式：分析词条页面中标题和简介所在的标签的格式
  - 标题：<dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1></dd>
  - 简介：<div class="lemma-summary" label-module="lemmaSummary">***</div>
- 网页编码：HTML解析器需要指定HTML编码
  
  本实例是utf-8
- mark:定向抓取网站爬虫的抓取策略根据目标网站实时更新
编写代码
执行爬虫