/papa

一枚python小爬虫

Primary LanguagePython

一枚Python小爬虫

依赖

  • requests 发送http请求
  • lxml 解析html文档
  • pybloomfiltermmap 过滤已经抓取的url

以上可使用 sudo pip install XXX 安装

例子

百度新闻