/Taohuazu

a spider on Taohuazu.com which can use for download or do more

Primary LanguagePythonApache License 2.0Apache-2.0

仅供个人娱乐

桃花族论坛 v1.0


  1. ASNOCODE
  2. ASCODE
  3. USNOCODE
  • open proxy from some website which has many free IP pools

  • 可替换字符串为:"thz6.com",这应该是是个输入值,先判断get是否返回200,否则,重新输入新的域名.

  • 遍历构造每个主页面,收集以下主信息体:

    1. 标题
    2. url
    3. 时间
  • 通过收集的url得到二级页面并且获取以下信息体:

    1. 番号

    只针对"亚洲有码"

    1. 图片

    1张封面+3张内容为次,即封面必有

    1. 种子

    可直接获取,无需进一步处理

  • multiprocess.pool

  • 下载

  • 更新的内容以邮件的形式发送到1763515750@qq.com

    1. url
    2. 标题
  • 部署到服务器定时爬取,并且发送健康报告.


桃花族论坛 v2.0

Time: 2018.09.10

  • 基于提高爬取速率,防止IP被禁
  1. 重新定义匹配正则表达式
  2. 减少固定变量,类似域名,某个类型的主要www表达结构
  3. 开启多进程,完成V1.0目标
  4. 提供仅限每个类型下,2到3个页面的更新爬取功能.
  5. 对V1.0添加异常处理,完善逻辑