/spider-diamond

💎 钻石数据爬虫(仅做 Python 语言学习使用)。

Primary LanguagePython

💎 钻石数据爬虫程序

TODO 清单

  1. ✅ 完善主表数据爬取程序,通过多条件的请求挖掘潜在主数据(基于高级搜索数据);
  2. ✅ 主表数据爬取程序增加多线程方式,提高爬取速度(当前跑完全部数据的时间在 1~2 个小时);
  3. 主表数据完善,通过爬取详情页获取其他信息,如图片、尺寸参数等;
  4. ✅ 增加高级搜索的预设资料表及默认数据;
  5. 增加火彩值的获取及计算程序;
  6. 增加基于多种条件决定的数据排行处理程序;

暂不紧急清单

  1. 主表数据爬取程序增加超时断开重试的处理;
  2. 增加 header 头,模拟浏览器访问;
  3. 增加条件预设资料的更新脚本;

可能存在的问题清单

  1. 多进程处理过程中,某些进程阻塞导致的数据处理中断,需要排查;