漫画SPIDER爬虫项目 基于ruby的open-uri和nokogiri 目前实现到抓取到网站全部目录下的卷数 对于每页的img抓取,已有方案,待有时间实现。 目前粗算目的网站的IMG数据将会是500G左右的图片数据,从数据量和流量成本看来漫画站盈利应该不差。
漫画SPIDER爬虫项目 基于ruby的open-uri和nokogiri 目前实现到抓取到网站全部目录下的卷数 对于每页的img抓取,已有方案,待有时间实现。 目前粗算目的网站的IMG数据将会是500G左右的图片数据,从数据量和流量成本看来漫画站盈利应该不差。