JackonYang/distributed-vertical-crawlers

大数据备份

Closed this issue · 1 comments

  1. 需要考虑压缩. 减少传输时间. 尤其是 html 大量重复内容.

自己写一个 HTML 的压缩工具?

  1. 代码自动上传

html 文件大量重复, 7z 压缩即可.

定时手动压缩备份.

全部下载完成后再解析必要内容, 压缩备份, 删除本地缓存.