增量爬虫 经过测试,可以放在服务器上运行,init模块用来爬取增量ID列表页并保存到文件夹中,perform模块用来读取增量列表页中的ID并解析详情页,然后入库,最后把这一部分增量ID添加到id_list.txt中,主要调度模块是main模块,设置每天的固定时间启动程序,其余时间进入while循环。 优点:增量的逻辑在于网页中新出现的增量部分与id_list.txt的差集,这一步做到了遗漏控制,也就是说如果某一天程序没有运行,那么第二天照样可以无差错地去抓取到这一天为止的增量页面 缺点:1代码写得太烂 2定时启动用while循环太麻烦也太low,可以用linux自带的crontab命令