yylc_jdpm

增量爬虫经过测试，可以放在服务器上运行，init模块用来爬取增量ID列表页并保存到文件夹中，perform模块用来读取增量列表页中的ID并解析详情页，然后入库，最后把这一部分增量ID添加到id_list.txt中，主要调度模块是main模块，设置每天的固定时间启动程序，其余时间进入while循环。优点：增量的逻辑在于网页中新出现的增量部分与id_list.txt的差集，这一步做到了遗漏控制，也就是说如果某一天程序没有运行，那么第二天照样可以无差错地去抓取到这一天为止的增量页面缺点：1代码写得太烂 2定时启动用while循环太麻烦也太low，可以用linux自带的crontab命令

hyqyoung/yylc_jdpm

yylc_jdpm