dev版本weibo.yaml配置问题
hitalex opened this issue · 7 comments
hitalex commented
在weibo.yaml配置文件中:
speed:
max: -1
single: -1
adaptive: no
请问,single
和adaptive
选项的含义是什么?
如果speed.max
配置为20,而且在单机模式下,single
的配置还有意义么?
qinxuye commented
max所有instance的总的抓取数量/min,single是单个instance的抓取数量。
adaptive只有在parser的逻辑中抛出cola.core.errors.FetchBannedError时才有作用,这个错误表示被封锁了,此时cola会检测封锁和正常的时间来动态计算出一个最佳的每分钟抓取数量。
hitalex commented
instance数量是什么意思?
在单机模式下,max还起作用么?
我现在在单机模式下抓取新浪微博,max设置为20,single设置为-1,adaptive为no。不过两三天就会彻底被封,请问有什么好的建议么?
关于多帐号登录的问题,我在另外一个issue里提了。
qinxuye commented
instance可以理解为单台机器起的线程数(分布在多核上)。
max起作用,max无论是单机还是分布式,都是所有instance加起来每分钟的最大抓取数。
max为20都会被封?观察下来是否抓取的速度得到了控制?
hitalex commented
至少是隔一段时间就会被要求认证一下。max为20时,速度应该是得到了控制的。
我还是多用几个帐号,多开几个instance试试。
qinxuye commented
认证隔的时间大致是什么频率?
hitalex commented
5~6个小时,需要手机验证。
qinxuye commented
那我觉得你可以尝试下多帐号了。