关于微博抓取的线程数选择的疑问
huntzhan opened this issue · 0 comments
huntzhan commented
你好,感谢你提供了这样的一个框架,It helps a lot。
我注意到你把微博抓取的instances设置为2,且由于
# cola/worker/loader.py
if master is None:
with StandaloneWorkerJobLoader(job, root, force=force) as job_loader:
job_loader.run()
,全局只有2个线程在抓取微博。
我在做类似爬虫的时候触发了新浪的反爬虫机制,造成每次登录必须输入验证码的情况,原因估计是并发抓取的线程数太多(16个)。于是想问下你这个线程数是怎么得出来的。