Author: | egrcc ( 微博 | 电邮 ) |
---|---|
Contributors: | 参见 Contributors |
Update: | 04/23 2016 |
Contents
从知乎上用服务器爬取用户信息,基础轮子使用 egrcc <https://github.com/egrcc> 。
目前只写了user_spider.py 爬取用户部分
加入个人关注的话题爬取功能。
验证码使用 sinatra 静态显示,使用
cd sinatra_verify/ && nohup ruby view_gif.rb -o 【ip_host】 2>&1
iphost 替换成服务器地址 这样浏览 http://iphost:4567/image 就可以获取到verify
使用mongodb做队列和存储,广度优先进行爬取
运行命令
python auth.py
nohup python -u user_spider.py > ~/log/log1 2>&1 &
如果需要多线程,就多运行几次
nohup python -u user_spider.py > ~/log/log2 2>&1 &
nohup python -u user_spider.py > ~/log/log3 2>&1 &