/zhihu-python

获取知乎内容信息,包括问题,答案,用户,收藏夹信息

Primary LanguagePythonMIT LicenseMIT

zhihu-python:获取知乎信息

Author: egrcc ( 微博 | 电邮 )
Contributors:参见 Contributors
Update:04/23 2016

Contents

从知乎上用服务器爬取用户信息,基础轮子使用 egrcc <https://github.com/egrcc> 。

目前只写了user_spider.py 爬取用户部分

加入个人关注的话题爬取功能。

验证码使用 sinatra 静态显示,使用

cd sinatra_verify/ && nohup ruby view_gif.rb -o 【ip_host】 2>&1

iphost 替换成服务器地址 这样浏览 http://iphost:4567/image 就可以获取到verify

使用mongodb做队列和存储,广度优先进行爬取

运行命令

python auth.py

nohup python -u user_spider.py > ~/log/log1 2>&1 &

如果需要多线程,就多运行几次

nohup python -u user_spider.py > ~/log/log2 2>&1 &
nohup python -u user_spider.py > ~/log/log3 2>&1 &