openPostCrawl演示视频
根据关键词对主流舆情网站进行数据抓取.
网站包括:weibo,facebook,twitter,YouTube
在线体验:http://159.89.53.122:8080/static/client/
-
根据关键词抓取含有该关键词的微博数据
-
根据上述微博筛选出一批种子用户
-
抓取种子用户的微博数据/粉丝数据
-
每个种子用户根据社交关系(粉丝)向外扩M层,得到的用户进行爬取(用户信息、社交关系、帖子内容)
- 抓取指定用户上传的视频数据
-
提供关键词入口
-
每个关键词爬虫状态(就绪/运行/结束)
-
爬虫数据展示
-
高级可视化,词云/数据统计等
- 克隆代码:
git clone https://github.com/nghuyong/openPostCrawl.git
- 开始开发,并及时commit
- 准备提交代码上线时候,首先fetch最新的代码:
git fetch origin/master
- 与本地的自己分支进行合并:
git merge orgin/master
- 提交代码
git push origin mybranch
- 在远端提交Pull request
1.克隆代码:git clone https://github.com/nghuyong/openPostCrawl.git && cd openPostCrawl
2.创建虚拟环境: virtualenv env --python=python3
如果没有virtualenv
需要先安装pip install virtualenv
3.激活虚拟环境: source env/bin/activate
4.安装依赖: pip install -r spider/requirements.txt
5.执行配置脚本: sh config.sh
6.执行export LC_ALL='en_US.utf8'
6.启动服务:cd web/server && python webAPI.py
以后后台启动nohup python webAPI.py &
7.打开:{服务器IP地址}:8080/static/client
即可,
8.在抓取之前需要先手动填入weibo.cn和m.facebook.com的cookie
weibo.cn cookie示例:OUTFOX_SEARCH_USER_ID_NCOO=1780588551.4011402; browser=d2VpYm9mYXhpYW4%3D; _T_WM=767a89eeec1856d21bf83f366492de34; H5_INDEX_TITLE=nghuyong; H5_INDEX=1; WEIBOCN_WM=9021_90008; ALF=1529416854; SCF=AsJyCasIxgS59OhHHUWjr9OAw83N3BrFKTpCLz2myUf2UW1ruMhAmBTi23s2T-eQTsPoicxMXQz2m484k6w1aCQ.; SUB=_2A252BfYdDeRhGeNN61EW-SbMwzmIHXVVCZpVrDV6PUJbktAKLUH5kW1NScpOi1XTkSJ-QbdpFhslP-HVyVojkIDu; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WFfexCAdmDP14J1IQ4VfRHl5JpX5K-hUgL.Fo-0eheN1Kn71h-2dJLoIEqLxK-L12BL1heLxK-L12qLBoq_TCH8SbHWxFHWeEH8SCHFxb-4S7tt; SUHB=0QS5gRIlX5yNKX; SSOLoginState=1526826573; MLOGIN=1
m.facebook.com 示例:c_user=100026187121261; xs=19%3ABn7NOVf4AeVnng%3A2%3A1526379440%3A-1%3A-1;
爬取Facebook/twitter/youtube需要服务器有翻墙功能