openPostCrawl演示视频

根据关键词对主流舆情网站进行数据抓取.

网站包括:weibo,facebook,twitter,YouTube

在线体验：http://159.89.53.122:8080/static/client/

抓取要求

weibo/facebook/twitter

根据关键词抓取含有该关键词的微博数据
根据上述微博筛选出一批种子用户
抓取种子用户的微博数据/粉丝数据
每个种子用户根据社交关系(粉丝)向外扩M层，得到的用户进行爬取（用户信息、社交关系、帖子内容）

web界面

提供关键词入口
每个关键词爬虫状态(就绪/运行/结束)
爬虫数据展示
高级可视化，词云/数据统计等

贡献代码

克隆代码: git clone https://github.com/nghuyong/openPostCrawl.git
开始开发，并及时commit
准备提交代码上线时候，首先fetch最新的代码： git fetch origin/master
与本地的自己分支进行合并: git merge orgin/master
提交代码 git push origin mybranch
在远端提交Pull request

运行

1.克隆代码:git clone https://github.com/nghuyong/openPostCrawl.git && cd openPostCrawl

2.创建虚拟环境: virtualenv env --python=python3 如果没有virtualenv需要先安装pip install virtualenv

3.激活虚拟环境: source env/bin/activate

4.安装依赖: pip install -r spider/requirements.txt

5.执行配置脚本: sh config.sh

6.执行export LC_ALL='en_US.utf8'

6.启动服务:cd web/server && python webAPI.py 以后后台启动nohup python webAPI.py &

7.打开:{服务器IP地址}:8080/static/client即可，

8.在抓取之前需要先手动填入weibo.cn和m.facebook.com的cookie

weibo.cn cookie示例:OUTFOX_SEARCH_USER_ID_NCOO=1780588551.4011402; browser=d2VpYm9mYXhpYW4%3D; _T_WM=767a89eeec1856d21bf83f366492de34; H5_INDEX_TITLE=nghuyong; H5_INDEX=1; WEIBOCN_WM=9021_90008; ALF=1529416854; SCF=AsJyCasIxgS59OhHHUWjr9OAw83N3BrFKTpCLz2myUf2UW1ruMhAmBTi23s2T-eQTsPoicxMXQz2m484k6w1aCQ.; SUB=_2A252BfYdDeRhGeNN61EW-SbMwzmIHXVVCZpVrDV6PUJbktAKLUH5kW1NScpOi1XTkSJ-QbdpFhslP-HVyVojkIDu; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WFfexCAdmDP14J1IQ4VfRHl5JpX5K-hUgL.Fo-0eheN1Kn71h-2dJLoIEqLxK-L12BL1heLxK-L12qLBoq_TCH8SbHWxFHWeEH8SCHFxb-4S7tt; SUHB=0QS5gRIlX5yNKX; SSOLoginState=1526826573; MLOGIN=1

m.facebook.com 示例:c_user=100026187121261; xs=19%3ABn7NOVf4AeVnng%3A2%3A1526379440%3A-1%3A-1;

爬取Facebook/twitter/youtube需要服务器有翻墙功能

thubiter/openPostCrawl

openPostCrawl演示视频

抓取要求

weibo/facebook/twitter

YouTube

web界面

贡献代码

运行