/weiboxiaojiejie

科学的微博爬虫,永不封号,不设置cookie,高频爬取关注的人发送的原创图片

Primary LanguageJava

weiboxiaojiejie

科学的 JAVA 微博爬虫,永不封号,不设置cookie,高频爬取关注的人发送的原创图片 (An efficient sina Weibo crawler using JAVA + selenium + PhantomJs + Weibo4j, save your time by download all selfies of your timeline, you won't miss it!!)

#项目环境:

java8 + selenium java (http://www.seleniumhq.org/download/   只需要下载java的那个zip包) + weibo4j-oauth2.jar(https://github.com/sunxiaowei2014/weibo4j-oauth2-beta3.1.1/) (jar包直接下载:http://download.csdn.net/download/besthuchen/9604854)  另外还需要下载fastermxl.jackson的三个包: jackson-core, jackson-databind,jackson-annotations

并配置以上两个第三方库所依赖的其他第三方库

#如何使用:

1.将你的微博账号注册为新浪微博开发者,并新建一个应用获得app key 与 app secret. 流程参见: http://blog.csdn.net/xyw_blog/article/details/8907918

2.将你希望抓取的微博用户的微博id每人为一行记录在xjjid.txt中,且你的账号需要关注这些微博用户

3.如果你是在java ide中,直接运行XiaojiejieApp(如果你是打成jar包使用,则cmd中使用 java -jar xxxx.jar)命令 (注意phantomjs.exe 与 xjjid.txt都需要在项目的根目录下!)  

4.开始运行第一步是唤起浏览器将code复制输入到程序中,与 http://blog.csdn.net/xyw_blog/article/details/8907918类似

5.然后源源不断的图片就会被爬取下来了~~~