szcf-weiya/SinaSpider

动态IP解决新浪的反爬虫机制，快速抓取内容。

PythonMIT

SinaSpider

动态IP解决新浪的反爬虫机制，快速抓取微博内容。

Background

抓取1000个公司（在companyList.py文件中）五年内相关的微博，进而统计评论数、转发数、点赞数等等。

Environment

Python2.7
winxp服务器（通过某宝购买，关键是ADSL拨号功能，不然无法实现动态IP，也就解决不了新浪的反爬虫机制）

Results

每个公司五年内的微博（通过sqlite3存储）

下面截图为company0000.db的微博。
所有公司微博评论数、转发数、点赞数的统计（excel形式呈现）

References

刚刚(Sun Sep 10 07:51:46 CST 2017)在整理浏览器的书签，因为自己习惯性会把觉得有用的网页存储为书签，所以日积月累，书签的数量已经十分庞大，决定清理一下。清理之前把那些与此项目的网页书签贴在这里吧