图灵社区样书爬虫

图灵社区改了新版后,样书兑换列表不见了,于是自己动手丰衣足食。 (注:图灵官方的样书列表 http://www.ituring.com.cn/book?tab=gift 已于 2017/06/09 上线,这个爬虫写于 2017/05/11。)

安装依赖

$ sudo pip install flask
$ sudo pip install beautifulsoup4
$ sudo pip install redis
$ sudo pip install jieba

爬虫抓取的数据存在 redis 上,所以还需安装 redis。程序在 Python2.7 和 3.5+ 上测试通过。

运行

$ python main.py

然后访问 http://localhost:5000/books 即可,这里假设你使用默认端口。

turing.py 是实际上的爬虫,你需要使用 Crontab 定时执行它,请不要过于频繁以免对图灵服务器造成压力。

以下是我的 Crontab 设置:

0 9-21/3 * * * python3 /home/ubuntu/code/ituring/turing.py new
0 5 * * * python3 /home/ubuntu/code/ituring/turing.py all

即早上 9 点至晚上 9 天每 3 小时更新一次最新的100本书的可兑换情况,每天早上 5 点更新全部图书的可兑换情况。

杂项

如果你使用 Windows,没有 Crontab,你可以试试 uCron 并修改 main.py 创建一个 URL 以便访问 turing.py。

因为爬虫比较简单,所以没有注释,如果你有任何疑问欢迎 Email 联系我。在我的 Github 主页能找到我的邮箱地址。

谢谢。