做一只快乐的舔狗

Question

ttop5 opened this issue 6 years ago · 0 comments

本篇文主要讲述一下这个小项目的实现思路和前因后果，顺便探讨一下相关的一些话题。

事情起因

你是否也像我一样，脑海中总有一个心心念念挥之不去的人，对 ta 所在经历的事情，你都想第一时间知道，但是因为各种原因你又不好得直接关注人家。

于是你每天不知疲倦的一遍又一遍的刷新着人家的主页，希望能第一时间看到 ta 的最新动态。啊，这样手动舔也太累了吧，还是用程序去完成这种重复性劳动吧。

主动接收信息，实时性不高。适合 RSS 重度用户（我算是半个重度用户）并且由于种种原因没法直接关注此人的情况。此方式相当于变相关注了这个用户，之所以借助 RSSHub 是因为豆瓣官方没有提供用户动态的 Feed，只提供了用户收藏的 Feed。

被动接收消息，实时性很高。适合所有使用微信的用户（几乎大部分国人），可以关注的不可以关注的人都适合，想第一时间知道某人动态及时跪舔的必备工具。

以上两种我均做了实践，由于第一种没什么好讲的，这里就主要介绍一下第二种方案的一些细节。

不必使用 cookie 爬虫，直接调用接口：
https://m.douban.com/rexxar/api/v2/status/user_timeline/${USERID}?max_id=&ck=eUUA&for_mobile=1

由于豆瓣接口对请求源进行了限制，所以需要在 HTTP 请求头部加上：
Referer: `https://m.douban.com/people/${USERID}/statuses`,

这里我们借助 Server 酱来完成，就不多做赘述。

为了简化，爬取到的数据不进行持久化保存（感觉没必要），随之而来的我们面临着以下的问题。

因为怕爬取对象在短时间内连续发表多条动态，从而导致漏推送的情况出现。我把周期时间设置为5s，但在实际部署的时候我改成了10s，怕请求太频繁官方封我 ip 。

请求太过于频繁除了怕被封 ip 外，如果服务量变大了还会外增加服务器的负担，在考虑是否可以通过爬取对象的时区进行间歇性爬取（比如白天爬取，半夜凌晨不爬）。

因为 Server 酱提供的免费推送次数的限制，加上我们不想看到重复的推送，所以我们需要对数据进行过滤后再进行推送。

由于数据不保存到数据库，于是我们将其存在临时变量中，把爬到的数据创建时间和上一次爬到的数据创建时间作对比，不一致则认为爬取对象更新了动态，将数据推送到用户微信。

“一切不平等的关系都是从舔狗开始的；舔狗舔到最后一无所有；舔狗不得好死!” —— 鲁迅

结论：舔狗，必将自食其果！老哥，我劝你还是不要当舔狗🐶。