guyueyingmu/avbook

关于avbook遭遇反爬虫的解决方案。

guyueyingmu opened this issue · 33 comments

经过诸君这几天坚持不懈的爬取,目标网站终于升级了反爬虫机制,avbook爬虫现已失效。

新的反反爬虫方法暂不公开,后面新来的小伙伴暂时上不了车了,请耐心等待。

这里征集一下关于 avbook 数据库升级的方法与建议。

目前的想法是将增量数据同步到 github 或者 docker ,通过下载升级包进行数据库升级。

如果你有更好的建议欢迎告诉我。

是不是通过伪造IP方法解决?
下载升级包太麻烦了吧,数据库版本最好能支持5.5,毕竟5.7要求硬件太高了。

老哥*的不行啊

增量数据关键是没有步兵...

希望能加入爬步兵的代码.我

come on

老板能否告知 这个修改UA 位置在哪里么?

下载升级包进行数据库升级也不错,注意保护好个人隐私。

数据公开就算了,还让大家超线程爬,现在好了,目标网站改成hashid,原来的36进制id没法自增了吧?想办法挂日本代理,直接爬fanza吧

增量更新包挺好的,方便,直接!

我之前一直都是单线程慢慢爬的,网站可能流量压力还没那么大,都是多线程肯定不好使
建议有杀伤力的代码别公开,只公开一个用于访问的web服务,数据包另外下载,这样你的爬虫可以长久运行不会被封杀,没有编程基础的也不用倒腾爬虫了,直接下载增量包就可以,适当收费也不是不行

自己一直维护着一个数据库, 好久了, 从0开始单线程爬取, 设置了爬取频率2.5秒, 30多万条全部爬完用了14天, 给人家服务器制造的压力非常小, 后期就每天增量一下. 后来发现这里有这么个项目, 您这可好, 1小时爬全站, 谁受得了? 我这想重新爬, 又害怕人家网站再随便改改, 我又白爬了. 太坑了. 过来发发牢*, 别介意.

imhut commented

有个办法,就是你搞个WEB(类似资源站的东西),采集入库后,然后爬虫直接采集你的WEB即可,比数据库什么升级包增量包不是更好?可以保证永久性。。。
当然,也支持一段时间公布爬虫,这样可以保持充分开源(最好有一定门槛),给要折腾的人玩,只想爬数据的直接用你的爬虫自动玩就行了。。。。
好了,我还没开始,准备开始,一看7.19进来了这里。。。。当然,之前也打算开始的,自己也结合某车打算玩玩的,不过还没想好。。。

公众号也被请去喝茶了吗?没上车的我表示没有开上车呀

在这里,我建议还是不要用公众号,毕竟这东西犯禁,建议移动到电报比较好,增量包其实是个不错的方案,对于只想获取资源的人来说,我今天微博上看到有人推荐这个源码,还没来得及爬资源,但是我还是把源码下载下来学习一下,毕竟你这爬取设计规则还是很好的。

希望老哥可以继续开源技术,另外,你可以放一下打赏二维码,让大家多多少少可以支持一下。开源**。

数据包升级可以,方便

当初我一下午爬完了30W数据。。现在后悔了。。。早知道不删库了。

建议docker,简直方便

目测是把人家网站爬崩了,500个并发,10来个人同时爬人家服务器都可能吃不消。
项目有意思,表示去会会人家的反爬策略

没上车的懊恼不已

没上车的懊恼不已

别懊恼啊,不是有win的压缩包么。。

数据包可以单独给一个下载,不然 下载那么大的包 结果只用上了数据库

github上同步更新吧

建议单独更新数据包,再加上单线程爬取,在数据包的基础上慢速更新到最新日期是一个比较不错的选择

建议
docker

没上车的懊恼不已XD

单独更新数据包好,毕竟有些同学对代码不是很熟,肯定会有重复爬取的情况出现。

或者移到ZeroNet?

这么多人爬网站肯定受不住,建议在GitHub上发布数据包,这样大家只需要从不限流的GitHub下载数据包

擦~来晚了

php不大会用,不如用python搞一个

来晚了~~