关于avbook遭遇反爬虫的解决方案。

Question

关于avbook遭遇反爬虫的解决方案。

guyueyingmu opened this issue 5 years ago · 33 comments

guyueyingmu commented 5 years ago

经过诸君这几天坚持不懈的爬取，目标网站终于升级了反爬虫机制，avbook爬虫现已失效。

新的反反爬虫方法暂不公开，后面新来的小伙伴暂时上不了车了，请耐心等待。

这里征集一下关于 avbook 数据库升级的方法与建议。

目前的想法是将增量数据同步到 github 或者 docker ，通过下载升级包进行数据库升级。

如果你有更好的建议欢迎告诉我。

865826021 commented 5 years ago

come on

Answer 1 · 2019-07-18T11:02:55.000Z

是不是通过伪造IP方法解决？
下载升级包太麻烦了吧，数据库版本最好能支持5.5，毕竟5.7要求硬件太高了。

Answer 2 · 2019-07-18T12:08:23.000Z

老哥*的不行啊

Answer 3 · 2019-07-18T12:52:16.000Z

增量数据关键是没有步兵...

Answer 4 · 2019-07-18T15:48:42.000Z

希望能加入爬步兵的代码.我

Answer 5 · 2019-07-19T12:54:40.000Z

老板能否告知这个修改UA 位置在哪里么？

Answer 6 · 2019-07-20T04:12:23.000Z

下载升级包进行数据库升级也不错，注意保护好个人隐私。

Answer 7 · 2019-07-20T08:49:33.000Z

下載包有個密碼

…

On 20/7/2019 at 12:12, miao wrote: 下载升级包进行数据库升级也不错，注意保护好个人隐私。 -- You are receiving this because you commented. Reply to this email directly or view it on GitHub: #60 (comment)

Answer 8 · 2019-07-21T02:26:57.000Z

数据公开就算了，还让大家超线程爬，现在好了，目标网站改成hashid，原来的36进制id没法自增了吧？想办法挂日本代理，直接爬fanza吧

Answer 9 · 2019-07-22T01:10:39.000Z

增量更新包挺好的，方便，直接！

Answer 10 · 2019-07-22T09:31:20.000Z

我之前一直都是单线程慢慢爬的，网站可能流量压力还没那么大，都是多线程肯定不好使
建议有杀伤力的代码别公开，只公开一个用于访问的web服务，数据包另外下载，这样你的爬虫可以长久运行不会被封杀，没有编程基础的也不用倒腾爬虫了，直接下载增量包就可以，适当收费也不是不行

Answer 11 · 2019-07-23T11:54:25.000Z

難搞了呀哈哈 Sent using the mail.com mail app

…

On 21/7/2019 at 10:27, Leililei wrote: 数据公开就算了，还让大家超线程爬，现在好了，目标网站改成hashid，原来的36进制id没法自增了吧？想办法挂日本代理，直接爬fanza吧 -- You are receiving this because you commented. Reply to this email directly or view it on GitHub: #60 (comment)

Answer 12 · 2019-07-24T09:23:34.000Z

自己一直维护着一个数据库, 好久了, 从0开始单线程爬取, 设置了爬取频率2.5秒, 30多万条全部爬完用了14天, 给人家服务器制造的压力非常小, 后期就每天增量一下. 后来发现这里有这么个项目, 您这可好, 1小时爬全站, 谁受得了? 我这想重新爬, 又害怕人家网站再随便改改, 我又白爬了. 太坑了. 过来发发牢*, 别介意.

Answer 13 · 2019-07-25T11:09:04.000Z

有个办法，就是你搞个WEB（类似资源站的东西），采集入库后，然后爬虫直接采集你的WEB即可，比数据库什么升级包增量包不是更好？可以保证永久性。。。
当然，也支持一段时间公布爬虫，这样可以保持充分开源（最好有一定门槛），给要折腾的人玩，只想爬数据的直接用你的爬虫自动玩就行了。。。。
好了，我还没开始，准备开始，一看7.19进来了这里。。。。当然，之前也打算开始的，自己也结合某车打算玩玩的，不过还没想好。。。

Answer 14 · 2019-07-28T11:01:15.000Z

公众号也被请去喝茶了吗？没上车的我表示没有开上车呀

Answer 15 · 2019-07-29T06:16:54.000Z

在这里，我建议还是不要用公众号，毕竟这东西犯禁，建议移动到电报比较好，增量包其实是个不错的方案，对于只想获取资源的人来说，我今天微博上看到有人推荐这个源码，还没来得及爬资源，但是我还是把源码下载下来学习一下，毕竟你这爬取设计规则还是很好的。

希望老哥可以继续开源技术，另外，你可以放一下打赏二维码，让大家多多少少可以支持一下。开源**。

Answer 16 · 2019-07-30T11:32:08.000Z

数据包升级可以,方便

Answer 17 · 2019-08-06T10:40:13.000Z

当初我一下午爬完了30W数据。。现在后悔了。。。早知道不删库了。

Answer 18 · 2019-08-06T10:41:02.000Z

建议docker,简直方便

Answer 19 · 2019-08-08T03:22:15.000Z

目测是把人家网站爬崩了，500个并发，10来个人同时爬人家服务器都可能吃不消。
项目有意思，表示去会会人家的反爬策略

Answer 20 · 2019-08-13T01:31:15.000Z

没上车的懊恼不已

Answer 21 · 2019-08-13T04:12:25.000Z

没上车的懊恼不已

别懊恼啊，不是有win的压缩包么。。

Answer 22 · 2019-10-01T12:17:42.000Z

数据包可以单独给一个下载，不然下载那么大的包结果只用上了数据库

Answer 23 · 2019-10-25T07:24:28.000Z

github上同步更新吧

Answer 24 · 2019-11-05T09:22:16.000Z

建议单独更新数据包，再加上单线程爬取，在数据包的基础上慢速更新到最新日期是一个比较不错的选择

Answer 25 · 2019-11-12T01:25:24.000Z

建议
docker

Answer 26 · 2019-12-17T07:19:53.000Z

没上车的懊恼不已XD

Answer 27 · 2020-01-09T07:47:44.000Z

单独更新数据包好，毕竟有些同学对代码不是很熟，肯定会有重复爬取的情况出现。

Answer 28 · 2020-01-20T14:04:49.000Z

或者移到ZeroNet？

Answer 29 · 2020-02-03T03:28:10.000Z

这么多人爬网站肯定受不住，建议在GitHub上发布数据包，这样大家只需要从不限流的GitHub下载数据包

Answer 30 · 2020-04-18T14:53:42.000Z

擦~来晚了

Answer 31 · 2020-04-21T06:37:30.000Z

php不大会用，不如用python搞一个

Answer 32 · 2020-05-29T06:59:05.000Z

来晚了~~