多级目录爬取不到，只能爬取到二级目录，希望可以增加一下功能

Question

Kepler587 opened this issue 2 years ago · 3 comments

Answer 1 · 2022-09-23T06:52:43.000Z

能详细描述下吗？抱歉没有看懂

Answer 2 · 2022-10-11T08:17:36.000Z

当时在爬取某个信息展示网站，网站底下有很多个目录，有一个目录是文章展示，大概有几千个文章，每页展示十几个个左右，后面的需要翻页，crawlergo只能爬取第一页的链接，至于第二页以及往后页面的链接爬取不到。 9ian1i ***@***.***>于2022年9月23日周五下午2:52写道：

能详细描述下吗？抱歉没有看懂 — Reply to this email directly, view it on GitHub <#122 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AUAFU6POIGPCAVJUT2HZYO3V7VHUNANCNFSM6AAAAAAQQWUBRU> . You are receiving this because you authored the thread.Message ID: ***@***.***>

Answer 3 · 2022-10-11T13:01:16.000Z

会对相似的url路由结构进行去重，这种文章链接只会保存几个。
crawlergo是用于尽可能发现web网站的入口，用于后续漏扫，不适合爬取所有文章链接的场景。