多级目录爬取不到,只能爬取到二级目录,希望可以增加一下功能
Kepler587 opened this issue · 3 comments
Kepler587 commented
多级目录爬取不到,只能爬取到二级目录,希望可以增加一下功能
Qianlitp commented
能详细描述下吗?抱歉没有看懂
Kepler587 commented
当时在爬取某个信息展示网站,网站底下有很多个目录,有一个目录是文章展示,大概有几千个文章,每页展示十几个个左右,后面的需要翻页,crawlergo只能爬取第一页的链接,至于第二页以及往后页面的链接爬取不到。
9ian1i ***@***.***>于2022年9月23日 周五下午2:52写道:
… 能详细描述下吗?抱歉没有看懂
—
Reply to this email directly, view it on GitHub
<#122 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AUAFU6POIGPCAVJUT2HZYO3V7VHUNANCNFSM6AAAAAAQQWUBRU>
.
You are receiving this because you authored the thread.Message ID:
***@***.***>
Qianlitp commented
会对相似的url路由结构进行去重,这种文章链接只会保存几个。
crawlergo是用于尽可能发现web网站的入口,用于后续漏扫,不适合爬取所有文章链接的场景。