AnoyiX/anoyi

job/LetvCrawler的疑问

Closed this issue · 4 comments

作者您好,请问关于job/LetvCrawler这个类,注释写着”乐视信息爬虫”,但你定义的常量(爬取的URL)全是腾讯视频的(job/LetvCrawler类 32~37行代码),这就导致了该类下的getHostsFromPcDocument方法在第139行的时候,获取到的videoElements获取到的list大小为0,进而导致了141行的数组边界溢出异常,我想问问是不是作者把爬取的URL写错了。

猜测是乐视的页面发生了变化,预计今天修复,到时回复

问题已解决,可更新最新代码

非常感谢,现在貌似优酷和腾讯都能正常爬取解析,但是爱奇艺总出现解析错误(网址请求失败:http://list.iqiyi.com/www/2/----------------iqiyi--.html),异常原因是:Read timed out,我猜想可能是爱奇艺有反爬虫策略,导致ip被加入了黑名单,作者有没有考虑用ip代理来爬?

可以实现,没有稳定的 proxy 源