dynamohuang/amazon-scrapy

关于特定关键词抓取对应ASIN的排名

huochequan opened this issue · 5 comments

您好。
我是电商小白,最近在弄爬亚马逊网页的关键词对应ASIN的排名。
在第一步我就卡住了,找不到亚马逊network里面的cookie,只有一个user-agent和一些accept数据。
请问您是通过cookie爬,还是通过其他一些途径?望您有空的时候,可以指点小弟一二。

对于关键词的话 不需要设置cookie哈。用user-agent和代理就可以了,但抓排名比较烧代理

你好,谢谢你的回复。
我简单地设置了一下user-agent,成功的抓取了关键词对应Asin的排名,并且输出到了CSV文件中。

我还没学习提升爬虫速度,如何进行反爬虫,还有验证码处理,防封杀IP等知识,目前代码健壮性不够,还需要继续学习。哈哈哈哈

再次谢谢你。

你好。我又来了。我看了你的代码,貌似是采用维护IP代理池的方法,运行顺畅吗?

我最近在抓排名的时候,被亚马逊反爬虫了,返回了非目标页面。我打算开始弄一个cookies池和ADSL服务器。我在代码中发现了你的UA池,而且还有网站。我想请教一下,批量cookies有什么办法获取吗?另外,你在工作中使用的是哪种拨号服务器呢?能否推荐一下呢。

谢谢你能看完我的问题,望回复。谢谢

抱歉,才休假回来看到。
使用代理的方式运行很顺畅 ,使用案例可以参见https://www.pricejot.com/ 上面的top pricejot drop业务。
非登录后才能看到的信息抓取,不建议使用cookie池,直接ua池和代理池就足够了,使用cookie不当的话反而容易暴露。

@huochequan 你好,我最近也在抓取amazon数据,现在使用UA池 触发了反爬验证;请问你能分享下你是如何绕过的么,谢谢