lxalano/scrapy-amazon

基于scrapy框架的亚马逊爬虫，采集商品和评论等信息

PythonBSD-2-Clause

==========================

scrapy-amazon(亚马逊爬虫)

基于scrapy的亚马逊的爬虫

默认python3环境，python2未测试

默认抓取手机版亚马逊
默认采集亚马逊指定关键词所有商品
采集属性包括商品名称、链接、图片地址、ASIN、商品描述、评论等等
爬取到的数据存储到MongoDB数据库

未开源版本新增功能

支持采集指定不同国家的亚马逊(美国亚马逊、日本亚马逊等等)
支持指定代理IP访问,减少亚马逊Robot Check几率
支持采集、发布日志保存到文件,方便查询
接入百度翻译、有道翻译、腾讯翻译,自定义语种实现伪原创
支持采集到的数据清洗伪原创一键发布到wordpress(带特色图片)
支持发布去重、减少网站被K几率

注意：建议自行指定IP池，随机更换User-Agent，防止被封

截图展示

联系作者

QQ1498066696,不常回复,欢迎直接issue