/scrapy-amazon

基于scrapy框架的亚马逊爬虫,采集商品和评论等信息

Primary LanguagePythonBSD 2-Clause "Simplified" LicenseBSD-2-Clause

==========================

scrapy-amazon(亚马逊爬虫)

基于scrapy的亚马逊的爬虫

默认python3环境,python2未测试

  • 默认抓取手机版亚马逊
  • 默认采集亚马逊指定关键词所有商品
  • 采集属性包括商品名称、链接、图片地址、ASIN、商品描述、评论等等
  • 爬取到的数据存储到MongoDB数据库

未开源版本新增功能

  • 支持采集指定不同国家的亚马逊(美国亚马逊、日本亚马逊等等)
  • 支持指定代理IP访问,减少亚马逊Robot Check几率
  • 支持采集、发布日志保存到文件,方便查询
  • 接入百度翻译、有道翻译、腾讯翻译,自定义语种实现伪原创
  • 支持采集到的数据清洗伪原创一键发布到wordpress(带特色图片)
  • 支持发布去重、减少网站被K几率

注意:建议自行指定IP池,随机更换User-Agent,防止被封

截图展示

数据展示

联系作者

QQ1498066696,不常回复,欢迎直接issue