/AmazonBigSpider

😱Full Automatic Amazon Distributed Spider | 亚马逊分布式四国际站采集选款产品

Primary LanguageJavaScriptOtherNOASSERTION

Full Automatic Amazon Distributed crawler|spider (USA, Japan, Germany and UK)

GitHub forks GitHub stars GitHub last commit Go Report Card GitHub issues

一. 介绍

  1. 2018.06-now| 全新出发,代码全部开源,并且采集端和网站端全部合并在一个仓库。
  2. 2017.10-2018.05| 此项目为亚马逊电商带来了过多压力,开始局部闭源,现在Github上的版本是v2.0,闭源版本到达3.0,新的功能和修的新BUG将不再提交Github
  3. 2016.10-2016.12| 第一版Python采集端见:这个仓库,老说明戳这里

本人不承担该数据采集程序所带来的一切纠纷, 禁止任何机构及个人将此系统作为商业用途! 本人提供收费服务!

平台具体使用请查看亚马逊大数据智能选款平台使用手册v1.2.pdf

1. 中文介绍

用途: 选款,特别适合亚马逊跨境电子商务运营公司(不支持**亚马逊)。核心竞争力: 四个国际站点:美国/英国/日本/德国,分布式,配套后台可视化。

关于选款: TOP20W排名商品供你自由选择。

亚马逊爬虫支持:

  1. 列表页和详情页可选择代理方式
  2. 多浏览器保存cookie机制
  3. 机器人检测达到阈值自动换代理
  4. 检测日期过期自动停止程序
  5. IP池扫描周期填充代理IP
  6. 支持分布式跨平台抓取
  7. 高并发进程设置抓取
  8. 默认网页爬取去重
  9. 日志记录功能
  10. 配套可视化网站,支持多角度查看数据,小类数据,大类数据,Asin数据和类目数据,支持查看每件Asin商品的历史记录,如排名,价格,打分,reviews变化。部分数据支持导出,且网站支持RBAC权限,可分配每部分数据的查看和使用权限。
  11. 网络端监控爬虫,可查看爬虫当前时段数据抓取状态,爬取的进度,IP的消耗程度。 可支持网络端启动和停止爬虫,彻底成为Saas(待做)
  12. 可自定义填入IP,如塞入其他代理IP网站API获取的IP
  13. 可选择HTML文件保存本地

分布式,高并发,跨平台,多站点,多种自定义配置,极强的容错能力是这个爬虫的特点。机器数量和IP代理足够情况下,每天每个站点可满足抓取几百万的商品数据。

3. 最新说明

鉴于本人精力有限, 无暇多开发新功能, 有更多需求可来邮. 目前搭了一套亚马逊电子商务大数据智能平台, 您可以上去观摩, 帐号密码均为admin, 切勿破坏, 且行且珍惜. 如果您是一名开发, 您觉得不错, 学习到了知识, 可以扫描下方二维码友情赞助. 如果你是一个电商服务公司的老板, 或者是从业者, 急需使用到该平台来进行选款, 洞察商品变化趋势, 可以来邮咨询, 我提供有偿搭建服务, 价格合理, 完全划得来.

核心的爬虫包也已经拆分成库了,见Project:Marmot(Tubo) - Golang Web Spider/Crawler/Scrapy Package | 爬虫库。网站端也拆分成库了Project:Rabbit(Tuzi) - Golang Enterprise Web | 简单企业网站

如果这个产品有帮助到你,可以抛出请我吃下辣条吗?

微信 微信

支付宝 支付宝

4. 版本说明

v2.0

  1. 增加安装详细说明
  2. 修补一些BUG
  3. 美国站类目URL已经更新: /doc/sql/days/usa_category20171026.sql(数据库导入必须是最新的)

v2.3

  1. 解决许多BUG

v3.0

  1. 添加各种新功能
  2. 改BUG

5. 可视化端

类目,你可以自行更改抓取页数,是否抓取。

小类数据,基本Top100商品数据。

大类数据,很详细,包括大类排名等,可以复杂查询条件筛选,下载。

产品趋势,你可以看到产品十几天的排名变化,价格变化。

导出的EXCEL

四. 欢迎咨询

此项目可以持续优化成功一个更好的平台, 因为国内目前还没有像淘宝数据参谋一样的亚马逊数据参谋. 由于高并发百万级每天导致的数据抓取速度问题, 和数据获取后的清洗和挖掘问题, 我们可以在以下方面做得更好.

  1. 首先数据抓取速度保证和爬虫部署问题, 可以采用Docker自动构建, 构建kubernetes集群进行deployments部署, 自动跨容和缩容爬虫服务, 分布式爬虫不再需要手工上去跑任务.
  2. 其次数据保存在MYSQL产生的分表问题, 因为MYSQL是非分布式的集中式关系型数据库, 大量数据导致数据查找困难, 多表间数据unionjoin困难, 所以可以采用ElasticSearch来替换MYSQL, 著名的JAVA Nutch搜索引擎框架使用的就是ES.
  3. 最后, 关于数据获取后的清洗和挖掘问题, 是属于离线操作问题, 保存在ES的数据本身支持各种搜索,ES的文本搜索能力超出你的想象, 一般需求可以满足, 不能满足的需求则要从ES抽取数据, 构建不同主题的数据仓库进行定制化挖掘. 此部分, 需要开发另外的项目.
  4. 配套的UI网站端可以有更好的用户体验, 目前基本可以满足选款的需求, 商品的各种数据优美的显示出来.

闭源版本增加若干新功能,并更新类目,去掉图书,CD和APP,类目大体如下。

+----------------------------+-----------------+
| bigpname                   | count(bigpname) |
+----------------------------+-----------------+
| Amazon Launchpad           |              22 |
| Appliances                 |              34 |
| Arts Crafts & Sewing       |             470 |
| Automotive                 |            3162 |
| Baby                       |             333 |
| Beauty & Personal Care     |             406 |
| Camera & Photo             |             214 |
| Cell Phones & Accessories  |              61 |
| Clothing Shoes & Jewelry   |            1803 |
| Collectible Coins          |               3 |
| Computers & Accessories    |             294 |
| Electronics                |            1292 |
| Entertainment Collectibles |              43 |
| Gift Cards                 |              19 |
| Grocery & Gourmet Food     |            1324 |
| Health & Household         |            1185 |
| Home & Kitchen             |            1903 |
| Industrial & Scientific    |            3325 |
| Kitchen & Dining           |             738 |
| Musical Instruments        |             612 |
| Office Products            |             736 |
| Patio Lawn & Garden        |             590 |
| Pet Supplies               |             499 |
| Prime Pantry               |               1 |
| Sports & Outdoors          |            2686 |
| Sports Collectibles        |              57 |
| Tools & Home Improvement   |            1666 |
| Toys & Games               |             791 |
+----------------------------+-----------------+

免责声明

关于版权,爬虫有风险, 本人不承担由此开源项目带来的任何责任。

	版权所有,侵权必究
	署名-非商业性使用-禁止演绎 4.0 国际
	警告: 以下的代码版权归属hunterhug,请不要传播或修改代码
	你可以在教育用途下使用该代码,但是禁止公司或个人用于商业用途(在未授权情况下不得用于盈利)
	商业授权请联系邮箱:gdccmcm14@live.com QQ:459527502

	All right reserved
	Attribution-NonCommercial-NoDerivatives 4.0 International
	Notice: The following code's copyright by hunterhug, Please do not spread and modify.
	You can use it for education only but can't make profits for any companies and individuals!
	For more information on commercial licensing please contact hunterhug.
	Ask for commercial licensing please contact Mail:gdccmcm14@live.com Or QQ:459527502

	2017.7 by hunterhug