/big_data_architect_skills

一个大数据架构师应该掌握的技能

  • ---- 还未完成 持续更新中 涉及到的平台对比 软件对比与场景适用后面会持续更新
  • ---- 关于软实力部分同步会更新场景落地

技能图

高清大图

脑图文件

大数据架构师该掌握的技能

主要分为两块 硬能力软实力

  • 一:平台建设
    • 1.行业平台
    • 2.技术选型
    • 3.平台架构
      • 1)HDP Core(平台核心也是Hadoop core)

        • HDFS(存储)
        • MapReduce(批处理)
        • Yarn(基础资源调度)
          • 负责集群资源的统一管理和调度
          • 单节点资源管理和使用
          • 应用程序管理
          • 对任务运行环境的抽象
          • 支持运行长应用程序和短应用程序
          • 支持docker fpga
          • 期待更细粒度的资源控制
          • 对比Mesos
        • Oozie(任务调度编排)
          • 平台调度的基础保障
          • hadoop 各种任务的使用与调度
          • 对比 Azkaban Airflow
        • Slider(调度支持 新版已经集成yarn)
      • 2)Enterpise Data Warehouse(企业数据仓库)

        • Pig(基础脚本服务)
          • 用类sql语言保证mr执行顺畅
          • pig latin 的执行环境
        • Hive(数据仓库存储)
          • 基础数据仓库(ods gdm dw app dim)
          • 基础ETL的运行实例
          • OLAP的数据存储(kylin)
          • 各种数据的hive外表用于查询
          • 对比impala
        • Druid(adhoc方案 实时多维查询和分析)
          • 已处理数十亿事件和TB级数据
          • 实时查询分析 高可用、高容错、高性能
          • 交互式聚合和快速探究大量数据
          • 为OLAP工作流的探索性分析而构建,支持各种过滤、聚合和查询
          • 对比 drill mdrill 等
        • Tez(简化增强hive)
        • Sqoop(数据导入导出工具)
      • 3)Data sclence(数据科学)

        • Spark(内存通用并行计算)
          • 推荐相关
          • 数据清洗
          • 特征抽取
          • 预测相关
          • 对比 flink storm
        • flink
        • Spark sql(结构化数据处理)
        • Spark streaming(spark流式处理)
        • Zeppelin(界面分析挖掘工具)
          • 基于R和python的单机界面使用工具(分析挖掘)
          • 基于spark kafka 的界面操作工具
          • 基于预测数据的使用与展现
          • 支持pandas numpy
          • 支持R
          • 支持hive hbase spark sparksql sparkstreaming
          • 支持keras matplotlib pysql
      • 4)Operational data store(操作KV存储)

        • Hbase(kv数据存储)
        • Phoenix(hbase 类sql查询)
      • 5)Securlty governance(安全治理)

        • Knox(鉴权工具)
          • 数据的权限鉴权通道
          • 平台跟外部的出入口
        • Ranger(权限管理工具)
          • 架构下各组件的权限管理
          • 记录操作日志到solr
        • Atlas(元数据溯源与数据治理工具)
          • 大数据平台下各种操作的元数据记录
          • 数据打标签(对于维度 指标 ETL等)
          • 可查询hive storm spark sqoop oozie nifi 元数据,可自定义实现自己的需要查看和维护的工具
          • 数据流转流程的图像化展现
          • 元数据操作记录与各种信息查询
      • 6)Stream procressing(流式计算)

        • Storm(实时数据处理分析)
        • Kafka(分布式发布订阅消息系统)
        • Streaming Analytics Manager (流式数据处理界面工具)
          • 拖放可视化设计,开发,部署和管理流式数据分析应用程序
          • 进行事件关联,上下文衔接,复杂模式匹配,分析聚合以及创建警报/通知
        • MiNiFi(边缘数据处理)
          • 数据产生的源头收集和处理数据
          • 通过实现边缘设备智能(edge intelligence)来调整数据流的双向通信
          • 可以数据溯源(Data Provenance)
          • 可以集中管理和下发Agents
          • java agent
          • c++ agent
      • 7)Operations(平台运维工具)

        • Ambari(大数据平台管理工具)
        • Ambari Metrics(监控平台各类服务及主机的运行情况)
        • Ambari Infra
        • Zookeeper(基础分布式保证工具)
        • Solr(搜索应用 操作日志存储)
      • 8)Data operation platform(数据操作平台)

        • NiFi(数据 ETL 数据流处理)
          • 日志清洗 业务数据入库
          • 基础数据(mysql binlog业务库 )ETL
          • 部分外部数据
          • 自定义数据接入方式
          • 自定义数据流程处理
          • 数据输出出口
        • NiFi Registry(NiFi版本管理工具)
          • NIFI的版本记录回溯
          • NIFI Schema Registry 来统一文件定义(类配置中心)
          • 配合SwaggerAPI数据定义
        • Hue(大数据交互界面平台)
      • 9)Data visualization(数据可视化工具)

        • Superset(数据分析界面工具)
        • FineBI(BI界面分析工具)
          • 报表数据可视化
          • 部分OLAP分析
          • Fine Index
          • FIne Direct
          • 现场数据实时展示
        • (Cboard) 主用于数据导出
        • Metabase
          • 直接用来对接运营产品的数据交互工具
          • 支持问题模式,支持对数据进行标记
        • 对比 Saiku Tableau Qlikview
        • 自主研发
          • Echarts HighCharts
          • inMap
          • datav
      • 10)OnlineAnalytical processing(OLAP解决方案 adhoc)

        • Kylin(MOLAP方案)

          • 维度间交叉分析
          • 构建过程基于hive集群不需要单独搭建
          • 数据存储于hbase集群,主要消耗磁盘
        • HAWQ(SQL on Hadoop)

          • 符合ANSI SQL规范并且支持SQL 92、99、2003 OLAP
          • 包含关联子查询、窗口函数、汇总与数据库、广泛的标量函数与聚合函数的功能
          • TPC-DS针对具有各种操作要求和复杂性的查询定义了99个模板(例如,点对点、报告、迭代、OLAP、数据挖掘等)
          • HAWQ使用Apache Ambari作为管理和配置的基础
        • GreenPlum(MPP架构升级版PostgreSQL) 学习资料

          • 基于PostgreSQL
          • 采用两阶段提交和全局事务管理机制来保证集群上分布式事务的一致性
          • 建立在实例级别上的并行计算,可在一次SQL请求中利用到每个节点上的多个CPU CORE的计算能力
          • 解决大问题而设计的并行计算技术,而不是大量的小问题的高并发请求
        • PostgreSQL (单机ORDBMS) 学习资料

          • 天生就是为扩展而生的,可以在PG中用Python、C、Perl、TCL、PLSQL等来扩展
          • 强大 SQL 支持能力和非常丰富的统计函数和统计语法支持
          • hash join、merge join、nestloop join的支持方面做的较好
        • Presto(MPP-SQL交互式查询引擎)

          • 多数据源(Hive,Hbase,RDBMS)
          • 支持标准SQL 不支持UDF
          • 对表的连接以及 group by操作有比较严格的大小限制
          • 对集群结点的内存和CPU消耗较大
        • Elasticsearch

          • 横向可扩展,高可用 分片机制
          • 单集群,索引缓存在内存中,单节点易造成内存溢出
          • 不支持复杂sql,无法实现关联统计分析
        • HashData(SQL on Cloud)

          • 托管于云平台,用户不再需要为基础设施投资,不再需要调优运维,仅为您使用的计算资源买单
          • 分布式架构,根据负载快速扩充计算能力,实现高性能计算,满足用户交互式查询的需求。
          • 云数据仓库,针对云平台订制设计。利用云计算的优势,实现数据仓库的高可用、快速恢复、弹性扩容
        • ClickHouse 学习资料

          • 实时数据更新
          • 关系型、支持SQL
          • 可以不依赖hadoop平台
          • 分布式并行计算,把单机性能压榨到极限
          • 列式存储数据库,数据压缩
        1. Graph database(图数据库) 对比图
        • Janus Graph(图数据库引擎)
          • 图的序列化, 图的数据模型和高效的查询
          • 依赖hadoop来做图的统计和批量图操作
          • 为数据存储,索引和客户端访问实现了粗粒度的模块接口
          • 模块架构能和和许多存储,索引,客户端技术集成. 可以简便的扩展新的功能
        • Dgraph(事务性的分布式图形数据库)
          • 解决企业在数据库增长超过单个服务器时面临的一些问题而构建
          • 可扩展的,分布式的,低延迟的图数据库
          • 超过 TB 的结构数据里,为用户提供足够低延迟的实时查询
        • Neo4j(NoSQL图数据库)
        • ArangoDB(NoSQL数据库)
          • 原生多模型数据库
          • 可以将逻辑功能加入V8的 js framework Foxx™中 并可以完全访问所有功能
          • 可扩展性,JOINS, 复杂事务处理
    • 4.资源申请
      • 1)基准测试
      • 2)资源预估(基于业务存量与增量)
      • 3)理解各组件的CPU IO 内存 硬盘 带宽的特性
      • 4)硬件知识(RAID 存储加速 存储接口等 )
      • 5)瓶颈资源预判
      • 6)分阶段保障
    • 5.日常维护
      • 1)bigdata devops
      • 2)权限授权
      • 3)瓶颈判断
      • 4)继续需求的二次开发
      • 5)组件版本关注与升级
      • 6)各种疑难杂症修复
      • 7)环境维护(正式 测试)
    • 6.技术调研
      • 1)机器学习
      • 2)IOT相关
      • 3)边缘计算
    • 7.云平台化建设
  • 二:数据获取
    • 1.公司内结构化数据
      • 1)增量
      • 2)全量
      • 3)拉链
      • 4)binlog
      • 5)接口
      • 6)kafka需求对接
  • 2.小程序
    • 1)支付宝小程序
    • 2)头条系小程序
    • 3)微信小程序
  • 3.公司内非结构化数据
    • 1)日志
      • 接口
      • 内部埋点
        • 后端埋点方案
        • 无埋点方案
        • url规约系统
        • 用户级别
        • 页面级别
        • CMS块级别
        • 事件级别
      • 第三方埋点
        • GA
        • 百度
        • 友盟
        • 其他
      • 搜索
    • 2)视频
    • 3)图像
    • 4)excel
    • 5)文档
  • 4.外部数据(非公司IT支撑)
  • 5.外部数据
  • 三:数据价值
    • 1.数据清洗
      • 日志数据清洗(UDF SparkStreaming )
      • 业务数据清洗
      • 维度数据抽取
      • NLP语义化
      • 图片识别等
    • 2.数据仓库
      • 1)分层
        • Operational Data Store(ODS) 原始操作数据
        • General Data Mart(GDM)清洗后通用数据
        • Data WareHouse (DW)数据集市
        • Dimension Data(DIM)维度数据
      • 2)规范
        • 权限规范
        • ETL规范
        • 调度规范
      • 3)ETL
      • 4)元数据(Atlas查看和标记)
        • 业务元数据
        • ETL元数据
        • 数据元数据
    • 3.统计报表
      • 分类
      • 维度
      • 指标
      • 数据可视化
    • 4.商业智能
      • 关键指标与转化
        • 博弈分析法(找到博弈方,找到博弈方的冲突与矛盾)
        • 企业价值评估法(找到利益保持或者增长的关键点或者业务流程量化KPI)
        • 行业参考(标准行业的指标体系)
        • 保证少而精 结果导向 可衡量 一致性
      • 影响业务决策
      • 影响运营决策
      • 影响老板决策
    • 5.数据报告
      • 抓重点业务或关键路径
      • 体系化叙述
      • 重点数据解释
      • 编写参考 玩转keynote
    • 6.业务赋能
      • 用户画像
      • 推荐
      • 广告
      • 数据预警
      • 数据预测
      • 数据查询
      • 对运营支持的数据工具
      • 对业务销售支持的数据工具
    • 7.数据产品
      • 2B
        • 行业标准与数据共享
        • 垂直行业指数项目
        • B端客户数据价值展示
      • 2C
        • 结合产品规划
        • 推荐
        • 搜索
        • 风控
        • 舆情监测
        • 用户画像
        • 反作弊
    • 8.场景探索
  • 四:数据安全
    • 1.企业数据分级
      • 普通
      • 敏感
      • 机密
      • 绝密
    • 2.数据隐私保护
      • Personal Identifiable Information(PII级别)
      • 用户唯一标识(因公司而异)
      • 核心业务数据订单 优惠券 等(掩码)
    • 3.平台权限控制
      • 数据导出权限控制
      • 账号跟踪与密钥更换
      • 数据使用申请
    • 4.数据流程规范
      • 需求对接规范
      • 数据订正规范
      • 业务数据变更修正
  • 五:质量保障
    • 1.平台与资源保障
    • 2.数据质量
    • 3.统一口径
    • 4.故障跟进
  • 一:个人素质
    • 1.体系化建设
      • 1)快速了解一个体系
        • 渠道
          • 专业图书
          • 技术官网
          • github
          • processon 里的推荐功能
          • 技术博客
          • 知乎
          • 体系报告网站(参考 数据获取-外部数据-数据报告)
          • 各种行业平台网站
          • 谷歌百度
          • 找朋友聊 加微信QQ群
        • 记录整理
          • 找个工具记录 散漫的疯狂阅读与吸取
          • 最好用表格来划分横向维度和纵向维度
        • 消除杂音
          • 刨除过程中一些过时的资料或者概念
          • 尽量找原版的设计与理解
      • 2)快速形成自己的理解
        • 聚合
        • 分类
        • 排序
        • 深入
      • 3)系统计划
      • 4)修正策略
      • 5)投资视角看公司
        • 商业模式
          • 完整的产品、服务和信息流体系,不完全决定着盈利模式但是衡量盈利模式的基础
          • 简单易懂一句话说明白的模式就是好模式
          • 在产业上下游关系所处的位置
          • 定价权在哪里
          • 企业和客户关系的好坏
        • 盈利模式
          • 探求企业利润来源、生产过程以及产出,对企业经营要素进行价值识别和管理 关注持续力
        • 团队
          • 关注公司的团队架构,工作任务如何进行分工、分组和协调合作 。关注CXO
            • 专一性
            • 创新性
            • 管理者优势
        • 用户来源
          • 关注在特定的公司下他们是如何获客的,获客的效果与方法是否可以持续健康的保持优势
        • 现金流
          • 公司对于内部价值的挖掘和在商业上的资金变现能力
        • 成本结构
          • 成本结构
          • 决定因素
          • 成本产业优化
          • 变现能力
        • 路径依赖
          • 公司内部对主营业务的依赖性,对于新业务拓展的阻碍。在快速调整方向时能动性的高低
        • 烧钱速度
        • 竞争对手
          • 赛道内竞争对手的强弱与个数,竞争对手的资方背景。竞争对手对红海的竞争性与蓝海的开拓性
        • (赛道)行业特性
          • 垂直行业内的一些特殊关注点和可能发现的价值挖掘点,也是可能构建护城河的点
        • 价值流失
          • 价值守护的能力,包括资产数据 用户,针对于流失的方法策略是否有意识和具体的动作
        • 护城河
          • 抵御竞争者的保护措施
            • 财务效率
            • 边际成本
            • 回报率
            • 品牌效应
        • 天花板
          • 公司所在的行业是否已经进入饱和状态,是否供过于求
            • 关注行业或者需求拐点
            • 关注小行业的大公司
            • 关注新旧势力平衡关系
            • 关注面对天花板公司采取的策略
    • 2.业务破局
      • 1)了解业务
        • 老板 高管 经理
          • 投其所好
            • 多渠道的了解老板画像
            • 试探数据价值的关注度
          • 换位思考
            • 从他们的角度去考虑他们遇到的困难,不解和所做的决定
            • 不要被他们的思维固化(在其位谋其政)影响你对于数据价值的思考
          • 全面的体系 重要的分级
            • 全面的体系化建设(基于对行业 业务 数据 的宽泛认知)
            • 永远要记住摸清主线
            • 按照重要程度(看势)做事情的分级
          • 观察对方的底线(长期)
        • 技术 产品 运营
          • 技术体系初步印象
            • 前端(ios android pc tv) 涉及到埋点日志事情
            • 后端(微服务 链路 数据库) 涉及到业务数据入库和日志收集
          • 掌握全局(局部)数据库
            • 先全面后局部的感觉下数据库设计(如果有ER图提供最好)
            • 感觉下量级与增速
          • 深入了解产品的规划
            • 找到契合点 不要越界
            • 数据价值为主 外层的展现为辅
            • 产品方向的数据价值多数来自C端 所以 推荐 广告 用户画像等为主 不同的行业考虑下特性应用(O2O IOT 新零售 AI的落地应用)
          • 拿出诚意才会得到配合
            • 站在开发者角度去尽量减轻他们的负担
            • 日志与埋点的配合
            • 业务数据入库配合
            • 底层运维支持配合
            • 技术层面的分享带给别人更多理解相关技术的机会
          • 是否需要数据产品经理
            • 涉及到产品规划和业务赋能的最好有数据产品对接
            • 关于数据报表分析的最好让数据分析人员进入对接一线
        • 销售 业务 财务
          • 良好的沟通从兴趣开始
          • 数据价值来源于解决B端面临问题
            • 是否能提供有价值的数据让业务跑得更快
            • 能否提供销售更直接的客户服务数据
            • 财务的事情佛系对待
          • 合适的机会跟他们一起开会,反复强调的内容里面就有重点和痛点
          • 多花时间研究他们的工作流程
            • 流程最能体现价值(优化 提速 转化 效率)
            • 接触工作流程中可以更深刻的理解业务
          • 关键指标一定会有所提及(不懂找资料学习再沟通) 绕不过的钱
            • 记录关键指标 自己先琢磨在找懂的人沟通
            • 遇到不分享的可以先想办法解决他的一些问题,无论大小,展现诚意。记住自己的目标
      • 2)分析痛点
        • 将痛点归类(部门 角色 数据源 数据价值)
        • 归类后痛点间的关联关系找主线
        • 能解决的痛点才是痛点
        • 缩小范围解决头部需求反手解决次类需求
      • 3)专注行动
        • 象限法(重要紧急四象限)
          • 优先处理 重要且紧急 紧急不重要的
          • 阶段性的处理重要不紧急的(这种事情要记录在本本上)
        • 行动前的影响与价值预估
          • 可能对其他部门或人造成的工作加重减轻与正负面影响
          • 行动能得到的可能价值(对需求方 相关人 团队 自己)
        • 可拆解的任务才能行动
          • 行动计划保证在一个可控范围内(人员 时间 资源 )
          • 任务的串并行尝试
          • 人员维度的安排
          • 时间维度的安排
        • 行动中的修正与反馈
          • 寻找一个反馈对象(最好是需求方)
          • 修正来源于对结果的不可控(保证损失最小)
        • 拿到结果一定要说话(不要当哑巴 付出得到回报天经地义)
          • 打算说给谁听
          • 准备好PPT(参见玩转keynote)
          • 时间地点
    • 3.数据解读
      • 考虑受众
        • 想要说给谁听是重中之重
        • 了解对方的工作特性用类比方式的去阐述数据
      • 实事求是 轻易不下结论
        • 全局意识
        • 局部业务专研分析思维
        • 小心求证,在给出数据前多做检验
      • 会看数据
        • 维度-指标-特征-缺失-差值-聚合-分类-排序
        • 比率-中数-众数-方差-维度相关性
        • 多维度的去思考和验证
        • 寻找数据点(点) - 寻找主数据(线) - 串联数据的顺序关系(面)
    • 4.工具利用
    • 5.清醒复盘
      • 1)复盘前的思考
      • 2)何时复盘
      • 3)避坑总结
    • 6.玩转keynote
      • 1)确定主题与讲述思路
        • 解决痛点模式
        • 突出主题模式
        • 流程讲解模式
        • 技术分享模式
        • 融资招商模式
        • 数据报告模式
      • 2)讲述靠说不靠堆叠
        • 言简意赅
        • 归纳总结
      • 3)利用模板来快速制作和辅助思路
      • 4)基础色调选取与排版建议
        • 色调选择
          • 运用模板的特殊元素来装扮自己的文案
          • 多用过度色 原则上整体别超过5个
          • 颜色可以用吸管 从浅入深或由深入浅波动选择
          • 黑白灰为常用过度配色
          • 分清极暖色 极冷色 暖色 冷色 微暖 微冷
          • 色彩的对比 平衡 混合 多练习
        • 排版建议
          • 建议用“细黑”的字体,比如冬青黑体,华文雅黑,微软雅黑light等
          • 节奏感:尺寸大小,上下位移,旋转,间距,就是不能让文字之间稳当地排在一起
          • 巧用各种图形 可以更形象化的让人理解
          • 大纲最好列在每页的面包屑上
        • 巧用动画
    • 7.行业关注
  • 二:团队管理
    • 1.遇见对的人
    • 2.人尽其才
      • 组团队
      • 差异化
      • 重培养
    • 3.上通下达
    • 4.拒绝沉溺(不要给鱼)
    • 5.老司机别翻车
      • 容忍与控制
      • 不要触碰底线
      • 没有什么是烧烤不能解决的 如果有那就两顿
  • 三:技术能力
    • 1.编程
    • 2.算法
    • 3.数据仓库
    • 4.工程
  • 四:人生之路
    • 1.平衡之道
        1. 规划VS变动
        1. 领导VS下属
        1. 个人VS团队
        1. 资源VS价值
        1. 家庭VS工作
    • 2.破除心魔
      • 1)以结果导向
        • 理论上个人感受会是结果导向的障碍
        • 结果是个大家相对一致的预期结果
      • 2)接受一家公司代表要融入一种文化
        • 是否喜欢是个很重要的分水岭
        • 无论什么企业文化都会以结果为导向
        • 综合评定自己的容忍度
      • 3)敲碎or划清边界
        • 阻碍目标的大多都是边界内自己要做或者推动的
      • 4)多维度的看待事情
        • 不要再不同纬度观点下讨论事情,这样容易产生无谓的争执
        • 当一种角度理解不了某些人或事的时候那就切换下角度
        • 对一个事情或者一个人的评判一定不要单纯的一个角度下结论
        • 同样的维度之间切换自如有助于你讨喜
      • 5)信任之路且行且珍惜
      • 6)道德沦陷还是底线失守
        • 改变自己,做自己认为恶心的事情是不是就是道德沦陷
        • 底线是一个恒久不变的还是一个根据自己的发展阶段 家人 事业 朋友动态调整的
    • 3.推荐书籍
      • 1)技术类(不包含理论与技术框架)
        • 《数学之美》
        • 《数据仓库工具箱:维度建模的完全指南》
        • 《美团机器学习实践》
        • 《数据挖掘与数据化运营实战 思路、方法、技巧与应用》
      • 2)业务类
        • 《无印良品的改革》
        • 《增长黑客》
        • 《智联网》
        • 《浪潮之巅》
        • 《京东平台化数据运营》
      • 3)管理与心理学
        • 《原则》
        • 《乌合之众》
        • 《说谎》
        • 《卓有成效的管理者》
        • 《九型人格》
        • 《影响力》