DPKB
大数据相关知识库,主要包括:
- 数据存储层、数据库(HDFS、Hive、HBase、Kudu、Doris、StarRocks、ClickHouse、TiDB等)
- 数据处理层、OLAP引擎(Spark、Flink、Presto、Trino等)
- 数据湖(IceBerg、Hudi、Delta等)
- 大数据开发、应用(主要包括ETL、调度、数仓、数据应用等,例如Seatunnel、Dolphinscheduler等)
- 数据治理(元数据管理、数据模型、数据标准、数据质量、数据安全等)
持续更新中(2023-04)
一、数据存储层、数据库(HDFS、Hive、HBase、Kudu、Doris、StarRocks、ClickHouse、TiDB等)
▶ HDFS
▶ Hive
1)官网、社区、博客
2)专栏
3)大厂实践
- HiveCube 在有赞的实践 2019-07
- Hive Metastore Federation 在滴滴的实践 2019-03
▶ HBase
1)官网、社区、博客
2)专栏
3)大厂实践
4)其他
- HBase Bulkload 实践探讨 2019-12
▶ Kudu
1)官网、社区、博客
2)专栏
3)大厂实践
- Apache Kudu 在网易的实践 2021-08
- Apache Kudu 在网易实时数仓的实践 2020-02
- Kudu架构介绍及其在小米的应用实践 2017-06
4) 其他
▶ Doris
1)官网、社区、博客
2)专栏
3)案例实践
- Apache Doris在美团外卖数仓中的应用实践 2020-04
- Apache Doris 在韵达物流领域的应用实践 2021-07
- Apache Doris 在蜀海供应链的实践 2021-07
- 京东物流基于 Doris 的亿级数据自助探索应用 2021-07
- Doris on ES在快手商业化的最佳实践 2021-08
- 基于Doris的有道精品课数据中台建设实践 2020-12
- 美团外卖实时数仓建设实践 2020-10
- Doris在作业帮实时数仓中的应用&实践 2020-09
- 基于Apache Doris的小米增长分析平台实践 2020-08
- Apache Doris在京东双十一大促中的实践 2020-03
- Apache Doris 在百度商业大规模微服务全链路监控的实践 2020-02
▶ StarRocks
1)官网、社区、博客
2) 专栏
▶ ClickHouse
1)官网、社区、博客
2)专栏
3)大厂实践
- ClickHouse 在有赞的实践之路 2021-01
4)其他
二、数据处理层、OLAP引擎(Spark、Flink、Presto、Trino等)
▶ Spark
1)官网、社区、博客
2)专栏
3)大厂实践
- SparkSQL 在有赞的实践 2019-01
- SparkSQL 在有赞大数据的实践(二) 2020-01
▶ Flink
1)官网、社区、博客
- Flink 官网
- Flink Confluence
- Flink Blog
- Ververica Blog
- Ververica 中文
- Flink 知识图谱
- Jark's Blog - WuChong - 云邪
2)专栏
教程
3)大厂实践
▶ Presto、Trino
1)官网、社区、博客
- PrestoDB 官网
- Trino 官网 原PrestoSql
- Google Presto Group
- Presto 知乎专栏
- 若飞-技术博客
2)专栏
3)大厂实践
- Presto 在车好多的实践 2020-12
- Presto 在滴滴的探索与实践 2020-10
- Presto 在有赞的实践之路 2020-04
- PrestoCon 2020:云原生数据湖分析DLA的Presto实践 2020-03
- 携程 Presto 技术演进之路 2018-08
- Presto 实现原理和美团的使用实践 2014-06
- Presto 高性能引擎在美图的实践 2021-09
三、数据湖(IceBerg、Hudi、Delta等)
- 一文看懂:什么是数据库、数据湖、数据仓库、湖仓一体、智能湖仓? 2021-08
▶ Iceberg
1)官网、社区、博客
2)应用
- 数据湖 Iceberg | 实时数据仓库的发展、架构和趋势 2021-03
- 数据湖 Iceberg | Apache Iceberg 快速入门 2021-03
- 数据湖 Iceberg | 如何正确使用 Iceberg 2021-04
- 数据湖 Iceberg | 在网易云音乐的实践 2021-04
▶ Hudi
1)官网、社区、博客
2)应用
▶ Delta
四、大数据开发、应用(主要包括ETL、调度、数仓、数据应用等,例如Seatunnel、Dolphinscheduler等)
▶ Seatunnel
▶ DolphinScheduler
▶ 大数据架构
- SQL on Hadoop 在快手大数据平台的实践与优化 2019-06
- 携程机票大数据架构最佳实践 2017-08
▶ 数仓相关
- 有赞数据仓库实践之路 2020-03
- OneData 建设探索之路:SaaS 收银运营数仓建设 2019-10
- 面向AI技术的工程架构实践 | 贝壳一站式大数据开发平台实践 2020-11
▶ 报表平台
- 有赞 BI 平台实现原理 2021-01
五、数据治理(元数据管理、数据模型、数据标准、数据质量、数据安全等)
▶ 数据治理
- 美团配送数据治理实践 2020-03
- 全链路数据治理在网易严选的实践 2020-10
- 数据资产、数据治理 - 有赞 2019-11
▶ 元数据管理
- 有赞数据仓库元数据系统实践 2018-08
- 饿了么元数据管理实践之路 2018-07
- 数据治理方案技术调研 Atlas VS Datahub VS Amundsen 2020-11
- 数据资产治理-元数据采集那点事 - 有赞 2020-12
- 来看看字节跳动内部的数据血缘用例与设计 2022-02
- 携程数据血缘构建及应用 2021-09
- Datahub A Metadata Platform for the Modern Data Stack
▶ 数据标准
- 有赞指标库实践 2020-03
▶ 数据安全
- 浅谈有赞大数据安全体系 2021-01