大数据学习文档、实战代码、源码解析、测试数据

包含python、mysql、shell、 hadoop、hive、zookeeper、hbase、flume、kafka、spark、flink、dolphinscheduler、elasticsearch、sqoop、clickhouse、flinkcdc、canal、debezuim、datax、hudi、starrocks、iceberg、doris、cdh、superset、docker、kubernetes、strampark、maxwell等组件学习、实战、面试持续更新中...

码字不易，路过的朋友们右上角请点个 ★star★ 鼓励一下~，感谢（抱拳）。

【 cassandra 代码持续更新中...】

【 doris 代码持续更新中...】

一、python

【 1. python 基础】

【 2. python Numpy 】

【 3. python Pandas 】

【 4. Anaconda 搭建pyflink开发环境】

【 5. Anaconda Jupyter Notebook中配置多版本Python 】

二、shell

【1. shell基础】

【2. 安装包下载】

【 3. 一键搭建hive集群】

【 4. 一键搭建dolphinscheduler集群】

【 5. 一键搭建flume集群】

【 6. 一键搭建elasticsearch集群】

三、大数据基础环境准备

【 1. 安装虚拟机Centos7 】

【 2. 安装MobaXterm 】

【 3. centos7免密设置】

【 4. centos7安装JDK1.8 】

【 5. centos7安装mysql 】

四、hadoop

【 1. CentOS7安装hadoop集群】

【 2. hadoop基于 HDFS HA 集群高可用安装】

【 3. hadoop基于 YARN HA 集群高可用安装】

【 4. hadoop shell 命令】

【 5. hadoop mapreduce实战】

五、hive

【 1. CentOS7安装hive集群】

六、zookeeper

【 1. CentOS7安装zookeeper集群】

【 2. zookeeper基础】

【 3. zookeeper实战】

七、hbase

【 1. CentOS7安装Hbase集群】

【 2. hbase原理】

【 3. hbase shell命令】

【 4. hbase 实时同步elasticsearch 案例】

八、flume

【 1. CentOS7安装Flume集群】

九、kafka

【 1. kafka 安装（集群版）】

【 2. ★ kafka 面试之高可用 ★ 】

【 3. kafka 面试30问】

【 4. kafka 分区数真的越多越好吗】

【 5. kafka 事务实现原理】

【 6. kafka 常见故障处理】

【 7. kafka 真实项目最佳实践】

【 8. 超惊艳的Kafka可视化工具，用了以后效率翻倍！】

十、spark

十一、flink

【 1. ★ flink 面试 100 问 ★ 】

【 2. flink 消费kafka的四种起始位置】

【 3. pyflink Table API 基本操作案例】

【 4. pyflink Table API wordcount案例】

【 5. pyflink DataStream API wordcount案例】

【 6. pyflink 集成 hive catalog模式建设数仓】

【 7. pyflink 集成 hive catalog模式读写数据】

【 8. FlinkSql 集成 hive catalog模式进行读写数据】

【 9. ★ Flink checkpoint 执行流程及优化方案 ★ 】

【 10. ★ Flink 内存优化方案 ★ 】

【 11. Flink任务执行与资源划分】

【 12. Flink 算子链与槽位共享】

【 13. Flink 命令行工具】

【 14. 拒绝背锅，FlinkCDC采集表操作日志】

【 15. 还不会修改Flink源码？请看这篇教程→ 】

【 16. 这三种场景，建议使用Flink→ 】

【 16. FlinkSQL搭配Hive构建批流一体数仓完整过程】

【 17. Flink实现运输公司车辆超速实时监测】

【 18. 源码剖析 | Flink源码修改编译保姆级教程】

【 19. 这三种场景，建议使用Flink 】

【 20. 还不会修改Flink源码？请看这篇教程】

【 21. 万字长文 | 透过现象看本质 | 从WordCount 到Flink Streaming API 源码详细解读】

【 22. Flink Table Api 完整源码解析】

【 23. Flink《任务执行流程十步走》详细总结】

【 24. 翻遍Flink源码，发现Client任务提交之后运行步骤竟然还有45步之多... 】

【 25. 5000字彻底讲清什么是Flink状态与容错】

【 26. 一张图彻底说清楚 Flink checkpoint 过程中 Coordinator 到底做了哪些事】

【 27. Flink源码分析 | barrier(屏障) 如何传输】

【 28. Flink源码解析|状态的更新和存储流程详解】

【 29. Flink源码解析 | 元信息的存储】

【 30. Flink源码解析 | 状态恢复如何进行元数据读取】

【 31. Flink源码解析 | 状态的重分配】

【 32. Flink源码解析 | 状态数据的恢复】

【 33. Flink状态的重分配策略详解】

【 34. Flink窗口基本概念和设计** 】

【 35. Flink调优 | 动态调整并行度】

【 36. Flink调优 | 自适应查询执行】

【 37. Flink 反压机制详解】

【 38. FlinkSQL 用户自定义connector 扩展实战】

【 39. Flink State Processor Api 读写 Flink State 实战】

十二、dolphinscheduler

【 1. dolphinscheduler 定时任务编写详细教程】

【 2. dolphinscheduler 定时任务编写详细教程】

【 3. dolphinscheduler 文件/任务组/UDF管理】

【 4. dolphinscheduler 配置DataX,Flink,Hive教程】

【 5. dolphinscheduler 配置spark、SQL、Sqoop教程】

十三、elasticsearch

【 1. ES增删改查代码实战】

十四、sqoop

十五、clickhouse

【 1. clickhouse 简介、安装及实操】

【 2. clickhouse 基本操作】

【 3. clickhouse 物化视图】

【 4. clickhouse字典操作】

【 5. clickhouse 测试数据集及SQL练习】

【 6. clickhouse集成mysql 】

十六、flinkcCDC

【 1. OceanBase CDC 导入 Elasticsearch 】

【 2. MongoDB CDC 导入 Elasticsearch 】

【 3. Oracle CDC 导入 Elasticsearch 】

【 4. PolarDB-X CDC 导入 Elasticsearch 】

【 5. SqlServer CDC 导入 Elasticsearch 】

【 6. TiDB CDC 导入 Elasticsearch 】

【 7. 涨知识！Flink旁侧流同步Mysql多表到Doris 】

十七、canal

十八、debezium

十九、datax

【 1. DataX Ftp远程文件读写操作】

【 2. DataX Oracle 读写教程】

【 3. DataX MySQL读写教程】

二十、hudi

二十一、starrocks

二十二、iceberg

【 1. 基于Flink＋Iceberg构建准实时数仓】

二十三、doris

【 1. Doris安装与部署】

【 2. doris如何导入本地数据？】

【 3. doris数据表的创建与数据导入】

【 4. doris 导入的数据转换、列映射及过滤】

【 5. 再见Hive，新一代数仓Doris横空出世，真香！】

【 6. Doris真贴心，连测试数据都提供了，整整100G！建议收藏。】

【 7. 这款Doris运维组件，同事用了都说香... 】

【 8. 基于Doris的OLAP查询和实时数据仓库实战】

【 9. Doris 集群扩缩容实战】

【 10. Flink Doris Connector使用详解】

【 11. 腾讯一面：Doris有哪几种方式连接外部表】

【 12. Doris查询太慢？看一下这些优化方法... 】

【 13. 网易一面：七种Doris数据导入方式你知道几种？】

【 14. 超级详细Doris安装部署教程】

【 15. 万字长文 | 详解Doris数据对象】

二十四、cdh centos

【 1. cdh6 搭建大数据集群（centos版本）】

二十五、cdh ubuntu

【 1. CDH6搭建大数据平台（Ubuntu版）】

二十六、superset

【 1. Superset整合Doris进行报表开发实战】

二十七、docker

二十八、kubernetes

二十九、streampark

三十、maxwell

三十一、Github

【 1. 想参与开源，不懂怎么PR(Pull Request)，看这篇就够了】

【 2. 超级详细的github操作教程（万字长文）】

三十二、NIFI

【 1. NiFI实时同步MySQL数据到Kafka保姆级教程！】

三十三、SEATUNNEL

【 1. 完美替代DataX，Seatunnel初体验. 】

【 2. 手搓一个全新 Seatunnel Connector 】

【 3. 共建开源】手把手教你贡献一个Seatunnel PR，超级详细教程！】

【 4. seatunnel配置写入Kafka任务，附300个案例demo 】

【 5. dolphinscheduler+flink+seatunnel集成详细教程】

【 6. Seatunnel 热门问题解答】

【 7. SeaTunnel配置秘籍 | 400页文档详尽指南】

【 8. SeaTunnel配置大全 | 50页详解Transform 】

三十四、Dinky

【 1. Dinky0.7安装详细教程... 】

三十五、Paimon

【 1. Paimon 初体验... 】

三十六、Datasophon

【 1. 国产大数据平台Datasophon安装详细教程！】

大数据面试系列

【 1. 百度一面：什么是Flink状态？】

【 2. 面试数据治理工程师，让介绍一下什么是数据治理】

【 3. Flink面试高频题：Flink两阶段提交】

三十七、Trino

【 1. 联邦查询神器Trino初体验】

【 2. Trino联邦查询Mysql,Sqlserver,Kafka实战】

大数据技能总结

实时离线数仓V1

【 1. 大数据版《上春山》 | 《实时/离线数仓实战》系列视频文章抢鲜发布】

【 2. 建议收藏 | 《实时/离线数仓实战》配套组件安装文档】

【 3. 视频 | 实时离线数仓实战NO.1 概览篇】

【 4. 视频 | 实时离线数仓实战No.2 业务库设计及模拟数据一键生成】

【 5. 视频 | 实时离线数仓实战No.3 Flink消费Kafka实时写入 Paimon ods 层】

【 6. 视频 | 实时离线数仓实战No.4 Dolphinscheduler搭配Seatunnel定时同步MySQL数据到Doris 】

【 7. 视频 | 实时离线数仓实战No.5 基于Dinky开发FlinkSQL清洗Paimon ODS层数据到DWD层】

【 8. 视频 | 实时离线数仓实战No.6 DS调度DorisSQL清洗ODS层数据到DWD层】

【 9. 视频 | 实时离线数仓实战No.7 基于Dinky开发Flink代码聚合Paimon DWD数据到DWS层】

【 10. 实时离线数仓实战No.8 基于Dolphinscheduler调度DorisSQL聚合DWD数据到DWS层】

【 11. 视频 | 实时离线数仓实战No.9 基于Dinky开发Flink代码关联DWS数据到ADS层】

【 12. 实时离线数仓实战No.10 DolphinScheduler调度DorisSQL 关联DWS层到ADS层】

【 13. 视频 | 实时离线数仓实战No.10 dolphinscheduler任务编排】

【 14. 《实时离线数仓实战》第一阶段总结及第二阶段展望】

实时离线数仓V2

【 1. 实时离线数仓实战V2 | 发布预告】

AI应用开发

【 1. AI榜单开源啦！欢迎各位圈友体验】

【 2. AI榜单使用手册】

其他

【 1. 超级惊艳的一款免费在线画图工具，完美适配程序员! 】

【 2. Snowflake算法个人魔改版... 】

【 3. FTP服务搭建教程（虚拟用户访问FTP服务）】

【 4. 大数据精彩应用 | 催债也能有超高用户体验】

【 5. 国内AI大模型已近200个，我心中的排名前十的是哪些？】

【 6. 自从用了这款开源大数据平台监控系统 HertzBeat ，睡觉超级香】

【 7. 数据可视化新篇章：Superset之后，Datart如何重塑行业格局？】

关注微信公众号《大数据技能圈》

添加作者微信

jibaro/bigdata_learning

大数据学习文档、实战代码、源码解析、测试数据

码字不易，路过的朋友们右上角请点个 ★star★ 鼓励一下~，感谢（抱拳）。