LearingAndThought

Catalyst分析报告

  • 开始日期: 2018-09-20
  • 期望日期: 2018-09-23
  • 状态: 完成

spark CBO原理分析,性能测试报告。

  • 开始日期: 2018-08-23
  • 期望日期: 2018-08-27
  • 状态: WIP

Spark Adaptive execution 分析,性能测试报告。

  • 开始日期: 2018-09-23
  • 期望日期: 2018-09-27
  • 状态: WIP

spark sql 源码流程分析

  • 开始日期: 2018-08-06
  • 期望日期: 2018-08-27
  • 状态: 待完善

carbon data 调研.

  • 开始日期: 2018-08-23

  • 期望日期: 2018-08-31

  • 状态: 待完善

讲解一下什么是external shuffle service

  • 开始日期: 2018-08-24
  • 期望日期: 2018-08-26
  • 状态: WIP

讲述了RDD的源码角度理解与Spark机制。

  • 开始日期: 2018-07-26
  • 期望日期: 2018-08-07
  • 状态: 完成

从最简单的spark应用WordCount入手,分析rdd链,分析job如何提交,task如何提交,从全局了解spark应用的执行流程。

  • 开始日期: 2016-08-06
  • 期望日期: 2016-08-27
  • 状态: 完成

spark shuff部分是spark源码的重要组成部分,shuffle发生在stage的交界处,对于spark的性能有重要影响,源码更新后,spark的shuffle机制也不一样,本文分析spark2.0的shuffle实现。

  • 开始日期: 2016-10-06
  • 期望日期: 2016-10-27
  • 状态: 完成

spark统一内存管理是spark1.6.0的新特性,是对shuffle memory 和 storage memory 进行统一的管理,打破了以往的参数限制。

  • 开始日期: 2016-10-06
  • 期望日期: 2016-10-27
  • 状态: 完成

spark是一个内存计算框架,因此内存是重要的资源,合理的使用的内存在spark应用在执行过程中非常重要。在使用内存的过程,spark会采用抽样的方法预测出所需要的内存,并预先分配内存。本文会就内存预测机制进行源码的解读。

  • 开始日期: 2016-10-06
  • 期望日期: 2016-10-27
  • 状态: 完成

Spark Block管理

Spark Shuffle

Spark 通信