你将收获

学习RDD 的定义、五大特性及DataSet的定义和内部机制

学习RDD依赖关 系,包括窄依赖、宽依赖

Spark 中DAG 逻辑视图,对RDD 内部的计算机制及计算过程

基于DataSet的代码,深入分析DataSet一步步转化成为RDD 的过程

适用人群

所有Spark学习者和从业人员、有分布式计算框架应用经验的人员、高等院校学生

课程介绍

本课重点讲解Spark 的灵魂RDD 和DataSet。讲解RDD 的定义、五大特性剖析及DataSet的定义和内部机制剖析;对RDD 弹性特性七个方面进行解析;讲解RDD 依赖关系,包括窄依赖、宽依赖; 解析Spark 中DAG 逻辑视图;对RDD 内部的计算机制及计算过程进行深度解析;讲解Spark RDD 容错原理及其四大核心要点解析对Spark RDD 中Runtime 流程进行解析;通过一个WordCount 实例,解析Spark RDD内部机制; 基于DataSet的代码,深入分析DataSet一步步转化成为RDD 的过程。

课程目录