Spark快速大数据处理
课程总体介绍
ZooKeeper-分布式过程协同组件
Hadoop3-大数据基础组件
- hadoop3基本集群构建概要
- hadoop3基本集群安装-1
- hadoop3基本集群安装-2-上
- hadoop3基本集群安装-2-下
- hadoop3基本集群安装-3
- hadoop3基本集群安装-4
- HDFS基本原理与基本操作-1-HDFS的架构目标
- HDFS基本原理与基本操作-1-HDFS架构原理
- HDFS基本原理与基本操作-2-HDFS基本操作
- HDFS HA配置文件详解-1
- HDFS HA配置文件详解-2
- HDFS HA配置文件详解-3
- HDFS FederationViewFS-1
- HDFS FederationViewFS-2
- HDFS FederationViewFS-3
- Mapreduce基本原理-1
- MR基本原理2-例子1
- MR基本原理2-例子2
- MR基本原理2-例子3-python版本
- MR内部机制与调优1
- MR内部机制与调优2
- MR内部机制与调优3
- MR内部机制与调优4
- MR内部机制与调优5-例子上
- MR内部机制与调优5-例子下
- YARN的产生背景1
- YARN的产生背景2
- YARN架构1
- YARN架构2
- YARN基本操作命令
- RM HA配置
- YARN调度器配置
- YARN应用编程实战1
- YARN应用编程实战2
- YARN应用编程实战3
- YARN应用编程实战4
- YARN应用编程实战5
Tez-Yarn底层计算引擎
Hive-大数据仓库
Spark快速大数据处理
- Spark是类似如MR-Tez-Flink的计算框架
- Spark是大一统的数据处理引擎1-综述
- Spark是大一统的数据处理引擎2-为什么不选择RDD-数据分析的思想
- Spark是大一统的数据处理引擎3-Hive On Spark VS Spark On Hive与框
- 我们选择Python-Scala-Java为编程语言
- 编译1
- 编译2
- 安装Spark-上
- 安装Spark-下
- Spark集群模式
- SparkSQL例子-pyspark版本
- SparkSQL例子-python脚本通过spark-submit提交yarn集群
- SparkSQL例子-scala版本
- SparkSQL例子-spark-sql版本
- Hive锁表处理
- Spark编程模型与Spark基本架构
- SparkContext与任务调度
- Spark部署模式与计算引擎
- 安装Anaconda
- 安装Jupyter-1
- 安装Jupyter-2
- 安装Toree-1
- 安装Toree-2-执行python和scala例子
- 修改集群启动脚本
Spark快速大数据处理淘宝数据实战
- SparkSQL-DataFrame API概述
- 淘宝用户行为分析任务介绍
- 淘宝用户行为数据属性
- 数据加载
- 数据加载后的基本特征分析
- 任务1-用户访问流量分布分析-1-任务介绍
- 任务1-用户访问流量分布分析-2
- 任务1-用户访问流量分布分析-3
- 任务1-用户访问流量分布分析-4-pandas和Apache Arrow
- 任务1-用户访问流量分布分析-5
- 任务1-用户访问流量分布分析-6
- 任务1-用户访问流量分布分析-7
- 任务1-用户访问流量分布分析-8-编程过程总结
- 任务1-用户访问流量分布分析-9-资源不释放故障处理
- 任务1-用户访问流量分布分析-10-按照小时统计
- 任务2-用户活跃度分析-DAU
- 任务3-客单量分析
- 任务4-商品PV各环节转化率-1
- 任务4-商品PV各环节转化率-2
- 任务4-商品PV各环节转化率-3
- 任务4-商品PV各环节转化率-4
- 任务4-商品PV各环节转化率-5
Spark Structured Streaming简介
集群环境对称处理
Oozie-大数据流程引擎
- 大数据工作流的必要性
- Oozie工作流总体架构
- Oozie工作流编程概念
- 编译
- 制作sharelib-上
- 制作sharelib-下
- 安装client和server-1-oozie-server的解压与配置
- 安装client和server-2-配置mysql
- 安装client和server-3-sharelib的创建与oozie的启动
- 设置自动化启停脚本
- 编程实战概要
- oozie基本编程技巧及cron action例子-上
- oozie基本编程技巧及cron action例子-中
- oozie基本编程技巧及cron action例子-下
- Shell Action-上
- Shell Action-下
- MR Action-上
- MR Action-中
- MR Action-下
- Spark Action-上
- Spark Action-下
- PySpark Action-上
- PySpark Action-下
- Hive2 Action-上
- Hive2 Action-下
- 总结
提交答案
视频学习中有任何产品建议都可由此反
馈,我们将及时处理!
馈,我们将及时处理!
课时介绍
编程实战概要
课程介绍
课程的主要内容包括:
1.ZooKeeper-分布式过程协同组件
2.Hadoop3-大数据基础组件3.Tez-Yarn底层计算引擎
4.Hive3-大数据仓库
5.Spark2实时大数据处理
6.Oozie5-大数据流程引擎
课程特点:
1.最新API: Hadoop3/Spark2/Hive3/Oozie5
2.手工搭建集群环境:编译+搭建
3.配套资源:分阶段镜像+课件+安装资源,其中安装资源包括案例源码、脚本等
4.案例为主:分模块案例+天池数据分析竞赛
5.故障教学
6.完整实战项目:天池数据分析
推荐课程