Spark快速大数据处理

Spark快速大数据处理
共168节 16334人在学 课程详情
  • 课程总体介绍

    • 什么是大数据
    • 课程体系
    • 集群拓扑
    • 集群安装的软件情况
    • 课程特点
    • VirtualBox集群环境基本操作-1
    • VirtualBox集群环境基本操作-2
    • 课程起点准备
  • ZooKeeper-分布式过程协同组件

    • ZooKeeper概要
    • 什么是分布式过程协同
    • 分布式过程协同架构设计的难点
    • 为什么选择ZooKeeper
    • 环境搭建与案例分析总体介绍
    • 环境搭建
    • 案例实战-分布式锁
    • 案例实战-主从应用-1
    • 案例实战-主从应用-2
    • 案例实战-主从应用-3
    • 案例实战-主从应用-4
    • ZooKeeper清理工作
  • Hadoop3-大数据基础组件

    • hadoop3基本集群构建概要
    • hadoop3基本集群安装-1
    • hadoop3基本集群安装-2-上
    • hadoop3基本集群安装-2-下
    • hadoop3基本集群安装-3
    • hadoop3基本集群安装-4
    • HDFS基本原理与基本操作-1-HDFS的架构目标
    • HDFS基本原理与基本操作-1-HDFS架构原理
    • HDFS基本原理与基本操作-2-HDFS基本操作
    • HDFS HA配置文件详解-1
    • HDFS HA配置文件详解-2
    • HDFS HA配置文件详解-3
    • HDFS FederationViewFS-1
    • HDFS FederationViewFS-2
    • HDFS FederationViewFS-3
    • Mapreduce基本原理-1
    • MR基本原理2-例子1
    • MR基本原理2-例子2
    • MR基本原理2-例子3-python版本
    • MR内部机制与调优1
    • MR内部机制与调优2
    • MR内部机制与调优3
    • MR内部机制与调优4
    • MR内部机制与调优5-例子上
    • MR内部机制与调优5-例子下
    • YARN的产生背景1
    • YARN的产生背景2
    • YARN架构1
    • YARN架构2
    • YARN基本操作命令
    • RM HA配置
    • YARN调度器配置
    • YARN应用编程实战1
    • YARN应用编程实战2
    • YARN应用编程实战3
    • YARN应用编程实战4
    • YARN应用编程实战5
  • Tez-Yarn底层计算引擎

    • Tez总体介绍
    • 为什么要用Tez-1
    • 为什么要用Tez-2
    • 特征1
    • 特征2-MR再讲解
    • Tez基本架构
    • 编译1
    • 编译2
    • 安装1
    • 安装2
    • 编程实战1-总体架构与创建DAG-1
    • 编程实战2-创建DAG-2
    • 编程实战3-程序的总体流程
    • 编程实战4-编译执行
  • Hive-大数据仓库

    • Hive总体规划
    • SQL on OLAP
    • Hive Arch和Hive metastore以及和传统数据库的对比1
    • Hive Arch和Hive metastore以及和传统数据库的对比2
    • Hive环境安装1-安装总体介绍
    • Hive环境安装2-启用自动化集群启停脚本
    • 安装Mysql
    • 安装Hive-1
    • 安装Hive-2
    • 基本命令行操作
    • HiveQL数据定义1
    • HiveQL数据定义2-数据库与hdfs文件对应关系
    • .HiveQL数据定义3-外部表与内部表操作例子及表与hdfs文件管控关系
    • HiveQL查询-HiveQL查询及Tez与MR引擎性能对比
    • Hive锁
    • Hive执行计划与表分区
  • Spark快速大数据处理

    • Spark是类似如MR-Tez-Flink的计算框架
    • Spark是大一统的数据处理引擎1-综述
    • Spark是大一统的数据处理引擎2-为什么不选择RDD-数据分析的思想
    • Spark是大一统的数据处理引擎3-Hive On Spark VS Spark On Hive与框
    • 我们选择Python-Scala-Java为编程语言
    • 编译1
    • 编译2
    • 安装Spark-上
    • 安装Spark-下
    • Spark集群模式
    • SparkSQL例子-pyspark版本
    • SparkSQL例子-python脚本通过spark-submit提交yarn集群
    • SparkSQL例子-scala版本
    • SparkSQL例子-spark-sql版本
    • Hive锁表处理
    • Spark编程模型与Spark基本架构
    • SparkContext与任务调度
    • Spark部署模式与计算引擎
    • 安装Anaconda
    • 安装Jupyter-1
    • 安装Jupyter-2
    • 安装Toree-1
    • 安装Toree-2-执行python和scala例子
    • 修改集群启动脚本
  • Spark快速大数据处理淘宝数据实战

    • SparkSQL-DataFrame API概述
    • 淘宝用户行为分析任务介绍
    • 淘宝用户行为数据属性
    • 数据加载
    • 数据加载后的基本特征分析
    • 任务1-用户访问流量分布分析-1-任务介绍
    • 任务1-用户访问流量分布分析-2
    • 任务1-用户访问流量分布分析-3
    • 任务1-用户访问流量分布分析-4-pandas和Apache Arrow
    • 任务1-用户访问流量分布分析-5
    • 任务1-用户访问流量分布分析-6
    • 任务1-用户访问流量分布分析-7
    • 任务1-用户访问流量分布分析-8-编程过程总结
    • 任务1-用户访问流量分布分析-9-资源不释放故障处理
    • 任务1-用户访问流量分布分析-10-按照小时统计
    • 任务2-用户活跃度分析-DAU
    • 任务3-客单量分析
    • 任务4-商品PV各环节转化率-1
    • 任务4-商品PV各环节转化率-2
    • 任务4-商品PV各环节转化率-3
    • 任务4-商品PV各环节转化率-4
    • 任务4-商品PV各环节转化率-5
  • Spark Structured Streaming简介

    • 什么是流、动态表
    • Streaming WordCount原理
    • 时间与窗口-1-基本概念
    • 时间与窗口-2-例子
    • 事件迟到
    • 水印
    • 进一步学习材料
  • 集群环境对称处理

    • Spark案例后的集群环境对称处理
  • Oozie-大数据流程引擎

    • 大数据工作流的必要性
    • Oozie工作流总体架构
    • Oozie工作流编程概念
    • 编译
    • 制作sharelib-上
    • 制作sharelib-下
    • 安装client和server-1-oozie-server的解压与配置
    • 安装client和server-2-配置mysql
    • 安装client和server-3-sharelib的创建与oozie的启动
    • 设置自动化启停脚本
    • 编程实战概要
    • oozie基本编程技巧及cron action例子-上
    • oozie基本编程技巧及cron action例子-中
    • oozie基本编程技巧及cron action例子-下
    • Shell Action-上
    • Shell Action-下
    • MR Action-上
    • MR Action-中
    • MR Action-下
    • Spark Action-上
    • Spark Action-下
    • PySpark Action-上
    • PySpark Action-下
    • Hive2 Action-上
    • Hive2 Action-下
    • 总结

    订阅失败

    Spark快速大数据处理
    Spark快速大数据处理 ...

    订阅列表已满,请先移出部分订阅内容。

    当前章节需购买后观看
    开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!
    提交答案

    购买课程

    扫码完成付费,可继续学习全部课程内容

    加载中...
    播放页问题反馈
    视频学习中有任何产品建议都可由此反
    馈,我们将及时处理!

    课时介绍

    分布式锁

    课程介绍

    课程的主要内容包括:

    1.ZooKeeper-分布式过程协同组件

    2.Hadoop3-大数据基础组件
    3.Tez-Yarn底层计算引擎
    4.Hive3-大数据仓库
    5.Spark2实时大数据处理

    6.Oozie5-大数据流程引擎

    课程特点:


    1.最新API: Hadoop3/Spark2/Hive3/Oozie5
    2.手工搭建集群环境:编译+搭建
    3.配套资源:分阶段镜像+课件+安装资源,其中安装资源包括案例源码、脚本等
    4.案例为主:分模块案例+天池数据分析竞赛
    5.故障教学
    6.完整实战项目:天池数据分析

    推荐课程

    信息系统项目管理师自考笔记

    李明 · 721人在学

    python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据

    王先生 · 22094人在学

    手把手搭建Java超市管理系统【附源码】(毕设)

    汤小洋 · 4203人在学

    Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教

    黄菊华 · 788人在学

    基于SSM酒店管理系统(毕设)

    小尼老师 · 841人在学

    java项目实战之购物商城(java毕业设计)

    Long · 5153人在学

    手把手搭建Java求职招聘系统【附源码】(毕设)

    汤小洋 · 1506人在学

    Python Django 深度学习 小程序

    钟翔 · 2319人在学

    城管局门前三包管理系统+微信小程序(vue+springboot)

    赖国荣 · 598人在学

    Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序

    李杰 · 3985人在学

    正在试验
    后自动删除环境
    课程实验
    本次实验时间已到期 00:00:00
    课件正在飞速打包中,请耐心等待几秒钟~