CDH6大数据平台搭建及分析开发实战

CDH6大数据平台搭建及分析开发实战
共183节 276人在学 课程详情
  • 介绍Hadoop及生态系统

    • 传统大规模计算与分布式系统
    • Hadoop的源起
    • Hadoop核心设计
    • Hadoop核心概念-1
    • Hadoop核心概念-2
    • 大数据处理
    • 数据存储
    • 数据采集工具
    • 原始的处理引擎与大规模数据处理引擎
    • Apache Spark-1
    • Apache Spark-2
    • 大数据应用场景案例
  • CDH体系结构

    • 大规模集群管理
    • Cloudera Manager功能特性-1
    • Cloudera Manager功能特性-2
    • 实战:安装CM
    • 实战:安装CDH
  • HDFS分布式文件系统

    • 什么是分布式文件系统
    • HDFS的设计基础和目标
    • HDFS体系结构
    • NameNode
    • HDFS纠删码V2
    • HDFS文件读写-1
    • HDFS文件读写-2
    • 实战:使用HDFS文件shell
    • 实战:操作HDFS
  • MapReduce on YARN

    • MapReduce介绍
    • 简单与复杂的编程模型
    • MapReduce计算框架
    • wordcount程序示例
    • YARN
    • YARN进程
    • YARN集群-1
    • YARN集群-2
    • 作业数据
    • YARN容错
    • 任务执行-1
    • 任务执行-2
    • kill应用
    • 实战:在YARN上运行应用程序
  • 使用Sqoop导入关系型数据

    • Sqoop概述-1
    • Sqoop概述-2
    • 基本的导入和导出-1
    • 基本的导入和导出-2
    • 限制结果
    • 改进Sqoop性能
    • 实战:Sqoop的使用
  • Flume加载数据到HDFS

    • 什么是Flume
    • Agent
    • Flume设计目标
    • 大规模部署示例-1
    • 大规模部署示例-2
    • 实战:Flume收集Web日志数据
  • Impala和Hive的介绍

    • 什么是Hive
    • 什么是Impala
    • 为什么使用Impala和Hive
    • Impala和Hive如何加载和存储数据
    • 使用场景
  • 基于Impala和Hive的查询

    • 数据库和表
    • HiveQL和Impala SQL基本语法
    • 数据类型
    • HiveQL和Impala SQL的不同点
    • Impala和Hive交互
  • 管理Impala和Hive数据

    • 数据存储-1
    • 数据存储-2
    • 装载数据
    • 实战:数据管理
    • 改变数据库和表
    • 使用视图简化查询
    • 存储查询结构
  • Impala和Hive数据存储和性能优化

    • 分区表-1
    • 分区表-2
    • 实战:创建并加载静态分区表
    • 实战:数据储存和性能
    • 文本文件格式
    • SequenceFile和Avro文件格式
    • 列式存储
    • 列式文件格式
    • 实战:为数据文件选择格式
  • 基于Impala和Hive的关系型数据分析

    • 连接数据集-1
    • 连接数据集-2
    • 常用内置函数
    • 聚合和窗口
    • 实战:关系型分析-1
    • 窗口聚合
    • 其他视窗函数
    • 基于时间的窗口
    • 滑动窗口
    • 实战:关系型分析-2
  • Impala的使用

    • 如何执行Impala查询
    • Impala性能优化
    • 实战:使用Impala
  • Hive分析文本和复杂的数据

    • Hive的复杂数据类型-1
    • Hive的复杂数据类型-2
    • 实战:创建、加载并查询表数据
    • Hive中使用正则表达式-1
    • Hive中使用正则表达式-2
    • 实战:创建Web日志表并加载数据
  • 扩展Hive

    • SerDes
    • 自定义脚本实现数据转换
    • 实战:Hive进行数据转换
  • Spark基础

    • 什么是Apache Spark?
    • 使用Spark Shell
    • RDDs(弹性分布式数据集)-1
    • RDDs(弹性分布式数据集)-2
    • Spark的函数式编程
    • 实战:使用Spark Shell探索RDD
  • RDD操作

    • 创建RDD-1
    • 创建RDD-2
    • 其他通用RDD操作
    • 实战:使用Spark处理数据文件
  • 使用Pair RDDs聚合数据

    • Pair RDDs介绍
    • 创建Pair RDDs
    • Pairs问题合集
    • Map-Reduce
    • 实战:探索Web日志文件
    • 其他Pair RDD操作-1
    • 其他Pair RDD操作-2
    • 实战:使用Pair RDD来连接2个数据集
  • 编写和部署Spark应用

    • 创建SparkContext
    • 运行Spark应用
    • Spark如何运行在YARN上
    • 在集群运行Spark应用
    • 实战:使用Scala编写Spark应用
    • Spark Application Web UI
    • 配置Spark属性
    • 记录日志
    • 实战:配置Spark应用
  • Spark并行处理

    • 基于文件的RDD分区
    • HDFS和数据本地化
    • Stages和Tasks
    • 示例:求按字母划分的单词平均长度
    • Spark术语汇总
    • Spark任务执行
    • 实战:在Spark应用UI中查看jobs和Stages
  • Spark RDD持久化

    • RDD Lineage
    • RDD持久化概述
    • 分布式持久化
    • 实战:持久化RDD
  • Spark数据处理的常见模式

    • 常见Spark使用案例-1
    • 常见Spark使用案例-2常见Spark使用案例-2常见Spark使用案例-2
    • 示例:PageRank
    • PageRank算法
    • Spark PageRank
    • Spark PageRank第一次迭代
    • 检查点
    • 图处理和分析
    • 机器学习-1
    • 机器学习-2
    • 案例:K-means实现
    • 实战:为设备位置计算K-means-1
    • 实战:为设备位置计算K-means-2
  • Spark SQL和DataFrames

    • Spark SQL和SQL Context
    • 创建DataFrames-1
    • 创建DataFrames-2
    • DataFrames基本操作
    • 查询DataFrames的方式
    • 联接DataFrames
    • 示例:连接不同列
    • 保存DataFrames
    • DataFrames和RDDs
    • 实战:使用Spark SQL来处理ETL-1
    • 实战:使用Spark SQL来处理ETL-2
    • SQL的视图查询
    • 比较Spark SQL,Impala和Hive-on-Spark
  • Spark Streaming基础

    • Spark Streaming基础
    • 示例:Streaming请求统计
    • DStreams-1
    • DStreams-2
    • 开发Spark Streaming应用
    • 实战:探索Spark Streaming
  • Spark Streaming进阶

    • 多批处理
    • State操作
    • 滑动窗口操作
    • 高级数据源
    • 实战:编写Spark Streaming Application
  • 大数据项目案例

    • 案例背景分析
    • 项目总体架构
    • 数据模型分析
    • 采集、处理流程分析和应用场景分析
  • 大数据项目实战

    • 项目实战:原始数据采集
    • 项目实战:清单数据清洗
    • 项目实战:共享层建模

    订阅失败

    CDH6大数据平台搭建及分析开发实战
    CDH6大数据平台搭建及分析开发实战 ...

    订阅列表已满,请先移出部分订阅内容。

    当前章节需购买后观看
    开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!
    提交答案

    购买课程

    扫码完成付费,可继续学习全部课程内容

    加载中...
    播放页问题反馈
    视频学习中有任何产品建议都可由此反
    馈,我们将及时处理!

    课时介绍

    改变数据库和表改变数据库和表改变数据库和表

    课程介绍

    课程主要就大数据核心、大数据采集、大数据分析和大数据开发项目综合实战,配套实战案例与项目全部基于实际任务展开,结合企业级框架进行建模实战。

    由浅入深,每一个理论搭配一个实验,且侧重技能不同,学员的知识体系会更加全面。

    推荐课程

    信息系统项目管理师自考笔记

    李明 · 841人在学

    python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据

    王先生 · 22525人在学

    手把手搭建Java超市管理系统【附源码】(毕设)

    汤小洋 · 4268人在学

    Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教

    黄菊华 · 818人在学

    基于SSM酒店管理系统(毕设)

    小尼老师 · 879人在学

    java项目实战之购物商城(java毕业设计)

    Long · 5189人在学

    手把手搭建Java求职招聘系统【附源码】(毕设)

    汤小洋 · 1522人在学

    Python Django 深度学习 小程序

    钟翔 · 2380人在学

    城管局门前三包管理系统+微信小程序(vue+springboot)

    赖国荣 · 650人在学

    Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序

    李杰 · 4057人在学

    正在试验
    后自动删除环境
    课程实验
    本次实验时间已到期 00:00:00
    课件正在飞速打包中,请耐心等待几秒钟~