大规模数据处理计算引擎Spark2.x教程(含资料)

大规模数据处理计算引擎Spark2.x教程(含资料)
共62节 428人在学 课程详情
  • Spark第1天概念

    • 01_spark定义和内置模块
    • 02._spark的特点
    • 03_集群角色介绍
    • 04_local模式安装任务提交
    • 05_流程分析
    • 06_standalone模式集群安装和任务提交
    • 07_历史服务器
    • 08_standalone模式ha配置
    • 09_client和cluster区别
    • 10_yarn模式流程分析
    • 11_yarn模式安装和任务提交
    • 12_yarn日志页面跳转
    • 13_wordcount案例打包上传到集群运行
    • 14_程序debug
  • Spark第2天RDD

    • 01_回顾
    • 02_rdd的定义
    • 03_rdd的属性
    • 04_rdd的特点
    • 05_rdd创建的三种方式
    • 06_rdd两种创建方式的默认分区
    • 07_rdd默认分区看源码
    • 08_分区源码1
    • 08_上午回顾2
    • 09_rdd转换操作1-4
    • 10_rdd转换5-9
    • 11_rdd转换10-15
  • Spark第3天kv转换案例

    • 06_kv转换8-11以及案例
    • 07_action算子
    • 08_函数传递
    • 09_lineage
    • 10_stage划分
    • 11._cache和checkpoint
    • 01_回顾
    • 02_kv转换1-2
    • 03_kv转换3-5
    • 04_kv转换6-8
    • 05_combineByKey
  • Spark第4天SparkCore

    • 01 - SparkCore - RDD简单回顾
    • 02 - SparkCore - 自定义分区器
    • 03 - SparkCore - 文件的读取和存储
    • 04 - SparkCore -MySQL数据的读取
    • 05 - foreachPartition算子使用
    • 06 - SparkCore-Hbase的读取和插入
    • 07 - SparkCore - 累加器
  • Spark第5天SparkSQL

    • 08 - SparkCore - 累加器回顾
    • 09 - SparkCore - 广播变量
    • 10 - SparkCore - rdd总结
    • 11 - DataFrame -DataSet 介绍
    • 12 - SparkSQL - 简单操作演示
    • 13 - RDD,DF,DS之间的转换操作
    • 14 - RDD,DF,DS之间的共性和区别
    • 15 - Java开发SparkSQL
  • Spark第6天SparkStreaming

    • 16 - 用户自定义聚合函数(强类型 & 弱类型)
    • 17 -SparkSQL通用读取数据和保存数据
    • 18 - SparkSQL操作Hive
    • 19 -SparkSQL实战简介
    • 20 - SparkStreaming - 简单介绍
    • 21 - Spark流 - WordCount
    • 22 - 多种方式采集数据(文件夹 & kafka)
    • 23 - Spark流 - 自定义数据采集器
    • 24 - Spark流 - 有状态数据操作
    • 25 - SparkStreaming - 窗口函数

    订阅失败

    大规模数据处理计算引擎Spark2.x教程(含资料)
    大规模数据处理计算引擎Spark2.x教程(含资料) ...

    订阅列表已满,请先移出部分订阅内容。

    当前章节需购买后观看
    开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!
    提交答案

    购买课程

    扫码完成付费,可继续学习全部课程内容

    加载中...
    播放页问题反馈
    视频学习中有任何产品建议都可由此反
    馈,我们将及时处理!

    课时介绍

    05_combineByKey

    课程介绍

    Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。


    Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。


    Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。


    尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。


    本部分内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark RDD、Spark Streaming流式计算原理与实践,Spark SQL,Spark的多语言编程以及SparkR的原理和运行。本套Spark教程不仅面向项目开发人员,甚至对于研究Spark的在校学员,都是非常值得学习的。

    推荐课程

    信息系统项目管理师自考笔记

    李明 · 915人在学

    python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据

    王先生 · 22811人在学

    手把手搭建Java超市管理系统【附源码】(毕设)

    汤小洋 · 4294人在学

    Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教

    黄菊华 · 838人在学

    基于SSM酒店管理系统(毕设)

    小尼老师 · 899人在学

    java项目实战之购物商城(java毕业设计)

    Long · 5203人在学

    手把手搭建Java求职招聘系统【附源码】(毕设)

    汤小洋 · 1532人在学

    Python Django 深度学习 小程序

    钟翔 · 2408人在学

    城管局门前三包管理系统+微信小程序(vue+springboot)

    赖国荣 · 681人在学

    Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序

    李杰 · 4076人在学

    正在试验
    后自动删除环境
    课程实验
    本次实验时间已到期 00:00:00
    课件正在飞速打包中,请耐心等待几秒钟~