Spark大数据全栈开发实战:从0到1构建企业级数据解决方案

Spark大数据全栈开发实战:从0到1构建企业级数据解决方案
共17节 2人在学 课程详情
  • Spark项目实战筑基

    • 分布式系统安装hive
    • 分布式系统连接yarn
    • 配置hive的metastore
    • 配置spark的yarn模式
    • HiveSQL的执行方式
    • spark-submit提交的参数
    • 离线数仓生成模拟数据
    • 数据导入hive的ODS表
    • hive的文件存储格式
    • 第一章总结
  • 数据清洗

    • yarn提交作业的流程和队列配置
    • 导入数据到ODS.sh
    • 创建spark项目
    • 数据清洗
    • spark项目打包在服务器
    • 编写SparkUtil工具类
    • 第二章技术总结

    订阅失败

    Spark大数据全栈开发实战:从0到1构建企业级数据解决方案
    Spark大数据全栈开发实战:从0到1构建企业级数据解决方案 ...

    订阅列表已满,请先移出部分订阅内容。

    当前章节需购买后观看
    开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!
    提交答案

    购买课程

    扫码完成付费,可继续学习全部课程内容

    加载中...
    播放页问题反馈
    视频学习中有任何产品建议都可由此反
    馈,我们将及时处理!

    课时介绍

    创建spark项目创建spark项目创建spark项目创建spark项目创建spark项目创建spark项目创建spark项目创建spark项目创建spark项目创建spark项目创建spark项目

    课程介绍

    一、【为什么要学习本门课程】——直击行业痛点,破解职业焦虑  

     

     现状困境:  

    - 数据爆炸时代:全球每日新增数据量超50PB,传统单机处理工具(如Excel/SQL)已无法应对TB级数据; 

    - 企业刚需缺口:90%以上中大型企业依赖Hadoop/Spark生态,但市场缺乏既懂业务逻辑又精通Spark调优的复合型人才;

    - 职业竞争加剧:初级ETL工程师趋于饱和,掌握Spark+机器学习+实时计算的人才薪资溢价达3-5倍;

    - 技术迭代风险:纯批处理工程师面临淘汰危机,流批一体、湖仓融合成为新趋势。  

     

     本课程核心解决问题:  

     能力断层:从“会写简单WordCount”到“独立设计企业级数据流水线”的能力跃迁;  

     效率瓶颈:教你用RDD/DataFrame/SQL多维优化技巧,实现亿级数据秒级响应;

     业务脱节:通过6大真实行业案例(电商风控/日志审计/广告点击预测等),打通技术落地最后一公里;

     职业天花板:培养具备架构设计能力的“T型人才”,胜任大数据开发/数据工程师/数据科学家等多类岗位。 

     

     *真实学员反馈*:“学完才发现,以前写的Spark作业都是玩具数据!这门课让我第一次处理了10亿条订单日志。”

     

     三、【主体大纲&设计思路】——四阶成长模型,科学递进式培养  

    设计理念:遵循“认知→模仿→创新→超越”的学习规律,采用 “单点突破→串联成线→扩展成面→实战检验” 的螺旋上升结构。  

     

    Spark架构原理、RDD/DataFrame/DataSet转换关系、广播变量/累加器本质、常用算子底层实现      

    完成TopN热门商品统计项目       Spark SQL窗口函数、Catalyst优化器原理、外部数据源集成(Hive/MySQL/Elasticsearch)  

    实现多维漏斗分析看板         

    实时流处理(Structured Streaming + Kafka)

    机器学习管道(MLlib特征工程+LR/GBDT)

    生产环境调优实战(内存分配/并行度/序列化选型)、故障诊断工具链、A/B测试AB实验框架搭建   

    提交企业级性能优化报告  

     特别设计:

    - 反模式警示录:列举常见错误写法(如制使用Cache导致Driver OOM),对比正确姿势;  

    - 跨界思维训练:同一需求分别用RDD/DSL/SQL三种方式实现,分析各自的优劣场景;  

     

    四、【授课风格】——硬核干货+人性化引导双驱动  

    语言风格:  

    - 比喻式教学:“把Executor当成快递小哥,Task就是包裹,缓存区相当于临时仓库”;  

    - 段子辅助记忆:“记住!凡是能用join的地方尽量别用group by,否则你的Shuffle文件会像双十一快递爆仓!”;  

    - 方言穿插:适当使用“咱们先把这个Bug干掉”“这段代码有点皮”等口语化表达,降低理解门槛。  

     

     内容呈现形式:  

    左侧IDE编码区+中间WebUI监控面板+右侧日志输出框同步联动;  

    如Join操作如何拆分Map端和Reduce端任务;  

    推荐课程

    信息系统项目管理师自考笔记

    李明 · 866人在学

    python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据

    王先生 · 22647人在学

    手把手搭建Java超市管理系统【附源码】(毕设)

    汤小洋 · 4282人在学

    Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教

    黄菊华 · 824人在学

    基于SSM酒店管理系统(毕设)

    小尼老师 · 889人在学

    java项目实战之购物商城(java毕业设计)

    Long · 5195人在学

    手把手搭建Java求职招聘系统【附源码】(毕设)

    汤小洋 · 1525人在学

    Python Django 深度学习 小程序

    钟翔 · 2390人在学

    城管局门前三包管理系统+微信小程序(vue+springboot)

    赖国荣 · 666人在学

    Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序

    李杰 · 4067人在学

    正在试验
    后自动删除环境
    课程实验
    本次实验时间已到期 00:00:00
    课件正在飞速打包中,请耐心等待几秒钟~