你将收获

熟悉实际生产环境的数据架构

熟悉如何与其他团队沟通合作

站在架构的层次来理解HADOOP平台

适用人群

具有一些JAVA开发经验,了解LINUX操作系统,并对数据有概念的同学

课程介绍

本课程以CDH作为大数据平台,详细介绍CDH平台各个组件在生产环境的应用及开发,并结合实际的业务场景,离线数仓,实时数仓,构建企业核心的数据架构。

在实际的工作当中,大数据架构,运维或者开发人员会与多个公司团队合作,ETL团队,爬虫团队,算法团队,运营团队等等,指导大家如何与个个团队打交道,提升工作效率。减少团队之间不愉快的沟通。

希望学习者最好从事过数据库相关工作,有一些 JAVA开发基础,或者有其他工作经验,想学习大数据及数据仓库的同学,对于没有工作经验,或者对开发,数据完全小白的同学,建议先了解相关知识再学习。

本课程的宗旨只有一条,任何学习完本课程的同学,都能熟悉企业主流的数据架构,都有能力维护一个中等HADOOP集群,也就是1P左右的数据的集群或者多个集群。




课程目录

学员评价

5.0
  • 100%
  • 0%
  • 0%
  • 0%
  • 0%
  • zdltkvxdut 2020-03-20 23:50

    讲解得非常棒! 谢谢王总得讲解~,期待有大数据平台规划、设计及生产维护方面得指导视频推出!!!

  • mnhlfq 2020-03-09 16:18

    群号不对,到哪里下载课件?(....)

没有更多了

同学笔记

  • zdltkvxdut 2020-03-20 17:36:06

    来源:impala指定Coordinate和Executor 查看详情

    连接指定的impala服务器:  impala-shell -i 主机名:21000

     

     

  • zdltkvxdut 2020-03-20 15:25:09

    来源:impala自动同步Hive元数据变更 查看详情

    让impala 3.1的catalog自动同步hive metadata 元数据。可以在Catalog Server 命令行参数高级配置代码段(安全阀)设置 “‑‑hms_event_polling_interval_s=5” 后保存即可。

  • zdltkvxdut 2020-03-20 14:46:32

    来源:Hive及impala安装部署 查看详情

    #beeline

    #!connect jdbc:hive2://主机名/default

    随后可以进行数据库操作

     

    知识点:

    beeline在系统没有配置用户名和密码时,连续输入两个回车即可进入beeline。

     

    impala的安装需要在HIVE之后,并且impala 的catalog需要从HIVE的 Metadata获取元数据信息。

    impala 的启动命令是 :impala-shell

    Cloudera 6.2之前的impala 的catalog 不会自动从hive Metadata 中刷新元数据(6.2会滞后3~5秒),需要使用invalidate metadata命令强制元数据过期。

     

没有更多了