你将收获

学员将学习和掌握使用高级脚本语言或类SQL语言来编写MapReduce任务,而无需掌握Java编程语言和熟悉Hadoop API。通过掌握Hive和/或Pig,将极大缩短数据分析人员设计编写和调试常见数据分析问题的周期,提高工作效率;从而为企业节省费用,缩短分析结果市场化的周期。

适用人群

初级研发工程师

课程介绍

Hadoop分布式文件系统(HDFS)和MapReduce的工作原理 如何优化Hadoop机群所需要的硬件配置 搭建Hadoop机群所需要考虑的网络因素 如何利用Hadoop配置选项进行系统性能调优 如何利用FairScheduler为多用户提供服务级别保障 Hadoop机群维护和监控 如何使用Flume从动态生成的文件加载数据到Hadoop

课程目录

讨论留言

正在加载中...

同学笔记

  • hans8638 2020-04-21 21:43:41

    来源:大数据技术领域介绍及学习方法和发展规划 查看详情

    1.Hadoop擅长离线,因为数据要落盘

    2.Spark擅长在线,因为基于内存

     

  • hans8638 2020-02-17 10:24:35

    来源:Hadoop的必要性-1 查看详情

    1.单机处理能力低下

    2.分布式架构实现的复杂度会随着机器数量增加而指数性增加。

    3.Java的HashMap于Python的dict

  • hans8638 2020-02-17 10:05:51

    来源:Hadoop的介绍及基本概念 查看详情

    Hapood三大核心组件

    1.HDFS:存储、分布式文件系统

    2.MapReduce:分布式编程框架(jar包)

    3.Yarn:资源调度管理集群,管理分配硬件资源。

     

    把Hadoop理解为:

    1.当作框架(例如tensorflow),专用于大数据处理,而不是Web开发

    2.当作服务软件,C/S架构,例如MySQL(使用JDBC调用),缓存服务redis,索引服务solr。可以存储、分析数据。

     

     

    Hadoop的历史:

    1.google三篇论文:GFS/MAPREDUCE/BIG TAGE

    分别解决了分布式大数据存储、处理、数据库的问题。

    2.doug cutting这个人用java把上述论文实现了上述三篇论文的思想。BIG TABLE对应HBASE

    3.搜索引擎的核心就是:爬虫+索引

    全球的网页数据是庞大的(分布式数据库)、再分析后,建立庞大数据的索引,是非常复杂的。

    4.doug cutting再做搜索引擎也有这个问题。后来三个项目独立出来,变为Hadoop。

    5.后期hadoop的组件越来越多,不局限于三大组件,成为自己独特的生态。

     

没有更多了