扫码支付

购买商品:
商品价格:

价格读取中

支付方式:
微信

请扫码进行支付

支付宝

请扫码进行支付

二维码已过期,请点击刷新

8.4
大数据全集
9 门课程 93课时

大数据全集

套餐介绍

一、大数据之HDFS/Hadoop集群管理 HDFS是Apache Hadoop项目的一部分,是一个分布式文件系统,用于存储和管理文件,能提高超大文件的访问和存储速度。HDFS采用一次写入多次读取的流式数据访问模式保证了数据的一致性。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。 二、大数据之Mapreduce MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。 三、大数据之Hive hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 四、大数据之ZooKeeper与Hadoop ZooKeeper是一个针对大型分布式系统的可靠协调系统,为分布式应用提供一致性服务,是Google的Chubby一个开源的实现。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。 五、大数据之HBase HBase是一种构建在HDFS之上的分布式、面向列的存储系统。HBase在Hadoop之上提供了类似于Bigtable的能力,适用于实时读写、随机访问超大规模数据集。HBase不同于一般的关系数据库,它将大而稀疏的表放在服务器集群上,适合于非结构化数据存储的场景。 六、大数据之Pig和Sqoop Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来由Apache来负责维护,Pig是一个基于Hadoop的大规模数据分析平台。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块,可以结构化数据导入到Hadoop分布式文件系统或Hive和HBase系统。 七、大数据之Flume Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据。同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 八、大数据之Kafka Apache Kafka的应用有了显著的增长,它最初由LinkedIn公司开发,Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。Kafka最新的客户包括Uber, Twitter, Netflix, LinkedIn, Yahoo, Cisco, Goldman Sachs 等。 九、大数据之Storm/实时数据处理 Strom是一个老牌的实时数据处理框架,在Spark Streaming流行前,Storm统治者整个流式计算的江湖。更详细的说,Storm是一个实时数据处理框架,具有低延迟/高可用/易扩展/数据不丢失等特点,同时,Storm还提供流类似与MapReduce的简单编程模型,便于开发。

包含课程

正在加载中
加载更多...

讲师介绍

李强强
107个课程53856学员
云知梦创始人,国际架构师,11年互联网培训和开发经验,曾在港电讯盈科、北大青鸟集团、远大教育、北京易第优教育等公司任职曾获得美国红帽RHCA构架师和RHCDS数据中心讲师,在国内排名第40名,在全球排名第300名。
手机看
关注公众号

关注公众号

下载APP

下载APP

客服 帮助 返回
顶部