3
599

你将收获

学习大数据的学习基础

了解大数据的背景

理解大数据的基本概念

理解大数据的技术生态圈

适用人群

初学者,想要开始学习大数据的人。

课程介绍

介绍大数据技术生态圈主流技术框架的应用与发展,介绍如何搭建Hadoop大数据分布式系统集群平台、大数据分布式文件系统HDFS 、大数据分布式并行计算框架MapReduce。

本课程介绍大数据的学习基础。

本课程介绍大数据的背景。

带你深入了解大数据,对大数据有不同的认识。

介绍大数据的基本概念和技术生态圈。

本课程以杨力老师主编的《Hadoop大数据开发实战》为参考,书中详细的介绍了各个步骤,有需要的同学可以留意一下。

该课程的后续课程为杨力老师主讲的《hive大数据离线应用开发》,想要更进一步的同学可以继续观看杨老师的系列视频。

课程讨论

什么音质/?

gehaoyue

不说内容,这录制的声音也太差了吧

大数据精准获客,获取同行网站以及自己网站访客的手机号码,需要的加微hk96994

录制说话听不清,效果差,,,,,,,,,,,,,,,,,,,

看了那么多的Hadoop课程,除了linux和hadoop安装配置外,内容基本都集中在HDFS和MapReduce上,还有少量的YARN内容。 我主要关注HDFS和MapReduce,因为学习Hadoop的目的不是为了做运维,也不是为了搭建Hadoop系统,是为了数据处理任务的排错和优化。 当前大数据开发平台的产品越来越成熟,以后除了运维外,大数据的工作基本不怎么涉及这些技术,更多的是数据处理方面的内容,如数据分析、挖掘、可视化等数据处理工作。 受限于资源和对任务稳定性的要求,任务排错优化是必不可少的。 了解了HDFS,就能知道一些数据文件导致的错误的原因,了解了MapReduce的过程,就能知道如何优化任务提升效率。 如小文件过多,会占用大量内存,任务读取数速度越会很慢。合适的压缩方式可以节省存储空间,更重要的是能减少加载数据的速度。任务在运行时,会拆分出多个任务,如果任务间计算量差异较大,最后完成的任务拖累整个任务的运行时长。shuffle过程涉及大量的磁盘读写和网络通信,速度比较慢,是任务优化需要重点关注的一个过程。 ———————————————— 版权声明:本文为CSDN

同学笔记

没有更多了