你将收获

分布式软件框架

Map Reduce 原理与使用

关联数据挖掘

适用人群

1. 所有对Python编程语言感兴趣的人员; 2.大专及以上学历的在校学生; 3.在职工作人员; 4.本课程适用于零基础学员。

课程介绍

技能掌握
1. 分布式软件框架
2. Map Reduce 原理与使用
3. Hive持久化
4. 海量数据解决方案

课程讨论

暂无评论

同学笔记

  • panda_cute 2020-08-29 13:53:54

    来源:Map Reduce思想变换数据key-value_02 查看详情

    数据是分布式存储,计算也是分布式的

    现实中的业务都是单点计算,单点存储的。变成分布式计算与存储,程序要根据Map-reduce进行改造,即最终的意义

    key 是 path路径;value是文件

    将文件对象拆分成新的key value

  • panda_cute 2020-08-29 13:25:44

    来源:Map Reduce思想变换数据key-value_01 查看详情

    Hadoop有四个模块

    超大的文本文件,统计每个文本中的词出现的次数

    热门url,搜索词统计,区分垃圾邮件和短信,舆情分析(正负面评论)

    Map  发散 逐行扫描,并抽取关键  遍历,递归    key value 键值对

    Group by key 排序,洗牌

    Reduce 收敛 聚合,总结,过滤或转换;写入结果

    Map 和Reduce函数要根据具体问题具体实现

  • panda_cute 2020-08-29 13:00:02

    来源:Hadoop海量数据实现原理_03 查看详情

     电脑里需要冗余的数据确保数据的连续性

    全局文件名路径:可在任何位置通过文件名找到文件

    冗余化数据常见操作:读取,追加数据

    分布式文件系统:HDFS

    ‘’块状‘’的数据  打包数据

    数据间耦合性与关联性越少,越适合做分布式文件系统

    数据格式尽量统一

    C1在第一台和第五台服务器上,被存储2-3次,在不同的机架上

    找最近的服务器的C5

    块不但能存储数据也可以用于计算

没有更多了