Python玩转大数据--105精讲视频

Python玩转大数据--105精讲视频
共105节 2328人在学 课程详情
课程目录
讨论留言
  • 课程简介

    • 课程学习路径简介
  • Docker知识快速入门

    • Docker数据卷容器实现备份、恢复和迁移
    • Docker容器绑定外部端口和IP
    • 容器互联
    • 一个完整的例子
    • Dockerfile基本结构讲解
    • Dockerfile中常见的13中指令
    • 什么是Docker技术
    • 为什么要使用Docker
    • Docker中的基本概念
    • Docker安装
    • Docker获取镜像
    • Docker创建镜像(1)
    • Docker创建镜像(2)
    • Docker本地导入镜像
    • Docker保存、载入、删除镜像
    • Docker容器的创建、启动和停止
    • Docker命令进入容器后台
    • Docker命令导入导出和删除容器
    • Docker公有仓库Docker Hub
    • Docker私有仓库的创建
    • Docker中的数据卷
    • Docker制作数据卷容器
  • Docker搭建Spark学习环境,一键部署So Easy!

    • Spark基础核心讲解
    • 镜像制作方案和集群网络规划及子网配置和SSH无密钥登录配置
    • Hadoop、HDFS、Yarn配置文件详解
    • Spark及Hive配置文件详解
    • Dockerfile制作Hadoop/Spark/Hive镜像
    • 启动5个容器并启动Hadoop/Spark/Hive集群
  • pyspark基础及原理快速入门,细致详尽

    • pyspark模块介绍
    • SparkContext编程入口及Accumulator
    • addFile方法和SparkFiles的get方法详解
    • binaryFiles读取二进制文件
    • Broadcast广播变量原理及setLogLevel设置日志级别
    • 文件的读取和保存及runJob方法和parallelize创建RDD
    • union方法和statusTracker详解
    • aggregate和aggregateByKey的异同
    • collectAsMap和fold方法的立即及正确使用
    • foreach和foreachPartitions原理及性能对比
    • histogram和lookup方法作用及使用
    • reduce、sampleStdev等方法详解
    • 使用sequenceFile读写序列文件
    • takeSample,treeAggregate方法使用
    • coalesce,repartition方法使用技巧及原理
    • cogroup、combineByKey、aggregateByKey的异同及性能对比
    • foldByKey,groupBy,groupWith三个方法的对比及原理
    • 集合操作intersection,subtract,union的使用
    • join,fullOuterJoin等RDD的关联操作详解
    • glom,mapPartions,mapValues详解
    • pipe,randomSplit,sampleByKey等方法详解
    • sortBy,sortByKey,values,zip等方法详解
    • StorageLevel中常见的存储级别及使用
    • SparkConf对象详解
    • 广播变量深入讲解
    • Accumulator累加器详解
    • StatusTracker对Spark作业运行状态监控
    • Catalog对象详解
  • pyspark之SparkSQL,入门到精通

    • pyspark之SparkSQL模块介绍
    • SparkSession编程入口
    • 掌握创建DataFrame的八种方法
    • range和udf用户自定义函数讲解
    • agg聚合方法及设置数据缓存
    • colRegex及corr计算皮尔森相关系数
    • crossJoin笛卡尔积和cube多维数据立方体
    • explain,dropna及filter和where算子详解
    • groupBy,intersect,join方法详解
    • rollup,replace和randomSplit方法详解
    • summary统计方法及toPandas转换为Pandas对象
    • GroupedData对象
    • Column对象(上)
    • Column对象(下)
    • Row对象详解
    • DataFrameNaFunctions空数据处理
    • DataFrameStatFunctions统计模块详解
    • DataFrameReader读取外部数据生成DF
    • DataFrameWriter当DF写入外部存储
    • types类型详解
    • functions函数模块详解
  • pyspark机器学习,挑战高薪

    • 本地密集、稀疏向量和LabeledPoint向量
    • 本地矩阵和四种分布式矩阵
    • Statistics基本的统计方法
    • 假设检验、随机数据的生成和核密度估计
    • Piplines构建机器学习工作流
    • TF-IDF词频逆文档数和Word2vec词向量表示
    • CountVectorizer和Tokenizer和正则特征
    • PCA主成分分析、多项式核函数扩展特征空间、数据正则化
    • 分桶器、向量组合器、SQL转换器及元素缩放器
    • 特征个数过滤器、缺失值处理器、类别编码器、向量类别判断器
    • 逻辑回归算法、原理、公式推导及二分类、多分类实践
    • 完全理解L1、L2正则化及其作用
    • 决策树算法原理,随机森林,梯度提升树代码实践
    • 多层感知机分类算法
    • SVM支持向量机分类算法
    • OneVsRest多分类算法
    • Naive Bayes朴素贝叶斯分类器
    • Linear Regression线性回归
    • GLMs广义线性模型
    • 回归树
    • K-Means聚类算法
    • 二分K均值分类
    • GMM高斯混合模型
    • 基于ALS交替最小二乘的协同过滤推荐算法电影推荐实践
    • FP-Growth频繁项集推荐算法
    • 超参数网格搜索
    • 大数据生态圈的十年
播放页问题反馈
视频学习中有任何产品建议都可由此反
馈,我们将及时处理!

课时介绍

Docker私有仓库的创建-Docker知识快速入门Python玩转大数据--105精讲视频

课程介绍

该课程采用时下后的编程语言Python讲解,囊括了当前火的大数据技术Spark/Hadoop/Hive知识,学习环境是基于Docker搭建的5个容器。通过这门课程不仅可以学到Spark/Hadoop/Hive大数据知识,还可以学到当下后的云计算技术Docker. 任务作业: 很多人都想入门机器学习和人工智能,挑战高薪!殊不知人工智能和机器学习的基础是数据及数学,特别是在大数据时代,90%以上的公司不单单是招聘算法工程师,到猎聘Boss直聘上查找算法岗位,查看其招聘条件往往都需要熟练使用大数据平台。这门课程涵盖Docker云计算容器技术,要求学员学完本门课程能够使用Docker容器部署4个容器的Spark集群并能用学到的Docker技术制作一个微服务镜像并对外提供服务;本课程全面讲解了Spark原理及接口,要求学员学完本课程能用网络爬虫爬取全国各地的房价数据,并用Spark编写mapreduce程序分析房价分布情况;本课程涉及分布式机器学习SparkML,要求学员学完本课程,能用SVR,LinearRegreesion,多层感知机算法,决策树回归算法等算法进行房价预测。 人人都想入门人工智能,殊不知人工智能的入门准则是基础的算法和数据处理的能力,学完本课程希望人人拿高薪! (注意: 作业需写在CSDN博客中,请把作业链接贴在评论区,老师会定期逐个批改~~)
推荐课程

信息系统项目管理师自考笔记

李明 · 712人在学

python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据

王先生 · 22076人在学

手把手搭建Java超市管理系统【附源码】(毕设)

汤小洋 · 4200人在学

Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教

黄菊华 · 787人在学

基于SSM酒店管理系统(毕设)

小尼老师 · 837人在学

java项目实战之购物商城(java毕业设计)

Long · 5151人在学

手把手搭建Java求职招聘系统【附源码】(毕设)

汤小洋 · 1506人在学

Python Django 深度学习 小程序

钟翔 · 2317人在学

城管局门前三包管理系统+微信小程序(vue+springboot)

赖国荣 · 597人在学

Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序

李杰 · 3979人在学

正在试验
后自动删除环境
课程实验
本次实验时间已到期 00:00:00

    订阅失败

    Python玩转大数据--105精讲视频
    Python玩转大数据--105精讲视频 ...

    订阅列表已满,请先移出部分订阅内容。

    当前章节需购买后观看
    开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!
    提交答案

    购买课程

    扫码完成付费,可继续学习全部课程内容

    加载中...
    课件正在飞速打包中,请耐心等待几秒钟~