PySpark机器学习从入门到精通

PySpark机器学习从入门到精通
共118节 254人在学 课程详情
  • RDD操作

    • 创建RDD-1
    • 创建RDD-2
    • 其他通用的RDD操作
    • 实验:使用Spark处理数据文件
  • 使用Pair RDDs聚合数据

    • 实战:Pair RDD操作
    • 示例:按key连接-1
    • 示例:按key连接-2
    • 实战:使用Pair RDDs连接两个数据集
    • Key-Value Pair RDDs-1
    • Key-Value Pair RDDs-2
    • Key-Value Pair RDDs总结
    • Map-Reduce
    • Map-Reduce的代码实现及其他Pair RDD操作
  • 编写和部署Spark应用

    • 创建SparkContext
    • 运行Spark应用-1
    • 运行Spark应用-2
    • 实战
  • Spark SQL和DataFrames

    • Spark SQL和SQL Context
    • 创建DataFrames-1
    • 创建DataFrames-2
    • 实战
    • DataFrames查询字符串
    • 列表达式
    • SQL查询与集合查询
    • 联接DataFrames
    • 示例
    • 保存DataFrames
    • DataFrames和RDDs-1
    • DataFrames和RDDs-2
    • 实战:使用Spark SQL处理ETL-1
    • 实战:使用Spark SQL处理ETL-2
  • Spark Streaming基础

    • 什么是Spark Streaming?
    • Spark Streaming的特性
    • 示例:Spark Streaming请求统计
    • DStreams数据源
    • DStreams操作
    • Python示例:找到核心客户
    • 开发Spark Streaming应用
    • 实战
  • 机器学习技术介绍

    • 什么是机器学习-1
    • 什么是机器学习-2
    • 机器学习的泛化能力和过拟合问题
    • 机器学习应用场景
    • 数据来源与类型
    • 常用数据集数据的结构组成
    • 特征工程
  • PySpark MLlib

    • 基于大数据的机器学习
    • Spark机器学习MLlib
    • 机器学习工作流概念-1
    • 机器学习工作流概念-2
    • 构建一个机器学习工作流-1
    • 构建一个机器学习工作流-2
    • 实战
  • 特征抽取、转化和选择

    • 特征抽取:TF-IDF-1
    • 特征抽取:TF-IDF-2
    • 特征抽取:CountVectorizer
    • 特征变换:标签和索引的转化-1
    • 特征变换:标签和索引的转化-2
    • 特征选取:卡方选择器
    • 实战
  • 回归算法

    • 线性回归
    • 一元和多元线性回归
    • 逻辑回归-1
    • 逻辑回归-2
    • 用二项逻辑斯蒂回归来解决二分类问题
    • 实战
  • 决策树与集成算法

    • 决策树概述
    • 决策树的构建
    • 决策树构造实例
    • 决策树剪枝策略
    • 决策树分类器
    • 集成算法
    • 集成算法的模型-1
    • 集成算法的模型-2
  • 贝叶斯算法

    • 贝叶斯介绍
    • 贝叶斯算法原理
    • 贝叶斯算法应用
    • 模型比较理论
    • 垃圾邮件过滤实例
  • 文本分析

    • 关键词提取
    • 相似度
    • 实战
  • 神经网络

    • 神经网络介绍
    • 神经元模型
    • 多层前馈神经网络
    • 多层前馈神经网络特点和设计
    • Backpropagation算法
    • Backpropagation算法举例
    • 实战
  • 聚类算法

    • 聚类算法
    • 示例:k-means聚类-1
    • 示例:k-means聚类-2
    • K-Means聚类评估
    • 实战
  • 认识推荐系统

    • 什么是推荐系统及原理
    • 推荐系统应用
    • 推荐系统评测-1
    • 推荐系统评测-2
  • 推荐算法模型

    • 推荐模型构建流程
    • 推荐算法概述
    • 基于协同过滤的推荐算法
    • Item-based
    • 相似度计算
    • K-Nearest Neighbor最近邻法
    • 物品相似度计算
    • 协同过滤-1
    • 协同过滤-2
    • 基于模型的方法
    • 基于图的模型
    • 基于矩阵分解的方法
    • ALS方法
    • 评估指标
    • ALS算法
    • 实战
  • 参数调优

    • 超参数调优的原理-1
    • 超参数调优的原理-2
    • 使用交叉验证进行模型选择
    • 实战

    订阅失败

    PySpark机器学习从入门到精通
    PySpark机器学习从入门到精通 ...

    订阅列表已满,请先移出部分订阅内容。

    当前章节需购买后观看
    开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!
    提交答案

    购买课程

    扫码完成付费,可继续学习全部课程内容

    加载中...
    播放页问题反馈
    视频学习中有任何产品建议都可由此反
    馈,我们将及时处理!

    课时介绍

    物品相似度计算

    课程介绍

    ☆☆☆☆☆课程亮点:

    • 实战案例-网络故障分析之数据探索

    • 实战案例-网络故障分析之算法建模

    • 实战案例-垃圾短信分类

    • 实战案例-电影推荐系统实战

    课程主要就RDD操作、使用Pair RDDs聚合数据、编写和部署Spark应用、Spark SQL和DataFrames、Spark Streaming基础、机器学习技术介绍、PySpark MLlib、特征抽取、转化和选择、算法、文本分析、神经网络、推荐系统等,配套实战案例与项目全部基于真实数据集与实际任务展开,结合企业级框架进行建模实战。由浅入深,每一个理论搭配一个实验,且侧重技能不同,学员的知识体系会更加全面。

    推荐课程
    正在试验
    后自动删除环境
    课程实验
    本次实验时间已到期 00:00:00
    程序员研修院 v1.1.0
    一、播放器优化
    修改播放器默认倍速设置,增加1.25倍速
    调整目录展示形式,增加折叠/展开
    优化播放器的使用体验,有播放问题可以点击播放页内的”反馈“提交问题
    查看全部版本记录
    课件正在飞速打包中,请耐心等待几秒钟~