【AI大模型与强化学习】大模型DeepSeek R1训练全流程流程详解

【AI大模型与强化学习】大模型DeepSeek R1训练全流程流程详解
共15节 622人在学 课程详情
  • 1-1国产AI大模型 DeepSeek V3 核心技术详解!DeepSeek训练方法便宜在哪(1)
  • 1-2国产AI大模型 DeepSeek V3 核心技术详解!DeepSeek训练方法便宜在哪(2)
  • 1-3国产AI大模型 DeepSeek V3 核心技术详解!DeepSeek训练方法便宜在哪(3)
  • 1-4国产AI大模型 DeepSeek V3 核心技术详解!DeepSeek训练方法便宜在哪(4)
  • 2-1流水线并行训练;MTP多Token预测;蒸馏学习详解;AI大模型微调教程(1)
  • 2-2流水线并行训练;MTP多Token预测;蒸馏学习详解;AI大模型微调教程(2)
  • 2-3流水线并行训练;MTP多Token预测;蒸馏学习详解;AI大模型微调教程(3)
  • 3-1大模型架构 大模型训练模式 大模型微调 集群化推理部署 GPU发展趋势(1)
  • 3-2大模型架构 大模型训练模式 大模型微调 集群化推理部署 GPU发展趋势(2)
  • 3-3大模型架构 大模型训练模式 大模型微调 集群化推理部署 GPU发展趋势(3)
  • 3-4大模型架构 大模型训练模式 大模型微调 集群化推理部署 GPU发展趋势(4)
  • 4-1大模型DeepSeek R1训练全流程流程详解!GRPO算法原理详解(1)
  • 4-2大模型DeepSeek R1训练全流程流程详解!GRPO算法原理详解(2)
  • 4-3大模型DeepSeek R1训练全流程流程详解!GRPO算法原理详解(3)
  • 4-4大模型DeepSeek R1训练全流程流程详解!GRPO算法原理详解(4)

    订阅失败

    【AI大模型与强化学习】大模型DeepSeek R1训练全流程流程详解
    【AI大模型与强化学习】大模型DeepSeek R1训练全流程流程详解 ...

    订阅列表已满,请先移出部分订阅内容。

    当前章节需购买后观看
    开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!
    提交答案

    购买课程

    扫码完成付费,可继续学习全部课程内容

    加载中...
    播放页问题反馈
    视频学习中有任何产品建议都可由此反
    馈,我们将及时处理!

    课时介绍

    大模型DeepSeek R1训练全流程流程详解!GRPO算法原理详解

    课程介绍

    课程介绍:【AI大模型与强化学习】——探索DeepSeek R1训练全流程与GRPO算法奥秘

    课程概述

    本课程【AI大模型与强化学习】是一门深入探索人工智能领域前沿技术的专业课程。我们将详细剖析DeepSeek R1大模型的训练全流程,深入解读其核心强化学习算法GRPO的原理,同时揭示强化学习如何赋能大模型,提升其在复杂任务中的表现。此外,课程还将涵盖大模型蒸馏技术,以及这些技术在人工智能领域的应用与实践。

    课程内容

    1. DeepSeek R1训练全流程详解

      • 冷启动阶段:介绍如何收集数千条长思维链(CoT)数据,对DeepSeek-V3-Base进行微调,以改善模型输出的可读性,为后续强化学习做准备。
      • 强化学习阶段:详细讲解DeepSeek-R1如何通过强化学习算法(如GRPO)增强推理能力,以及奖励规则在训练过程中的作用。
      • 监督微调与数据收集:阐述第二阶段监督微调数据的收集过程,以及这一环节对最终模型性能的关键影响。
      • 多阶段训练流程:从监督微调(SFT)到强化学习(RL),再到第二轮监督微调和强化学习,全面解析DeepSeek-R1的完整训练流程。
    2. GRPO算法原理详解

      • 背景与动机:分析传统PPO算法在大规模语言模型微调中面临的挑战,以及GRPO算法的提出背景。
      • 核心思想:深入解读GRPO算法如何通过组内相对奖励优化策略模型,减少对价值网络的依赖。
      • 算法步骤:详细阐述GRPO算法的采样动作组、奖励评估、计算相对优势、策略更新等关键步骤。
      • 优势与比较:将GRPO算法与传统PPO算法在计算效率、稳定性、广泛适用性等方面进行对比,突出GRPO算法的优势。
    3. 强化学习赋能大模型本质

      • 强化学习基础:介绍强化学习的基本概念、核心要素(智能体、环境、奖励函数)以及原理(基于马尔科夫决策过程)。
      • 强化学习在大模型中的应用:分析强化学习如何帮助大模型在生成结果的过程中不断试错、学习,并自主优化其生成策略。
      • 案例研究:通过数学推理问题、编码问题等具体案例,展示强化学习在优化大模型生成结果方面的显著优势。
    4. 大模型蒸馏技术

      • 蒸馏技术基础:介绍蒸馏技术的基本原理、方法(如基础知识蒸馏、FitNet、FSP等)以及应用场景。
      • 蒸馏技术在大模型中的应用:详细讲解如何将蒸馏技术应用于大模型,实现模型压缩和知识迁移,同时保留模型性能。
      • 挑战与未来趋势:分析蒸馏技术面临的挑战,以及自适应蒸馏、联邦蒸馏等未来发展趋势。
    5. 人工智能课程概览

      • 核心课程:介绍人工智能专业的核心课程,如机器学习、自然语言处理、计算机视觉等。
      • 专业技能:阐述人工智能领域所需的专业技能,包括算法设计、模型训练、数据分析等。
      • 学习资源:推荐相关学习资源,如在线课程、学术论文、开源项目等,帮助学生深入学习人工智能领域的知识。

    课程目标

    通过本课程的学习,学生将能够:

    • 深入理解DeepSeek R1大模型的训练全流程,掌握其核心强化学习算法GRPO的原理与应用。
    • 掌握强化学习赋能大模型的本质,学会利用强化学习算法优化大模型的生成策略。
    • 了解大模型蒸馏技术的基本原理与应用场景,学会将蒸馏技术应用于大模型压缩和知识迁移。
    • 拓展人工智能领域的知识视野,提升算法设计、模型训练、数据分析等专业技能。
    推荐课程

    信息系统项目管理师自考笔记

    李明 · 844人在学

    python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据

    王先生 · 22538人在学

    手把手搭建Java超市管理系统【附源码】(毕设)

    汤小洋 · 4273人在学

    Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教

    黄菊华 · 819人在学

    基于SSM酒店管理系统(毕设)

    小尼老师 · 879人在学

    java项目实战之购物商城(java毕业设计)

    Long · 5191人在学

    手把手搭建Java求职招聘系统【附源码】(毕设)

    汤小洋 · 1522人在学

    Python Django 深度学习 小程序

    钟翔 · 2382人在学

    城管局门前三包管理系统+微信小程序(vue+springboot)

    赖国荣 · 650人在学

    Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序

    李杰 · 4058人在学

    正在试验
    后自动删除环境
    课程实验
    本次实验时间已到期 00:00:00
    课件正在飞速打包中,请耐心等待几秒钟~