你将收获

深入理解DeepSeek R1大模型

了解大模型蒸馏技术的基本原理与应用场景

拓展人工智能领域的知识视野

掌握其核心强化学习算法GRPO的原理与应用

适用人群

本课程适合对人工智能、机器学习、大模型等领域感兴趣的学生、研究人员以及从业者参加。通过系统学习本课程,你将能够紧跟人工智能领域的前沿技术动态,为未来的职业发展奠定坚实的基础。

课程介绍

课程介绍:【AI大模型与强化学习】——探索DeepSeek R1训练全流程与GRPO算法奥秘

课程概述

本课程【AI大模型与强化学习】是一门深入探索人工智能领域前沿技术的专业课程。我们将详细剖析DeepSeek R1大模型的训练全流程,深入解读其核心强化学习算法GRPO的原理,同时揭示强化学习如何赋能大模型,提升其在复杂任务中的表现。此外,课程还将涵盖大模型蒸馏技术,以及这些技术在人工智能领域的应用与实践。

课程内容

  1. DeepSeek R1训练全流程详解

    • 冷启动阶段:介绍如何收集数千条长思维链(CoT)数据,对DeepSeek-V3-Base进行微调,以改善模型输出的可读性,为后续强化学习做准备。
    • 强化学习阶段:详细讲解DeepSeek-R1如何通过强化学习算法(如GRPO)增强推理能力,以及奖励规则在训练过程中的作用。
    • 监督微调与数据收集:阐述第二阶段监督微调数据的收集过程,以及这一环节对最终模型性能的关键影响。
    • 多阶段训练流程:从监督微调(SFT)到强化学习(RL),再到第二轮监督微调和强化学习,全面解析DeepSeek-R1的完整训练流程。
  2. GRPO算法原理详解

    • 背景与动机:分析传统PPO算法在大规模语言模型微调中面临的挑战,以及GRPO算法的提出背景。
    • 核心思想:深入解读GRPO算法如何通过组内相对奖励优化策略模型,减少对价值网络的依赖。
    • 算法步骤:详细阐述GRPO算法的采样动作组、奖励评估、计算相对优势、策略更新等关键步骤。
    • 优势与比较:将GRPO算法与传统PPO算法在计算效率、稳定性、广泛适用性等方面进行对比,突出GRPO算法的优势。
  3. 强化学习赋能大模型本质

    • 强化学习基础:介绍强化学习的基本概念、核心要素(智能体、环境、奖励函数)以及原理(基于马尔科夫决策过程)。
    • 强化学习在大模型中的应用:分析强化学习如何帮助大模型在生成结果的过程中不断试错、学习,并自主优化其生成策略。
    • 案例研究:通过数学推理问题、编码问题等具体案例,展示强化学习在优化大模型生成结果方面的显著优势。
  4. 大模型蒸馏技术

    • 蒸馏技术基础:介绍蒸馏技术的基本原理、方法(如基础知识蒸馏、FitNet、FSP等)以及应用场景。
    • 蒸馏技术在大模型中的应用:详细讲解如何将蒸馏技术应用于大模型,实现模型压缩和知识迁移,同时保留模型性能。
    • 挑战与未来趋势:分析蒸馏技术面临的挑战,以及自适应蒸馏、联邦蒸馏等未来发展趋势。
  5. 人工智能课程概览

    • 核心课程:介绍人工智能专业的核心课程,如机器学习、自然语言处理、计算机视觉等。
    • 专业技能:阐述人工智能领域所需的专业技能,包括算法设计、模型训练、数据分析等。
    • 学习资源:推荐相关学习资源,如在线课程、学术论文、开源项目等,帮助学生深入学习人工智能领域的知识。

课程目标

通过本课程的学习,学生将能够:

  • 深入理解DeepSeek R1大模型的训练全流程,掌握其核心强化学习算法GRPO的原理与应用。
  • 掌握强化学习赋能大模型的本质,学会利用强化学习算法优化大模型的生成策略。
  • 了解大模型蒸馏技术的基本原理与应用场景,学会将蒸馏技术应用于大模型压缩和知识迁移。
  • 拓展人工智能领域的知识视野,提升算法设计、模型训练、数据分析等专业技能。

课程目录