邹昊晟-开源推理模型的课程学习与GRPO数据心得和训练策略_2025 4月全球机器学习技术大会-上海站-CSDN在线视频培训

课时介绍

360智脑算法资深专家
介绍Light-R1背后的课程学习SFT、DPO和GRPO等方法上的数据心得和训练策略，以及和业界主流推理模型、zero-RL等相关工作在训练资源、方法等各方面的比较。虽然Light-R1仅使用数学数据训练了模型的长推理能力，但在非数学任务上也表现出了泛化性及有效性。随着训练和推理技术的不断发展，未来长推理模型将更加普及，Light-R1正为低成本快速训练一个领域专精推理模型提供了重要参考。

课程介绍

自1936年阿兰· 图灵提出「图灵机」以及机器具备「思维」的可能性以来，以机器学习为代表的人工智能经过飞速发展，深刻地改变着我们的世界。CSDN & Boolan 秉承“全球专家，卓越智慧”的宗旨，特邀近50位技术领袖和行业应用专家，与1000+来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众，共同探讨人工智能领域的前沿发展和行业最佳实践。