邱凯-Logic-RL：通过基于规则的强化学习释放大模型推理能力_2025 4月全球机器学习技术大会-上海站-CSDN在线视频培训

课时介绍

微软亚洲研究院高级研究员，Logic-RL贡献者
我们探讨基于规则的强化学习（RL）在大规模推理模型中的潜力。受DeepSeek-R1成功的启发，我们通过合成逻辑谜题作为训练数据，分析推理动态。这些逻辑谜题因其可控的复杂性和简单的答案验证过程而成为理想的训练数据。本研究提出了几项关键技术贡献，包括强调思维和回答过程的系统提示、惩罚捷径输出的严格格式奖励函数，以及实现稳定收敛的简单训练方案。我们的7B模型在训练仅5,000个逻辑问题后，展示了在挑战性数学基准测试AIME和AMC上的泛化能力。

课程介绍

自1936年阿兰· 图灵提出「图灵机」以及机器具备「思维」的可能性以来，以机器学习为代表的人工智能经过飞速发展，深刻地改变着我们的世界。CSDN & Boolan 秉承“全球专家，卓越智慧”的宗旨，特邀近50位技术领袖和行业应用专家，与1000+来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众，共同探讨人工智能领域的前沿发展和行业最佳实践。