崔淦渠-PRIME: 结合隐式过程奖励的大模型强化学习_2025 4月全球机器学习技术大会-上海站-CSDN在线视频培训

课时介绍

上海人工智能实验室青年科学家
OpenAI o1 以及DeepSeek-R1 模型的发布证明了强化学习是通向高阶推理能力的必经之路，但开源社区对此还少有探索。我们提出了基于可扩展过程奖励的在线强化学习方法PRIME，通过implicit process reward成功解决了PRM在大模型强化学习中怎么用，怎么训，怎么扩展的三大本质问题，易用性和可扩展性极佳。我们从Qwen2.5-Math-7B-Base出发训练了Eurus-2，仅用 1/10于Qwen的开源数据，数学能力超过Llama3.1-70B, GPT-4o等大模型。其中，PRIME为模型带来了16.7%的绝对提升。

课程介绍

自1936年阿兰· 图灵提出「图灵机」以及机器具备「思维」的可能性以来，以机器学习为代表的人工智能经过飞速发展，深刻地改变着我们的世界。CSDN & Boolan 秉承“全球专家，卓越智慧”的宗旨，特邀近50位技术领袖和行业应用专家，与1000+来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众，共同探讨人工智能领域的前沿发展和行业最佳实践。