2025 10月全球机器学习技术大会-北京站
课时介绍
自DeepSeek-R1发布以来,可验证奖励强化学习(RLVR)已成为推动大模型发展的核心引擎,它利用数学答案正确性等客观可验证信号优化模型推理性能,推动AI从“主观对齐”迈向“客观正确”。然而,RLVR研究的爆炸式增长也带来了技术选型的困惑,众多改进方案使研发人员难以权衡利弊。本次分享将首先梳理近期学界与业界的实践经验,比如On-Policy与Off-Policy策略的选型以及各类RL方法的关联与适用场景等;其次分析当前RLVR研发中存在的冗余研究、训练稳定性不足等存在的问题;最后展望其未来发展方向,如将RL拓展至智能体行动优化、Rubric Reward设计等前沿领域,为开发者提供清晰的技
课程介绍
自1936年阿兰· 图灵提出「图灵机」以及机器具备「思维」的可能性以来,以机器学习为代表的人工智能经过飞速发展,深刻地改变着我们的世界。CSDN & 奇点智能研究院秉承“全球专家,卓越智慧”的宗旨,特邀50多位技术领袖和行业应用专家,与1000+来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。
推荐课程
信息系统项目管理师自考笔记
李明 · 972人在学
python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据
王先生 · 23016人在学
手把手搭建Java超市管理系统【附源码】(毕设)
汤小洋 · 4318人在学
Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教
黄菊华 · 847人在学
基于SSM酒店管理系统(毕设)
小尼老师 · 909人在学
java项目实战之购物商城(java毕业设计)
Long · 5217人在学
手把手搭建Java求职招聘系统【附源码】(毕设)
汤小洋 · 1541人在学
Python Django 深度学习 小程序
钟翔 · 2436人在学
城管局门前三包管理系统+微信小程序(vue+springboot)
赖国荣 · 711人在学
Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序
李杰 · 4103人在学
