温颖-基于强化反馈的大模型自我提升与推理增强_2025 4月全球机器学习技术大会-上海站-CSDN在线视频培训

课时介绍

温颖
上海交通大学AI学院长聘教轨副教授
大型语言模型（LLM）的能力提升依赖于持续获取高质量的数据和反馈信号。虽然预训练阶段已利用大量优质数据，但持续增长的关键在于不断引入新的高质量数据。由于人工数据生产成本高且难以满足需求，探索大模型自我迭代生成和筛选数据的方法变得至关重要。本讲座将探讨大模型的数据再生产过程，包括生成、评估和训练三个步骤，核心挑战在于设计高效的算法和反馈利用机制，以实现数据的有效筛选和评估，通过应用不同级别的反馈信号进行强化学习，确保只有最有价值的数据用于模型的迭代训练，并增强推理（Inference）阶段的复杂推理（Reasoning）和决策任务的性能。

课程介绍

自1936年阿兰· 图灵提出「图灵机」以及机器具备「思维」的可能性以来，以机器学习为代表的人工智能经过飞速发展，深刻地改变着我们的世界。CSDN & Boolan 秉承“全球专家，卓越智慧”的宗旨，特邀近50位技术领袖和行业应用专家，与1000+来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众，共同探讨人工智能领域的前沿发展和行业最佳实践。