类ChatGPT微调实战
课时介绍
知识点1: ChatLLaMA三套数据集:分别训练actor、reward、rlhf
知识点2: ChatLLaMA训练流程:SFT、RM、RL/PPO训练三步骤
知识点3: ColossalChat技术架构:通过self-instruct生成的中英双语数据集 + 三阶段训练方式
知识点4: ColossalChat的代码实现:SFT模型 + 奖励模型 + PPO training
知识点5: 微软DeepSpeed Chat的讲解与实现:结合RLHF一键式训练自己的ChatGPT
知识点6: 如何结合PPO算法从零起步实现RLHF
课程介绍
推荐课程
信息系统项目管理师自考笔记
李明 · 514人在学
python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据
王先生 · 20615人在学
手把手搭建Java超市管理系统【附源码】(毕设)
汤小洋 · 4052人在学
Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教
黄菊华 · 732人在学
基于SSM酒店管理系统(毕设)
小尼老师 · 786人在学
java项目实战之购物商城(java毕业设计)
Long · 5074人在学
手把手搭建Java求职招聘系统【附源码】(毕设)
汤小洋 · 1460人在学
Python Django 深度学习 小程序
钟翔 · 2235人在学
城管局门前三包管理系统+微信小程序(vue+springboot)
赖国荣 · 497人在学
Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序
李杰 · 3844人在学