大模型Agent(Deepseek)理论与工业落地实战-本课程长期更新

大模型Agent(Deepseek)理论与工业落地实战-本课程长期更新
共71节 876人在学 课程详情
  • 理论基础--语言模型、神经网络和word2vec基础

    • 1-语言模型
    • 2-Sigmoid函数和Logistic回归
    • 3-信息熵和损失函数
    • 课程相关代码获取方式
    • 1-神经网络理论篇
    • 2-神经网络实战篇
    • 1-word2vec理论基础:CBOW模型
    • 2.1-基于numpy开发word2vec应用实战Part1
    • 2.2-基于numpy开发word2vec应用实战Part2
  • 理论实战--NLP算法-RNN和LSTM

    • 1-RNN理论基础
    • 2.1-RNN应用实战P1-数据集、基础Cell类代码、公式推导和介绍
    • 2.2-RNN应用实战P2-前向传播代码+数学推导逐行解析
    • 2.3-RNN应用实战P3-反向传播代码+数学推导梯度更新详解
    • 2.4-RNN应用实战P4-模型训练、推理验证和日志监控代码实战
    • 1-Numpy实战LSTM算法P1-门控理论公式推导和前向传播算法实战
    • 2-Numpy实战LSTM算法P2-反向传播梯度公式推导和代码实战
  • 应用实战--大模型LLM-Transformer和BERT

    • 1-Transformer实战1-数据集、开发环境和基础Embedding介绍
    • 2-Transformer实战2-加载数据、构造tokenizer和vocab字典
    • 3-Transformer实战3-数据矢量化和构造Embedding
    • 4-Transformer实战4-构造训练、验证和测试数据的迭代器类
    • 5-Transformer实战5-模型初始化架构--Embedding、Encoder和FFN层
    • 6-Transformer实战6-多头注意力机制、Self-Attention和FFN层详解
    • 7-Transformer实战7-模型训练优化器、学习率、反向传播详解
    • 8-Transformer实战8-Transformer各层forward函数及其数据详解
    • 9-Transformer实战9-模型验证收尾Loss收敛、评价指标和日志打印
    • 1-浅谈:BERT理论基础和论文精讲
    • 2-致敬:BERT的思考总结和收获展望
  • 前沿实战--ChatGLM2-6B实战和工业落地

    • 1-ChatGLM理论原理概述
    • 2-ChatGLM2-6B开发环境部署
    • 3.1-ChatGLM2-ptuning微调P1-数据、参数、Prompt微调介绍和demo演示
    • 3.2-ChatGLM2-ptuning微调Part2-ptuning的原理详解
    • 3.3-ChatGLM2-ptuning微调P3-参数详解和模型训练
    • 3.4-ChatGLM2-ptuning微调P4-模型验证和推理
    • 3.5-ChatGLM2-ptuning微调P5-模型基于save model形式的flask部署
    • 3.5-ChatGLM2-ptuning微调P5-模型部署Triton服务
    • 4-ChatGLM2-6B的Triton部署-准备工作和环境搭建
    • 5-ChatGLM2-6B的Triton部署-服务架构和运行流程
    • 6-ChatGLM2-6B的Triton部署-服务请求和日志打印
  • 理论基础-LLM数学理论方法和公式推导

    • LLM-高阶Attention1-自注意力、多头注意力和位置编码
    • LLM-高阶Attention2-稀疏Sparse注意力机制
    • LLM-高阶Attention3-线性Attention数学表达
    • LLM-高阶Attention4-线性Attention随机投影
    • LLM-位置编码1-Attention各类位置编码的数学表达
    • LLM-位置编码2-ROPE的复数基础
    • LLM-位置编码3-ROPE的公式推导
    • LLM-位置编码4-ROPE的高维表示
    • LLM-位置编码5-Transformer的长度外推性和熵不变性
  • 前沿实战--TensorRT-Qwen实战和模型加速推理部署

    • TensorRT部署Qwen-1.开发环境和docker准备
    • TensorRT部署Qwen-2.模型训练和验证
    • TensorRT部署Qwen-3.参数融合和lora讲解
    • TensorRT部署Qwen-4.构造引擎和加速推理部署
    • 将LLM-Qwen部署到Macbook或移动设备
  • 前沿实战--前沿专家模型Mixtral-MOE专题

    • Mixtral-MOE代码逐行调试1-专家模型介绍+调试思路
    • Mixtral-MOE代码逐行调试2-门控机制+张量流动+路径变换
    • Mixtral-MOE代码逐行调试3-专家赋值+专家能力+专家处理
    • Mixtral-MOE代码逐行调试4-专家自注意力机制+专家loss
    • Mixtral-MOE工业落地1-AutoDL平台使用和专家模型训练
    • Mixtral-MOE工业落地2-LORA参数融合和API部署调用
    • Mixtral-MOE工业落地3-微调后llama-cpp编译和量化
    • Mixtral-MOE工业落地4-基于llama-cpp的API部署
    • Mxitral-MOE理论-论文解读与公式推导
  • 理论实战-Deepseek系列算法和代码详解

    • 理论-Deepseek-V3技术报告解读
    • MLA1-KV-Cache和模型推理访存占用
    • MLA2-MHA,MQA,GQA简介和显存占用机制
    • MLA3-代码逐行解析1-MHA和MLA的本质区别
    • MLA4-代码逐行解析2-低秩核心代码逐行解析
    • MLA5-代码逐行解析3-公式代码推演如何巧妙节省显存
    • MTP1-Multi-Token-Predict算法的起源和思想
    • MTP2-Deepseek-MTP的原理讲解
    • MTP3-Deepseek-MTP的代码讲解

    订阅失败

    大模型Agent(Deepseek)理论与工业落地实战-本课程长期更新
    大模型Agent(Deepseek)理论与工业落地实战-本课程长期更新 ...

    订阅列表已满,请先移出部分订阅内容。

    当前章节需购买后观看
    开通超级会员免费看!专家精选系列课程,满足你从入门到精通!更有问答月卡免费送,你的问题有问必答!
    提交答案

    购买课程

    扫码完成付费,可继续学习全部课程内容

    加载中...
    播放页问题反馈
    视频学习中有任何产品建议都可由此反
    馈,我们将及时处理!

    课时介绍

    MLA2-MHA,MQA,GQA简介和显存占用机制MLA2-MHA,MQA,GQA简介和显存占用机制MLA2-MHA,MQA,GQA简介和显存占用机制

    课程介绍

    本课程根据目前主流大模型、Deepseek以及Agent算法前沿和工业落地的需要,由浅入深讲解理论基础和代码实战。

    理论使用手写稿,代码层层递进,视频内包含字幕,通俗易懂。
    课程前置知识:了解python、有微积分基础
    学习课程后的效果:
    1.掌握大模型、Deepseek以及Agent的理论算法基础
    2.掌握大模型、Deepseek以及Agent的代码应用实践
    3.掌握大模型、Deepseek以及Agent工作面试的核心内容,本课程对学员提供部分指导机会

    推荐课程

    信息系统项目管理师自考笔记

    李明 · 866人在学

    python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据

    王先生 · 22647人在学

    手把手搭建Java超市管理系统【附源码】(毕设)

    汤小洋 · 4282人在学

    Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教

    黄菊华 · 824人在学

    基于SSM酒店管理系统(毕设)

    小尼老师 · 890人在学

    java项目实战之购物商城(java毕业设计)

    Long · 5195人在学

    手把手搭建Java求职招聘系统【附源码】(毕设)

    汤小洋 · 1525人在学

    Python Django 深度学习 小程序

    钟翔 · 2390人在学

    城管局门前三包管理系统+微信小程序(vue+springboot)

    赖国荣 · 666人在学

    Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序

    李杰 · 4067人在学

    正在试验
    后自动删除环境
    课程实验
    本次实验时间已到期 00:00:00
    课件正在飞速打包中,请耐心等待几秒钟~