你将收获

深入理解模型量化的原理与动机,掌握浮点数与整数的底层表示方式(如 IEEE-754 与二进制补码)

熟练区分并应用 对称 / 非对称量化、静态 / 动态量化、Per-Tensor / Per-Channel 粒度

理解 Post-Training Quantization (PTQ) 和 Quantization-Aware Training (QAT) 的完整流程与关键技巧

能够使用AutoRound、VLLm等主流工具,独立完成 LLM(如 Qwen3)模型的 4-bit/2-bit 量化压缩与部署

适用人群

想要掌握模型压缩与推理加速的算法工程师 需要将 LLM 模型部署到服务器或边缘端的工程人员 对LLM量化、AutoRound工具感兴趣的开发者

课程介绍

课程亮点:不止是讲原理,更让你「用得上」

教学设计:从底层到实战,逐步构建认知

 

本课程打破常规“堆知识点”的讲解方式,采用**“底层原理 → 架构理解 → 量化策略 → 工程实战”** 四阶段教学路径:

从整数与浮点的本质出发,理解量化的“为什么”

层层拆解对称/非对称、PTQ/QAT 等关键概念

引入 Qwen3 大模型实战案例,4bit 与 2bit 真实对比,让量化效果不止于 PPT

提供完整实操代码、可复用的部署方案与模型评估框架

 

 内容特色:实战与思维并重,避免“纸上谈兵”

与多数课程只停留在“量化讲讲原理、说几个名词”不同,本课:

全流程实操 PTQ 与 QAT,从 observer 设计到 fake quant 插入,全面覆盖部署前后差异

上手实战 Qwen3 大模型压缩案例

 

讲师背景:有工程实战,也有理论系统性

本课程由有大模型训练与量化部署经验的算法工程师设计,曾参与企业内部 LLM 推理优化项目,主导低比特部署方案评估,所讲内容均来自真实开发经验中的“踩坑与破局”

课程目录