通过中文句子"我喜欢吃苹果"及其英文翻译"I like to eat apples"为实例,系统理解Transformer中的四种核心注意力机制:自注意力机制、多头自注意力机制、掩码自注意力机制和交叉注意力机制。所有讲解均配有可运行的PyTorch代码。
自注意力机制
多头自注意力机制
掩码自注意力机制
你将收获
通过中文句子"我喜欢吃苹果"及其英文翻译"I like to eat apples"为实例,系统理解Transformer中的四种核心注意力机制:自注意力机制、多头自注意力机制、掩码自注意力机制和交叉注意力机制。所有讲解均配有可运行的PyTorch代码。
自注意力机制
多头自注意力机制
掩码自注意力机制
适用人群
课程介绍
一、课程概述
本课程通过中文句子"我喜欢吃苹果"及其英文翻译"I like to eat apples"为实例,系统讲解Transformer中的四种核心注意力机制:自注意力机制、多头自注意力机制、掩码自注意力机制和交叉注意力机制。所有讲解均配有可运行的PyTorch代码。
二、课程目录(总共9节课)
1.Transformer从理论到实践之自注意力机制概念与相似度应用场景
主要讲解自注意力机制概念、向量相似度的计算与应用场景。
2.Transformer从理论到实践之自注意力的计算与QKV三种角色
主要讲解讲解自注意力机制的计算细节和Q、K、V三种角色的作用以及案例。
3.Transformer从理论到实践之注意力权重应用场景
主要讲解注意力权重在机器翻译、文本摘要的应用场景,大模型的统计规律性以及大模型的理论基础之一:大数定律,交叉熵损失函数的本质。
4.Transformer从理论到实践之多头自注意力工作原理
主要讲解多头自注意力机制的工作原理、计算细节以及代码实现。
5.Transformer从理论到实践之编码器逐层处理过程
主要讲解残差连接、归一化和前馈神经网络的计算细节以及编码器代码实现。
6.Transformer从理论到实践之掩码矩阵数学原理与KV缓存
主要讲解掩码矩阵数学原理和推理阶段掩码矩阵动态变化过程以及KV缓存的代码实现。
7.Transformer从理论到实践之交叉注意力应用场景
主要讲解训练阶段的Teacher Forcing机制和机器翻译中掩码矩阵动态变化过程,代码实现以及交叉注意力在机器翻译、多模态视觉问答中的应用场景。
8.Transformer从理论到实践之Linear层与Softmax
主要讲解机器翻译中KV缓存执行细节,为什么不缓存Q ? Linear层权重矩阵和Softmax计算,Linear层代码实现。
9.Transformer从理论到实践之对比RNN与CNN
主要讲解Transformer vs RNN与CNN 以及 Vision Transformer vs CNN
课程目录

