Transformer 核心注意力机制详解:从理论到实践
课时介绍
课程介绍
一、课程概述
本课程通过中文句子"我喜欢吃苹果"及其英文翻译"I like to eat apples"为实例,系统讲解Transformer中的四种核心注意力机制:自注意力机制、多头自注意力机制、掩码自注意力机制和交叉注意力机制。所有讲解均配有可运行的PyTorch代码。
二、课程目录(总共9节课)
1.Transformer从理论到实践之自注意力机制概念与相似度应用场景
主要讲解自注意力机制概念、向量相似度的计算与应用场景。
2.Transformer从理论到实践之自注意力的计算与QKV三种角色
主要讲解讲解自注意力机制的计算细节和Q、K、V三种角色的作用以及案例。
3.Transformer从理论到实践之注意力权重应用场景
主要讲解注意力权重在机器翻译、文本摘要的应用场景,大模型的统计规律性以及大模型的理论基础之一:大数定律,交叉熵损失函数的本质。
4.Transformer从理论到实践之多头自注意力工作原理
主要讲解多头自注意力机制的工作原理、计算细节以及代码实现。
5.Transformer从理论到实践之编码器逐层处理过程
主要讲解残差连接、归一化和前馈神经网络的计算细节以及编码器代码实现。
6.Transformer从理论到实践之掩码矩阵数学原理与KV缓存
主要讲解掩码矩阵数学原理和推理阶段掩码矩阵动态变化过程以及KV缓存的代码实现。
7.Transformer从理论到实践之交叉注意力应用场景
主要讲解训练阶段的Teacher Forcing机制和机器翻译中掩码矩阵动态变化过程,代码实现以及交叉注意力在机器翻译、多模态视觉问答中的应用场景。
8.Transformer从理论到实践之Linear层与Softmax
主要讲解机器翻译中KV缓存执行细节,为什么不缓存Q ? Linear层权重矩阵和Softmax计算,Linear层代码实现。
9.Transformer从理论到实践之对比RNN与CNN
主要讲解Transformer vs RNN与CNN 以及 Vision Transformer vs CNN
信息系统项目管理师自考笔记
李明 · 972人在学
python从0到1:期货量化交易系统(CTP实战,高频及合成K线数据
王先生 · 23016人在学
手把手搭建Java超市管理系统【附源码】(毕设)
汤小洋 · 4318人在学
Java毕设springboot外卖点餐系统 毕业设计毕设源码 使用教
黄菊华 · 847人在学
基于SSM酒店管理系统(毕设)
小尼老师 · 909人在学
java项目实战之购物商城(java毕业设计)
Long · 5217人在学
手把手搭建Java求职招聘系统【附源码】(毕设)
汤小洋 · 1541人在学
Python Django 深度学习 小程序
钟翔 · 2436人在学
城管局门前三包管理系统+微信小程序(vue+springboot)
赖国荣 · 711人在学
Vue+Uni-app(uniapp)入门与实战+赠送仿美团点餐小程序
李杰 · 4103人在学
