机器学习（李宏毅）——Transformer

2025/2/13 22:04:49 来源：https://blog.csdn.net/m0_37970224/article/details/145573134 浏览: 次关键词：机器学习（李宏毅）——Transformer

一、前言

本文章作为学习2023年《李宏毅机器学习课程》的笔记，感谢台湾大学李宏毅教授的课程，respect！！！
读这篇文章必须先了解self-attention，可参阅我上一篇。

二、大纲

Transformer问世
原理剖析
模型训练

三、Transformer问世

2017 年在文章《Attention Is All You Need》被提出的。应用于seq2seq模型，当时直接轰动。

四、原理剖析

两部分组成：Encoder 和 Decoder

Encoder 结构
接下来从大到小一层层剥开：

剥一下：
输入一排向量，输出一排向量
在这里插入图片描述
剥两下：
Encoder 由多个Block组成，串联起来

剥三下：
Block装的是啥？原来是Self-attention！

剥四下：
Self-attention原来加入了residual和Layer Normal，至此剥完了。

说明：
上图自底向上看，关键点：
1、residual结构，输入接到输出送入下一层，残差结构；
2、Layer Normal，具体如下图：
在这里插入图片描述
算出标准差和均值后，套用公式计算即可。

以上就是Encoder的全部了！
论文中是这么画图表达的：
在这里插入图片描述
注：Positional Encoding是self-attention的位置资讯。

Decoder 结构
有两种方法生成输出：Auto Regressive 和 Non Auto Regressive。

Auto Regressive
在这里插入图片描述
给个START符号，把本次输出当做是下一次的输入，依序进行下去。

Non Auto Regressive
在这里插入图片描述
输入是一排的START符号，一下子梭哈突出一排输出。

Encoder结构长啥样？

接下来看下结构长啥样，先遮住不一样的部分，其他部分结构基本一致，只不过这里用上了Masked Multi-Head Attention
在这里插入图片描述

Masked Multi-Head Attention
啥是Masked Multi-Head Attention？Masked有啥含义？
可以直接理解为单向的Multi-Head Attention，而且是从左边开始：
在这里插入图片描述
说明：这也很好理解，右边的字符都还没输出出来怎么做运算，因此只能是已经吐出来的左边的内容做self-attention，这就是masked的含义。

遮住的部分是啥？（cross attention）

最后这边遮住的部分到底是啥玩意？
别想太复杂，就还是self-attention。
corss的意思就是v，k来自Encoder，q来自Decoder，仅此而已。
在这里插入图片描述

其实也好理解，Decoder是去还原结果的，那可不得抽下Encoder编码时候的资讯和上下文语义信息才能还原，缺一不可。
比喻下，前者让输出紧扣题意，后者让其说人话。