论文阅读笔记-Rethinking Self-Attention for Transformer Models

2024/10/25 12:28:47 来源：https://blog.csdn.net/mohen_777/article/details/140605437 浏览: 次关键词：论文阅读笔记-Rethinking Self-Attention for Transformer Models

前言

Transformer自从被提出，就火到现在，它的关键在于 query-key-value 的点积注意力，token与token之间被完全连接，能够对远距离的依赖关系进行建模。Transformer在到处都是黑箱的深度学习领域，可以说一个解释性比较强的模型之一了。而作为Transformer核心的组件，Self-Attention被许多人反复研究来研究去，随处可见的资料貌似已经把它解释的很好的，但事实真的这样么？本文对自注意力机制做了一些探索，里边的结果也许会颠覆我们对自注意力的认知。

前情提要

首先我们要明白点积的几何意义，两个向量越相似，他们的点积越大，Self-Attention结构就是利用Q，K，V计算点积，Self-Attention就是计算一个向量（可以理解为一个词）与其它向量的点积，即相似性。下面给出其公式：
$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$
注意了，完整的Self-Attention中，是对同一个 $X\in\mathbb{R}^{n\times d}$ 通过不同的投影矩阵 $W_q,W_k,W_v\in\mathbb{R}^{d\times d'}$ 得到 $Q=XW_q,K=XW_k,V=XW_v$

论文阅读笔记-Rethinking Self-Attention for Transformer Models

前言

前情提要

相关资讯

热文排行

最新新闻

推荐新闻

热搜词