欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 教育 > 高考 > 论文阅读笔记-Rethinking Self-Attention for Transformer Models

论文阅读笔记-Rethinking Self-Attention for Transformer Models

2024/10/25 12:28:47 来源:https://blog.csdn.net/mohen_777/article/details/140605437  浏览:    关键词:论文阅读笔记-Rethinking Self-Attention for Transformer Models

前言

Transformer自从被提出,就火到现在,它的关键在于 query-key-value 的点积注意力,token与token之间被完全连接,能够对远距离的依赖关系进行建模。Transformer在到处都是黑箱的深度学习领域,可以说一个解释性比较强的模型之一了。而作为Transformer核心的组件,Self-Attention被许多人反复研究来研究去,随处可见的资料貌似已经把它解释的很好的,但事实真的这样么?本文对自注意力机制做了一些探索,里边的结果也许会颠覆我们对自注意力的认知。

前情提要

首先我们要明白点积的几何意义,两个向量越相似,他们的点积越大,Self-Attention结构就是利用Q,K,V计算点积,Self-Attention就是计算一个向量(可以理解为一个词)与其它向量的点积,即相似性。下面给出其公式:
A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk QKT)V
注意了,完整的Self-Attention中,是对同一个 X ∈ R n × d X\in\mathbb{R}^{n\times d} XRn×d 通过不同的投影矩阵 W q , W k , W v ∈ R d × d ′ W_q,W_k,W_v\in\mathbb{R}^{d\times d'} Wq,Wk,WvRd×d得到 Q = X W q , K = X W k , V = X W v Q=XW_q,K=XW_k,V=XW_v Q=XWq,K=XWk,

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com