欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 金融 > transformer bert 多头自注意力

transformer bert 多头自注意力

2025/3/14 8:44:37 来源:https://blog.csdn.net/hu_mingwei/article/details/146245599  浏览:    关键词:transformer bert 多头自注意力

在这里插入图片描述
输入的(a1,a2,a3,a4)是最终嵌入,是一个(512,768)的矩阵;而a1是一个token,尺寸是768
在这里插入图片描述
a1通过wq权重矩阵,经过全连接变换得到查询向量q1;a2通过Wk权重矩阵得到键向量k2;q和k点乘就是值a12,a12就是a2对于a1的注意力值
在这里插入图片描述
依次得到a1,1,a1,2,a1,3,a1,4注意力,都是其他token相对于a1 token的注意力
在这里插入图片描述
此时(a1,1,a1,2,a1,3,a1,4)不是概率分布,需要经过softmax呈概率分布向量(a’1,1,a’1,2,a’1,3,a’1,4),
在这里插入图片描述
此时,再把每个a经过v权重矩阵得到v1,v2,v3,v4向量
在这里插入图片描述

a’1,1×v1+a’1,2×v2+a’1,3×v3+a’1,4×v4=b1向量,b1是个768维向量,是a1的自注意力向量,综合了该token与其他所有tokens之间的关系

之后每个a都这么得到自己的自注意力向量,然后组合成(512,768)

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词