transformer bert 多头自注意力

2025/3/14 8:44:37 来源：https://blog.csdn.net/hu_mingwei/article/details/146245599 浏览: 次关键词：transformer bert 多头自注意力

在这里插入图片描述
输入的（a1,a2,a3,a4）是最终嵌入，是一个(512,768)的矩阵；而a1是一个token，尺寸是768

a1通过wq权重矩阵，经过全连接变换得到查询向量q1；a2通过Wk权重矩阵得到键向量k2；q和k点乘就是值a12，a12就是a2对于a1的注意力值
在这里插入图片描述
依次得到a1,1，a1,2，a1,3，a1,4注意力，都是其他token相对于a1 token的注意力

此时(a1,1，a1,2，a1,3，a1,4)不是概率分布，需要经过softmax呈概率分布向量(a’1,1，a’1,2，a’1,3，a’1,4)，

此时，再把每个a经过v权重矩阵得到v1，v2，v3，v4向量
在这里插入图片描述