欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 资讯 > Transfomer的各层矩阵

Transfomer的各层矩阵

2024/12/26 3:59:54 来源:https://blog.csdn.net/qq_38423732/article/details/144595261  浏览:    关键词:Transfomer的各层矩阵

一、输入

输入一句话:Hello CYZLAB the inspired world

每个单词为一个token

二、Embedding

这里的词向量维度为6,矩阵的行数为token数,列数是词向量的维度

这列是注释不算
hello122694
CYZLAB222372
the222596
inspired132440
world431273

token数X词向量维度

三、位置嵌入

与Embedding相同

四、Q、K、V

 Q、K、V的权重:权重权重的行数要与词向量的维度相同,列数任意

如果:权重的权重的尺寸为:词向量的维度X7

Q、K、V的尺寸:token数X7(上面我们自定义的列数)

五、自注意力机制

  • 每个词之间的关系(Q*K^T):token数X token数

  • 关系与V的加权和(Q*K^T)*V:token数X7

六、添加线性层

让自注意机制的结果与Embedding的联合的矩阵可以按位相加 

线性层的权重尺寸:7X词向量的维度

线性层的转换结果:token数X词向量维度 

 七、add和归一化

尺寸:token数X词向量维度 

此后的尺寸都是这样的:token数X词向量维度 

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com