欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 新车 > gpt、llama大模型模型结构细节探索

gpt、llama大模型模型结构细节探索

2025/2/22 17:01:53 来源:https://blog.csdn.net/weixin_42357472/article/details/139570183  浏览:    关键词:gpt、llama大模型模型结构细节探索

参考:
https://github.com/naklecha/llama3-from-scratch(一定要看看)
https://github.com/karpathy/build-nanogpt/blob/master/play.ipynb

视频:
https://www.youtube.com/watch?v=l8pRSuU81PU
在这里插入图片描述
在这里插入图片描述

https://tiktokenizer.vercel.app/ (可以查看场景大模型的tiktokenizer具体值encode与decode)
在这里插入图片描述
在这里插入图片描述

可以通过transformers加载模型查看具体结构和权重情况:

from transformers import GPT2LMHeadModelmodel_hf = GPT2LMHeadModel.from_pretrained("gpt2") # 124M
sd_hf = model_hf.state_dict()for k, v in sd_hf.items():print(k, v.shape)

在这里插入图片描述
可以查看打印每层权重:

sd_hf["transformer.wpe.weight"].view(-1)[:20]import matplotlib.pyplot as plt
%matplotlib inlineplt.imshow(sd_hf["transformer.wpe.weight"], cmap="gray")

在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词