欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 国际 > LLaMA 大语言模型系列论文阅读

LLaMA 大语言模型系列论文阅读

2025/1/30 16:34:21 来源:https://blog.csdn.net/qq_43799400/article/details/140866773  浏览:    关键词:LLaMA 大语言模型系列论文阅读

文章目录

  • 1. LLaMA

1. LLaMA

paper:LLaMA: Open and Efficient Foundation Language Models 《开源高效的基础语言模型》

code:https://github.com/meta-llama

单位:Meta AI

时间:2023.02

LLaMA 模型声称以更小的体积,在多数任务上超越了GPT-3的性能。LLaMA 提供了 7B、13B、65B三种规格,其中 LLaMA 13B 基本超过了 GPT-3 175B

模型结构:transformer decoder-only 结构,与初始 Transformer 不同的地方包括采用了前置层归一化(Pre-normalization)、使用RMSNorm 归一化函数(Normalizing Function)、激活函数更换为SwiGLU、使用旋转位置嵌入(RoP)

优化器:AdamW

推荐阅读:

  • Meta最新模型LLaMA细节与代码详解
  • LLaMA系列 | LLaMA和LLaMA-2精简总结

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com