LLaMA 大语言模型系列论文阅读

2025/1/30 16:34:21 来源：https://blog.csdn.net/qq_43799400/article/details/140866773 浏览: 次关键词：LLaMA 大语言模型系列论文阅读

文章目录

1. LLaMA

1. LLaMA

paper：LLaMA: Open and Efﬁcient Foundation Language Models 《开源高效的基础语言模型》

code：https://github.com/meta-llama

单位：Meta AI

时间：2023.02

LLaMA 模型声称以更小的体积，在多数任务上超越了GPT-3的性能。LLaMA 提供了 7B、13B、65B三种规格，其中 LLaMA 13B 基本超过了 GPT-3 175B

模型结构：transformer decoder-only 结构，与初始 Transformer 不同的地方包括采用了前置层归一化（Pre-normalization）、使用RMSNorm 归一化函数（Normalizing Function）、激活函数更换为SwiGLU、使用旋转位置嵌入（RoP）

优化器：AdamW

热文排行

热搜词

03：Heap代码的分析达梦拷贝DM_HOME的复制安装 Java并发编程面试题：锁（17题） RKNN_C++版本-YOLOV5 GD32F303 GCC 环境搭建【CompletableFuture实战】

LLaMA 大语言模型系列论文阅读

文章目录

1. LLaMA

相关资讯

热文排行

最新新闻

推荐新闻

热搜词