欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 创投人物 > Falcon Mamba:首个高效的无注意力机制7B模型

Falcon Mamba:首个高效的无注意力机制7B模型

2024/10/24 20:12:17 来源:https://blog.csdn.net/ahahayaa/article/details/141821767  浏览:    关键词:Falcon Mamba:首个高效的无注意力机制7B模型

Falcon Mamba:首个高效的无注意力机制7B模型

Falcon Mamba是由阿布扎比的 Technology Innovation Institute (TII) 开发并基于 TII Falcon Mamba 7B License 1.0 的开放获取模型。该模型是开放获取的,所以任何人都可以在 Hugging Face 生态系统中这里使用它进行研究或应用。

在这篇博客中,我们将深入模型的设计决策、探究模型与其他现有的SoTA模型相比的竞争力,以及如何在Hugging Face生态系统中使用它。

第一款通用的大规模纯Mamba模型

目前,所有顶级大型语言模型都使用基于注意力机制的Transformer架构。然而,由于计算和内存成本随序列长度增加而增加,注意力机制在处理大序列时存在根本性的局限性。状态空间语言模型(SSLMs)等各种替代架构尝试解决序列扩展的限制,但在性能上仍不及最先进的Transformer架构模型。

通过Falcon Mamba,我们证明了序列扩展的限制确实可以在不损失性能的情况下克服。Falcon Mamba基于原始的Mamba架构,该架构在Mamba: Linear-Time Sequence Modeling with Selective State Spaces中提出,并增加了额外的RMS标准化层以确保大规模稳定训练。这种架构选择确保Falcon Mamba:

  • 能够处理任意长度的序列,而不增加内存存储,特别是适用于单个A10 24GB GPU。
  • 生成新令牌的时间是恒定的,不论上下文的大小(参见此部分)。

模型训练

Falcon Mamba训练所用的数据量约为5500GT,主要包括经过精选的网络数据,并补充了来自公开源的高质量技术和代码数据。我们在大部分训练过程中使用恒定的学习率,随后进行了一个相对较短的学习率衰减阶段。在最后这个阶段,我们还添加了一小部分高质量的策划数据,以进一步提高模型性能。

模型评估

我们使用 lm-evaluation-harness 包在新排行榜版本的所有基准上评估我们的模型,然后使用Hugging Face分数规范化方法规范化评估结果。

model nameIFEvalBBHMATH LvL5GPQAMUSRMMLU-PROAverage
Pure SSM models
Falcon Mamba-7B33.3619.883.638.0510.8614.4715.04
TRI-ML/mamba-7b-rw*22.466.710.451.125.511.696.25
Hybrid SSM-attention models
recurrentgemma-9b30.7614.804.834.706.6017.8813.20
Zyphra/Zamba-7B-v1*24.0621.123.323.037.7416.0212.55
Transformer models

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com