Falcon Mamba:首个高效的无注意力机制7B模型
Falcon Mamba是由阿布扎比的 Technology Innovation Institute (TII) 开发并基于 TII Falcon Mamba 7B License 1.0 的开放获取模型。该模型是开放获取的,所以任何人都可以在 Hugging Face 生态系统中这里使用它进行研究或应用。
在这篇博客中,我们将深入模型的设计决策、探究模型与其他现有的SoTA模型相比的竞争力,以及如何在Hugging Face生态系统中使用它。
第一款通用的大规模纯Mamba模型
目前,所有顶级大型语言模型都使用基于注意力机制的Transformer架构。然而,由于计算和内存成本随序列长度增加而增加,注意力机制在处理大序列时存在根本性的局限性。状态空间语言模型(SSLMs)等各种替代架构尝试解决序列扩展的限制,但在性能上仍不及最先进的Transformer架构模型。
通过Falcon Mamba,我们证明了序列扩展的限制确实可以在不损失性能的情况下克服。Falcon Mamba基于原始的Mamba架构,该架构在Mamba: Linear-Time Sequence Modeling with Selective State Spaces中提出,并增加了额外的RMS标准化层以确保大规模稳定训练。这种架构选择确保Falcon Mamba:
- 能够处理任意长度的序列,而不增加内存存储,特别是适用于单个A10 24GB GPU。
- 生成新令牌的时间是恒定的,不论上下文的大小(参见此部分)。
模型训练
Falcon Mamba训练所用的数据量约为5500GT,主要包括经过精选的网络数据,并补充了来自公开源的高质量技术和代码数据。我们在大部分训练过程中使用恒定的学习率,随后进行了一个相对较短的学习率衰减阶段。在最后这个阶段,我们还添加了一小部分高质量的策划数据,以进一步提高模型性能。
模型评估
我们使用 lm-evaluation-harness
包在新排行榜版本的所有基准上评估我们的模型,然后使用Hugging Face分数规范化方法规范化评估结果。
model name | IFEval | BBH | MATH LvL5 | GPQA | MUSR | MMLU-PRO | Average |
---|---|---|---|---|---|---|---|
Pure SSM models | |||||||
Falcon Mamba-7B | 33.36 | 19.88 | 3.63 | 8.05 | 10.86 | 14.47 | 15.04 |
TRI-ML/mamba-7b-rw * | 22.46 | 6.71 | 0.45 | 1.12 | 5.51 | 1.69 | 6.25 |
Hybrid SSM-attention models | |||||||
recurrentgemma-9b | 30.76 | 14.80 | 4.83 | 4.70 | 6.60 | 17.88 | 13.20 |
Zyphra/Zamba-7B-v1 * | 24.06 | 21.12 | 3.32 | 3.03 | 7.74 | 16.02 | 12.55 |
Transformer models |