关于大模型评测的 Yi 点思考

随着 LMSYS 公布最新一批竞技场对战结果，Yi-Lightning 正式发布并且获得了全球第六名的好成绩。身边的朋友们都第一时间进行了评测，然后带着一种“困惑”的语气和我们说：“你们的模型在公开的 Benchmark 上的指标似乎不像 LMSYS 那样突出呀？”

非常好的问题，也是很难回答的问题，但又是必须深入思考的问题，以及可能引起浮言的问题。刚好趁着 Yi-Lightning 的发布，我们也想跟大家分享一下对大模型评测的 Yi 点点理解。

拆分 Capacity-Capability-Preference

我们讨论大模型评测的时候，常常喜欢按“KTP原则”拆分并逐层分析，它指的是：

Knowledge Capacity（知识容量）
Task Capability（任务能力）
Human Preference（人类偏好）

这三个层面由低到高，从 Low-level 的世界知识容量到 High-level 的人类偏好，能够相对全面地展现 LLM 能力。

在早期的 LLM 探索过程中，我们更关心 LLM 是否掌握了更多世界知识，因此我们更多地关注模型的 Knowledge Capacity；随着预训练技术和相关数据工程的逐步成熟，让模型具备「足够」的世界知识这件事已变得不再那么困难，此时我们关注点逐渐切换到了模型的 Task Capability，即模型解决具体任务的能力；然而，当模型能够较好地完成这些任务后，Human Preference 又变得更加重要。

在 Knowledge Capacity、Task Capability 层面，不乏在实践中沉淀下来的经典的 Benchmark，如 Knowledge Capacity 之 MMLU、GPQA 等；Task Capability 之 MATH、HumanEval、IFEval 等；

而当我们探讨 Human Preference 时，就严格意义而言，并没有对应的评测集。如果我们放宽标准，Alignbench、MT-Bench、Arena-Hard 这些评估 Chat 能力的 Benchmark 倒是能在一定程度上涵盖相关的评估维度。（尽管严格意义上来说，这里涉及的 Preference 更可能是 AI Preference，因为它们选择采用第三方 AI 作为评估器）。

在我们开发 Yi-Large 和 Yi-Lightning 的过程中，这些评测集都是我们主要参考的对象。我们会在整个预训练和后训练的过程中密切观察模型的 Knowledge Capacity 是否受到了影响，Task Capability 是否有所提升，以及 Human Preference（或用户体验）是否符合预期。虽然这一切看来都很完美，但现实往往充满挑战。随着模型的不断迭代，我们发现了两个主要问题：

「在评测集上的边际效益越来越低，而实际体验却在持续改善」
「在评测集上的指标越来越高，但实际体验却急剧恶化」

第一个问题表明评测集的覆盖度不足，第二个问题则揭示了模型正在“破解”评测集，针对评测集中的特定任务优化。

这无疑是一个令人痛心的故事，也促使我们思考，究竟什么样的评测才能更好地评估 LLM？

LLM 需要来自真实场景的动态评测

传统评测存在着致命的缺陷：它们往往是静态的、被过度抽象或者简化的。

举例来说，在大多数数学评测中，为了便于评测，通常会选择最终答案结构比较简单的题目作为测试样本，而忽略了结构占比更多的其他类型数学问题或者涉及数学的问题；

再比如，在评估指令遵循能力时，往往会选择一些可以通过客观条件来评估的评测样例，如 IFEval。但是这类问题往往极易被 “破解” ，对更复杂、难以量化的场景却缺乏相应的评估。

这些评测问题使得它们逐渐脱离了实际需求，与真实用户的期望产生了越来越大的错位。因此，我们迫切需要来自「真实场景的动态评测」。换句话说，在目标场景下能够更好地完成任务的模型，就是更好的模型。

LMSys Chatbot Arena提供了这样一个动态的 Chat 场景评测环境。在 Arena 竞技场上，不同的大模型进行对决，依据历史战绩计算 Elo 分数，形成一个动态的竞技榜单。

尽管 Arena 近来也饱受争议，被指是一个“偏好榜单”，但我对此有不同的看法。Arena 是一个 Chat 场景的竞技场，而偏好本就是这个场景中不可或缺的要素；其二，没有 Knowledge Capacity & Task Capability，是无法获得正确答案的，而没有正确答案，Human Preference 也就无从谈起。

当然，光靠 Arena 还不足以全面评估 LLM 的能力。即便划分了 MATH、CODE 等不同类别，Arena 也仅是一个 Chat 场景的竞技场。因此，我们还需要更多领域的“竞技场”，如代码生成、小说创作、游戏对战、图像生成、自动定理证明、旅行规划、特定领域的问题解决等。这也是我们正在努力推进的方向。

构建更适合评估 LLM 的评测环境

需要更多人参与

设计、构建能全面评估 LLM 能力的评测环境是一项庞大且复杂的工程，我们正在致力于将这件事情朝着正确的道路前进，也希望能够有越来越多的对大模型评测感兴趣的小伙伴参与其中。

未来，我们将陆续发布一系列开放的评测环境产品，帮助整个大模型社区更好地评估和发现模型的潜在问题。如果屏幕前的你也对AGI充满热情，欢迎点击【阅读原文】加入 Waiting List，也分享你对大模型评测的需求和期待。AGI Needs You!

后记

重回最开始的问题，“你们的模型在公开的 Benchmark 上的指标似乎不像 LMSYS 那样突出呀？”，到这里似乎也已然不是问题了。

与实际需求渐行渐远的静态评测指标已不足以全面衡量一个模型的真正实力和潜力，我们要追求的更本质的一点是模型在实际应用中的表现，以及它如何能够适应和解决复杂多变的现实世界问题。因此，我们的目标不仅是提升模型在静态评测上的表现，更是要通过不断地优化，使我们的模型在实际应用中更加高效、可靠和人性化。
我们也很开心这一路走来，有Qwen、DeepSeek、GLM 这些优秀的同行者们和我们一起在 Arena 里向世界上最顶尖的LLMs持续发起挑战。我们，Yi 起加油！

关于大模型评测的 Yi 点思考

相关资讯

热文排行

最新新闻

推荐新闻

热搜词