【LLM】kimi 1.5模型架构和训练流程

note

推出两个多模态模型，深度思考模型 long-CoT 对标 o1，通用模型 short-CoT 模型对标 gpt-4o。

文章目录

note
一、kimi 1.5模型训练流程
- 预训练
- SFT训练
- long-CoT SFT
- RL训练
- long2short
小结
Reference

一、kimi 1.5模型训练流程

推出两个多模态模型，深度思考模型 long-CoT 对标 o1，通用模型 short-CoT 模型对标 gpt-4o。
在这里插入图片描述

预训练

语言数据涵盖五个领域：英语、中文、代码、数学推理和知识。多模态数据，包括图像描述、图文交错[^1]、OCR数据、知识以及问答数据集，使我们的模型能够获得视觉 - 语言能力。严格的质量控制确保了整个预训练数据集的相关性、多样性和平衡性。

SFT训练

100w文本sft数据（任务具体分布见图）和100w多模态sft数据（没说具体分布，光列任务），通过一些 infra 的优化，先训 32k，再训 128k。

非推理任务：包括问答、写作和文本处理，首先通过人工标注构建了一个种子数据集。这个种子数据集用于训练一个种子模型。随后，收集了各种prompt，并使用种子模型为每个提示生成多个响应。标注者随后对这些响应进行排名，并优化排名最高的响应以产生最终版本。
对于数学和编码等推理任务，基于规则和基于奖励建模的验证比人工判断更准确、更高效，使用拒绝采样来扩展SFT数据集。

普通SFT数据集包含大约100万文本数据，50万一般问答，20万编码，20万数学和科学，5千创意写作，2万长上下文任务，如总结、文档问答、翻译和写作。此外，构建了100万文本视觉数据，涵盖各种类别，包括图表解读、OCR、图像引导的对话、视觉编码、视觉推理以及带有视觉辅助的数学/科学问题。我们首先在32k token的序列长度下训练模型1个epoch，然后在128k token的序列长度下再训练1个epoch。在第一阶段（32k），学习率从 2×10−5 衰减到 2×10−6，然后在第二阶段（128k）重新升温到 1×10−5，最后衰减到 1×10−6。为了提高训练效率，将多条训练数据 packing 到每个单独的训练序列中。

long-CoT SFT

从 RL prompt 集合里采 prompt，通过提示工程构建了一个小而高质量的 long-CoT warmup 数据集，包含文本和图像输入的经过准确验证的推理路径。

生成的 warmup 数据集旨在封装人类推理的基本认知过程，如：

规划（模型在执行前系统地概述步骤）
评估（对中间步骤进行批判性评估）
反思（使模型重新考虑并完善其方法）
探索（鼓励考虑替代解决方案）

RL训练

和 deepseek 类似，也是用了 on-policy 的强化学习策略（不过不是GRPO，而是在线策略镜像下降的变体）。kimi 在设计奖励函数时引入长度惩罚来缓解模型“过度思考”，主打一个引导模型产生短思考且结果正确的回答。

在这里插入图片描述

long2short

包括权重平均、拒绝采样和SFT、强化学习训练等一套流程，使用 long-CoT 模型来提升 short-CoT 模型能力。

模型融合。这里说的是权重融合，long/short 模型的权重直接融合。这种在业界已经用的很多了，可以在业务中尝试起来，而且不用训练。

最短拒绝采样。一次生成 x 条样本，把最短的那条选出来，前提是结果要对。
长短样本的 DPO。和上面类似（一条正样本），这里是构建的是正负 pair 样本（两条样本），短而正确的作为正样本，错误的是负样本或者1.5长于短样本的作为负样本。
long2short强化学习。在一阶段 RL 之后，使用长度惩罚来减少模型生成的长度。

小结

Test-time scaling + RL 或许是接下来要重点聚焦的大模型技术了

Reference

[1] Kimi k1.5 的技术报告:https://arxiv.org/abs/2501.12599
[2]《自顶向下方式深度解读 DeepSeek-R1》:https://bruceyuan.com/post/deepseek-r1-paper-reading-notes.html
[3]知乎大佬木尧:https://www.zhihu.com/people/muyaostudio，一张图速通 Kimi-k1.5 论文
[4]DeepSeek-R1 coldstart 数据:https://bruceyuan.com/post/deepseek-r1-paper-reading-notes.htmlChao
[6]bilibili:https://space.bilibili.com/12420432
[7]YouTube:https://www.youtube.com/@bbruceyuan
[8] 细节之王 Kimi K1.5，大模型算法工程师复现推理模型必读文章之一
[9] Kimi k1.5 背后的长长长长长思考