25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。
OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展,但仍然缺乏对长思维链 (Long CoT) 的全面综述,这限制了对其与传统短思维链 (Short CoT) 区别的理解,并使有关“过度思考”和“测试-时间规模化”等问题的持续争论变得复杂。本综述旨在通过提供对长思维链(Long CoT) 的统一视角来填补这一空白。(1)首先区分长思维链 (Long CoT) 和短思维链(Short CoT),并引入一种新的分类法来对当前的推理范式进行分类。 (2) 接下来,探讨长 CoT 的关键特征:深度推理、广泛探索和可行反思,与较浅的短 CoT 相比,这些特征使模型能够处理更复杂的任务并产生更高效、更连贯的结果。 (3) 然后,研究具有这些特征的长 CoT 出现等关键现象,包括过度思考和测试-时间规模化,从而深入了解这些过程在实践中的表现。 (4) 最后,确定重大的研究空白,并强调有希望的未来方向,包括多模态推理的整合、效率的提高和知识框架的增强。
。。。。。。。继续。。。。。。。
如下讨论长 CoT 的可行反思。
反馈
反馈是指对整体输出及其产生过程进行评估的过程,目的是评估其准确性和质量 [280, 282, 595, 149]。此过程也称为批评或验证,可以使用自然语言或结构化数据格式执行,这些格式是树搜索方法的基础 [79]。具体而言,如图所示,反馈可分为三种不同类型:(1)整体反馈;(2)过程反馈;(3)混合反馈。
整体反馈
整体反馈侧重于提供整个过程和结果的全局视图,而不是单独评估每个步骤。这种反馈显著增强 RLLM 强化学习中的推理能力和奖励建模。具体而言,如图 (a) 所示,整体反馈可分为三个主要来源:结果奖励模型、规则提取和评论家模型反馈。下表总结这些类别的表现。
结果奖励模型的总体反馈。由于许多任务无法使用准确性或其他标准指标直接评估,因此研究越来越多地集中在结果奖励模型 (ORM) 上,该模型为更一般和可量化的反馈提供基于价值的奖励。2021 年,OpenAI [95] 提出一种“Gen-Verifier”范式,它使用专门的 ORM 来评估生成理由的准确性,显示出反馈能力的显着进步 [466]。Ji [215] 引入一个经过训练的知识评分器来分析推理过程中的幻觉,为 RLLM 提供反馈并随着时间的推移提高其输出的准确性。此外,生成奖励模型 [736] 使用下一个 token 预测进行整体反馈,与指令调整无缝集成,利用测试-时间计算来改进 ORM 反馈。
然而,专门训练的 ORM 通常成本高昂且不够稳健。在此基础上,自奖励语言模型 (SRLM) [790] 结合自洽框架,优化反馈以提高模型对齐和一致性。Yu [692] 引入 Critic-RM,将 RLLM 生成的自然语言批评与相应的反馈相结合。该方法在联合微调奖励预测和批评生成的同时筛选高质量反馈,从而优化 ORM 性能。
规则提取的整体反馈。虽然 ORM 取得显着的改进,但其准确率仍然达不到 100%,因此无法超越基于规则的答案纠正反馈 [668, 160]。先前的研究,如 STaR [707]、ReST [153] 和 ReFT Trung [531] 已经证明,在数学场景中,基于最终答案奖励的反馈,比 PRM 和 ORM 都更有效 [131]。此外,Guo [155] 和 Xie [622] 引入一个包含基于规则奖励的多阶段 RL 框架,显著提高输出准确率和长度,同时通过简单而强大的规则 [24](如格式验证和结果验证)减轻奖励黑客攻击。在直接基于规则反馈困难的编码场景中,AceCoder [709]、O1-Coder [753] 和 VerMCTS [39] 通过实现自动化测试用例合成流水线来解决这一挑战,根据程序性能获得奖励 [395, 145, 778]。此外,Ma [372] 提出一种训练测试用例生成器的自动化方法,该方法缓解测试用例的稀缺性,并证明增加测试用例数量与提高奖励质量相关。此外,Ma [372] 提出一种训练测试用例生成器的自动化方法,该方法缓解测试用例的稀缺性[371] 将问题解决分解为结构化子任务:文件局部化、功能局部化、代码行局部化和代码编辑生成,并应用多视角的基于规则的奖励。
评论模型的整体反馈。评论模型反馈研究主要集中在通过自然语言反馈检测错误和偏见,也称为自我反思或自我批评 [231, 23, 452, 384, 571, 701]。这种方法已经在各种任务中取得显著的进步,特别是在自我纠正方面 [600, 772, 137, 121, 752]。Huang [194] 认为传统的 LLM 很难在没有外部信号的情况下产生有效的反馈,需要开发具有增强反馈能力的 RLLM [458]。因此,许多研究利用 RLLM 的错误识别优势(通常源于其预训练阶段)来改进反馈生成和纠正 [675]。因此,许多研究利用 RLLM 的错误-识别强项(通常源于其预训练阶段)来改进反馈生成和纠正 [675]。
此前,McAleese [380] 发现训练 RLLM 学习自我批评和深度推理可以进一步提高性能。Zhang [744] 提出一种自我对比机制,可以比较多个观点、识别差异并总结见解以解决不一致之处。然而,这些方法通常提供与任务无关的反馈。为了解决这个问题,Hao [161] 推出 AutoRace,它可以针对特定任务量身定制评估标准。思维逆转 (RoT) 框架 [698] 引入一种将逆向推理与自我反思相结合的新范式,帮助模型识别其知识的局限性并提高推理效率。此外,ACR [779] 实现一个编码任务的评分系统,使用 LLM-as-a-Judge 进行质量评估,使用 LLM-as-a-Critic 批评低质量代码,提高基准测试的一致性。Zheng [771] 整合代码执行错误数据和来自 RLLM 的反馈,以提高代码生成性能。Liu [342] 提出 AGSER,这是一种使用注意引导的自我反思来解决幻觉的方法,它将输入查询分为注意和非注意部分。最后,Saha [456] 引入 EvalPlanner,它将反馈分为规划和推理部分,以便使用现有的 RLLM 进行更简化的表达。
过程反馈
该技术将过程反馈与 MCTS 或 RL 奖励相结合,以提供自动化的分步指导,减少对劳动密集型注释的需求,同时增强推理能力 [534, 239]。根据反馈来源,这些技术可分为两大类:过程奖励模型 (PRM) 和提示性 LLM。性能比较主要如表所示。
过程奖励模型的过程反馈。最近的研究强调反馈在为复杂推理任务开发有效 PRM 方面的重要性,特别是在步-级视图中 [88, 303, 366]。(1)过程注释的 PRM 训练:此前,Lightman [319] 证明,使用人工注释数据 (PRM800K) 训练过程反馈在创建可靠的奖励模型方面优于结果监督。然而,这种方法需要大量的人力。为了解决这个问题,Wang [567] 引入 Math-Shepherd,这是一个使用树搜索启发式方法生成逐步监督的数据集 [52, 700]。随后,QwQ [517]、Skywork-o1 [400]、AceMath [347] 和 PRIME [97] 等方法采用类似的技术来提高 PRM 性能。此外,Zhang [729] 提出熵正则化来提高模型收敛速度。Full-Step-DPO [636] 并不只关注第一步错误,而是为整个推理链(包括错误步骤)分配奖励。VersaPRM [710] 将 PRM 扩展到多个领域,扩大其适用性。同样,Gu [148] 和 Zhang [751] 建议在训练模型时将学生偏好与教师偏好保持一致,以确保有效的偏好蒸馏。 (2)结果注释的 PRM 训练:其他方法,例如 OVM [685]、隐式 PRM [699]、AutoPSV [350] 和 DVO [730],利用结果监督或隐式反馈来训练 PRM,从而减少对大量人工注释数据的需求 [627, 456]。UAS [687] 将不确定性-觉察价值模型 [187] 纳入反馈预测中。此外,Aurora [499] 利用集成提示策略和参考答案进行反向验证,训练出更强大的 PRM,使其与长 CoT 数据分布更加一致。此外,PAV [462] 建议奖励应反映推理进度,以每一步之前和之后产生正确未来响应可能性的变化来衡量。Yang [653]、Lee [267]、Yoon [683] 将这些范例扩展到 token 级别。
来自评论模型的过程反馈。由于 PRM 训练仍然严重依赖于手动注释的数据,最近的研究探索使模型能够生成自然语言反馈以优化性能的方法 [640]。这些方法主要分为两类:(1)模型驱动的反馈推理:早期的研究,如 React [669] 和 Reflexion [471],在每个动作和推理步骤中通过自然语言反馈增强 RLLM [130, 89],改善各种任务中的决策。同样,Step-DPO [257] 使用 RLLM 通过 DPO 范式自我验证步骤级正负对进行训练,取得了出色的性能。此外,Sun [492] 提出一个基于模型输出进行自适应的动态错误分类框架,通过解决数学应用题中的特定错误模式来提高数学推理任务的性能。此外,Xie [625] 和 He [168] 迭代应用 MCTS 收集偏好数据,利用其前瞻性功能将实例级奖励分解为更精确的步-级信号,从而提高反馈准确性。然而,分步反馈往往存在可靠性问题,这可以通过不确定性量化 [681, 678] 来缓解,从而提高数学推理任务奖励模型中分步验证的可靠性。此外,Fu [123] 定义 CoT 平均因果效应 (CACE) 来捕捉步骤之间的因果关系,从而得到因果长 CoT,其中所有步骤都是正确且可理解的。 (2) 环境驱动的反馈推理:鉴于大模型的复杂性日益增加,人们越来越有兴趣将基于提示的 LLM 与外部环境相结合,以生成更易于解释和控制的反馈。例如,ORPS [696] 和 Drori [108] 通过使用执行反馈最大限度地减少对人工注释的依赖,使模型能够自主改进其解决方案。此外,Shrestha [472] 通过将模型输出翻译成 Python 代码做出贡献,帮助识别逻辑错误,深入了解有缺陷的推理过程,并指导数学推理的改进。Xu [631] 将推理模型与交互式环境相结合,使学习能够在更动态的场景中进行,并创建更通用的自我学习框架。
混合反馈
鉴于整体反馈和过程反馈各自的优势和局限性,最近的研究试图将两者结合起来以获得最佳反馈。具体来说,Zhang [755] 提出一种共识过滤机制,将蒙特卡洛估计与 LLM-as-judge 相结合,以增强整体和分步反馈,从而提高推理准确性。类似地,Lin [323] 提出 Step-KTO,这是一个结合分步的过程级和结果级二元反馈框架,使用 PRM 和 ORM 引导语言模型进行连贯推理,重点是通过反思机制进行错误纠正。
细化
细化是指根据先前的反馈解决推理错误的过程。如图所示,细化方法可分为三个主要类别:基于提示的细化生成、基于 SFT 的细化模仿和基于 RL 的细化学习。
基于提示的细化生成
基于提示的细化生成的研究侧重于通过迭代自细化机制来提高 LLM 的性能 [408、762、68、333、723、539、582]。一种突出的方法是提示 RLLM 生成初始输出,然后进行自我反馈,以迭代方式细化和提高对话生成和数学推理等任务的性能 [458, 375, 768, 471, 384, 240, 535],这甚至大大减少幻觉 [196, 215]。值得注意的方法,如Self-backtracking [661]、Refiner [417] 和 BackMath [740],允许 LLM 自主调整其推理,减少决策中不必要的复杂性 [612]。此外,Havrilla [164] 通过整合整体-级和步骤-级细化来扩展范式,提高细化性能。Yang [164] 通过整合整体-级和步骤-级细化来扩展范式,提高细化性能。 [664] 提出一种方法,将 LLM 的自我修正能力分解为“置信度”和“批评”能力,设计概率指标来评估它们,并探索反思机制在模型行为中的作用。此外,MCTSr [726]、LLM2 Yang [652]、ReST-MCTS* [725] 和 ReARTeR [493] 强调通过迭代纠错和置信度调整进行动态反思,使模型能够自主改进推理策略 [122]。He [166] 将此范式扩展到多智体场景,提高了智体系统的性能。然而,如果没有 oracle 反馈,RLLM 的自我改进过程就会失败,导致中间答案和最终答案都不稳定,导致简单事实查询中出现偏差,并在复杂任务中引入认知偏差 [738]。
基于 SFT 的细化模仿
最近,基于反思的 LLM 推理取得进展,催生通过自我细化和纠错来增强模型推理能力的框架。一种关键方法是直接监督微调,它允许模型从高级 LLM 中学习纠错过程,从而提高其反思能力 [11, 74, 289, 586, 69, 616]。一些著名的框架,如 rStar [434],通过自我对弈相互推理来改进较小的语言模型,而Recursive Introduction [442] 和 RealCritic [501] 使用迭代反馈机制来识别和纠正错误,以更好地自我改进 [279]。Yan [647] 建议构建分步自校正数据,并实施一种训练策略,该策略使用上述构建的数据为 LLM 配备自发的分步自校正能力。在此基础上,Gao [130] 和 Zhang [722] 提出 Math-Minos,它使用逐步的自然语言反馈作为合理标签,为每个步骤提供正确性和详细解释,以训练反馈机制来证明和改进推理过程。Journey Learning [440] 使用 MCTS 将节点回溯解析为自然语言改进,增强监督微调,从而提高推理性能。此外,像 ProgCo [479] 这样的方法强调迭代反馈和程序驱动的改进,以增强批评和自我纠正。将这些想法扩展到多模态设置,诸如 R3V [83] 和 MM-Verify [489] 之类的框架专注于整合视觉和文本推理 [360, 577]。
基于 RL 的细化学习
在最近的研究中,已经提出几种通过强化学习来提高细化性能的方法。早些时候,Kumar [252] 观察到 RLLM 的 SFT 通常无法促进自我完善行为。这一限制源于数据收集策略和模型响应之间的分布不匹配,以及行为崩溃的风险。为了解决这个问题,SCoRe [252] 通过在模型自己生成的校正轨迹上训练模型并采用正则化来指导学习过程来增强自我完善。这种方法优先在测试期间促进自我完善,而不仅仅是最大化特定提示的奖励 [713]。此外,Guo [155] 证明,应用结果级奖励 RL 可以触发“顿悟时刻”,激活模型的自然反馈和完善行为,而无需人工指导。此外,Guo [155]、Zeng [712] 和 Ma [367] 探索用迭代的自我验证和自我纠正行为来初始化 LLM,这些行为通过监督微调得到强化,并通过结果级 RL 得到进一步增强。Ma [367] 和 Yang [656] 利用过程级强化学习扩展这些功能,在推理过程中实现自适应推理细化,同时最大限度地减少资源使用。最近,Lee [265] 引入一个内在验证器模块来决定何时应用细化,并在检测到错误时使用强化学习进一步鼓励自我细化。
以下讨论长 CoT 的广泛探索。
探索是长 CoT 推理的一项关键能力,它允许模型通过战略分支和迭代细化来探索复杂的问题空间 [714, 271, 563, 536]。最近的研究强调探索机制,例如假设分支和通过反思进行错误回溯,对于克服线性推理路径的限制至关重要 [155]。
当前的研究重点关注几个关键领域:(1)探索规模化,研究探索的广度和深度及其对下游应用的影响;(2)内部探索,强调训练模型以开发内部探索能力;(3)外部探索,研究模型如何利用外部系统来增强其探索能力。
探索规模化
推理-时间规模化算法 [229, 598, 40] 的最新进展引起人们的极大兴趣,尤其是在规模化推理长度以提高性能方面 [364, 398, 288]。按照 Chen [66] 的说法,如图所示,探索规模化可以通过两种范式来理解:(1) 垂直规模化,类似于一串联电阻,使用反思连接多个推理过程;并行规模化,类似于并联电阻,其中统一的验证/反馈机制选择最有效的推理过程。
垂直规模化
垂直规模化是指在单个模型生成中规模化推理输出,从而显著提高模型性能 [272]。Fu [124] 和 Jaech [208] 的早期研究表明,增加推理路径的长度可以大大提高性能。在此基础上,后续研究 [214, 277] 进一步探索在固定计算预算内通过基于树搜索来增强逻辑深度,从而显著提高性能。在此基础上,Muennighoff [391] 引入一种测试时规模化方法,通过微调和预算强制来改进推理,在测试时通过额外的计算获得可观的收益。为了解决注意广度的限制,一些研究侧重于扩展潜空间中的推理长度。Geiping [136] 和 Chen [77] 通过递推深度隐式地规模化潜空间中的计算来提高测试-时推理性能。
并行规模化
并行规模化是指在模型生成过程中增加推理迭代次数,然后验证这些结果以获得最终输出的过程,这显著提高模型性能 [2, 610, 40]。最初,Wang [580] 引入了自洽性的概念,表明多次采样过程后进行多数投票可以实现有效的探索。
验证优化。近期研究的重点是优化验证,验证可分为两类:
(1)整体验证:近期研究 [783, 591] 将规模化过程分为“推理”和“自验证”两个阶段。通过用自验证取代自洽中的多数投票,这些方法显示出显著的改进 [758, 59, 800]。在代码场景中,WoT [750]、CISC [502] 和 S* [278] 并行规模化长 CoT,使用输出置信度或代码执行结果进行验证,有效评估推理质量 [449, 135]。此外,Nye [399] 和 Weir [597] 训练 RLLM 来模拟代码执行,从而无需在与代码相关的并行规模化中使用测试用例。验证链 [66] 引入元验证,对多个验证实例进行抽样以识别正确的实例。Kim [245]、Chen [78] 和 Vacareanu [535] 通过评估基于推理路径属性的答案正确性,对这种方法进行实证验证。此外,Li [301] 调整特定的 RLLM 来验证和汇总答案,显示出更好的性能。这表明,由于训练目标偏差,PRM 无法取代经过专门训练的 RLLM 进行验证 [755]。最后,Kang [236] 利用自我不确定性来选择最佳结果。
(2)步骤验证:在此基础上,许多研究人员探索步骤级或更细粒度的验证 [61, 327]。值得注意的是,DIVERSE [304]、SSC-CoT [766] 和细粒度自一致性 [66] 将多样化推理路径与步骤级验证相结合。此外,Snell [477]、Wu [610]、Luo [358]、Wang [552]、Wu [604] 和 Liu [343] 研究基于 MCTS 的最优规模化策略如何提升小型语言模型的性能。他们的研究结果表明,通过并行规模化,1B RLLM 可以在复杂任务上胜过 405B 模型 [690]。
采样优化。另一个关键研究领域侧重于生成多样化的路径或策略,以实现有效的规模化 [615, 548]。例如,Zeng [715] 聚合最短但变化最大的推理路径,以实现更好的可扩展性。同样,Du [110] 调整采样温度以增加多样性,从而提高扩展性。Zhang [734] 和 Liu [334] 优化候选解决方案的生成(如提示、温度和 top-p)和奖励机制(如自我评估和奖励类型),为并行规模化提供多样化的策略。此外,Qin [435]、Luo [361] 和 Yu [691] 通过在多种自然语言和编程语言或不同表达方式中扩展采样来增强 RLLM 推理。最后,Yang [435][660] 介绍一种方法,其中一小组具有不同响应长度的种子数据,通过在各种推理努力中选择最短的正确响应来指导模型进行更深入的推理。
内部探索
正如 Chu [91]、Shen [468] 和 Yeo [679] 所指出的,SFT 充当记忆过程,而 RL 则增强泛化能力 [253]。具体而言,SFT 稳定模型的输出格式,而 RL 提高其泛化能力,这可以在数学推理等任务中将学习效率提高多达八倍 [461]。因此,如图所示,领先的研究强调 RL 和奖励策略在无需外部帮助的情况下增强 LLM 探索能力方面的作用。
性能比较如表所示。
RL 策略
RL 探索策略的最新进展已导致各种任务,尤其是推理任务的显着改进 [490, 261, 213, 378, 621]。
(1)无奖励模型的 RL:第一系列工作侧重于 RL 优化算法。此外,OREO [555] 提出一种离线 RL 方法,该方法优化软贝尔曼方程,改进多步骤推理任务的信用分配,并超越数学和智体控制等领域的现有方法。Liu [339] 提出了直接优势策略优化 (DAPO),这是一种离线 RL 方法,它利用单独训练的评论家来评估每个推理步骤的准确性。该技术为策略优化提供密集反馈,解决稀疏奖励和训练不稳定性问题。此外,一些研究侧重于调整 RL 算法的焦点,以优化有针对性的探索。具体来说,CPL [570]、cDPO [325]、Focused-DPO [733] 和 RFTT [735] 通过偏好优化优先考虑关键或易出错的区域,从而增强长 CoT 中的探索,提高这些区域的准确性。Li [300] 引入学习影响测量 (LIM),这是一种基于训练样本与模型学习轨迹的一致性对其进行评估和优先排序的自动化方法。这种方法可以实现高效的资源利用和可扩展的实施。例如,ThinkPO [659] 使用短 CoT 推理输出作为拒绝答案,将较长的 CoT 推理输出作为同一问题的选定答案,应用 DPO 来鼓励对较长的推理输出进行优先排序。
(2)基于奖励模型的 RL:早些时候,Schulman [460] 首次引入近端策略优化 (PPO),它交替与环境交互以收集数据,并通过随机梯度上升优化替代目标函数,超越 DPO [207]。随后,ReMax [311] 消除 PPO 中对额外价值模型的需求。通过结合方差减少和 REINFORCE [494] 技术,它减少四个以上的超参,从而降低 GPU 内存使用量并加快训练速度。在此基础上,DeepSeekMath [466] 提出群相对策略优化 (GRPO),用改进的采样策略取代传统的价值模型,从而显著加速学习,并在数学上取得与 GPT-4 相当的表现。Hu [181] 用 REINFORCE++ 进一步细化 GRPO,简化算法并增强训练效果。此外,Vassoyan [537] 和 [784] 通过修改 KL 惩罚来提高较小模型的探索效率,从而提高在分布偏移下的性能。Huang [188] 引入解耦价值策略优化 (DVPO),这是一个精简的框架,它用预训练的全局价值模型 (GVM) 取代奖励建模,并消除 Actor 和 Critics 之间的相互依赖。为了满足奖励模型的高质量需求,Cui [189] 提出一种基于 DVPO 的策略优化框架。 [97] 提出 PRIME (通过隐式奖励进行过程强化),将 SFT 模型作为 PRM 集成到统一的强化学习框架中,通过策略推出实现在线更新,通过隐式过程奖励实现结果标签。最后,Yi [680] 介绍 SPPD,它采用具有动态价值边际的过程偏好学习进行自我训练。
奖励策略
规则奖励 RL。这些研究探索使用规则奖励强化学习训练高级 RLLM 的进展,以增强探索策略和推理准确性。这些努力主要集中在三种类型的奖励上:
(1) 正确性奖励:正确性奖励对于引导 RLLM 获得准确答案至关重要。具体而言,Singh [475] 引入一个二元奖励系统(正面或负面)来促进探索,实现简单而有效的性能改进。类似地,DeepSeek-R1 [155] 采用规则提取准确率作为强化学习奖励,将这种方法扩展到更大的场景和训练规模,从而增强探索和推理任务 [362, 115]。此外,O1-Coder [753]、StepCoder [107] 和 SWE-RL [596] 通过开发测试用例生成器来解决代码生成中的挑战,该生成器标准化代码测试,确保生成的准确性。
(2) 格式奖励:此外,格式奖励用于鼓励更好的推理范式。Guo [155] 引入这一概念,以有效地指导推理和探索 [622]。Xie [622] 通过三阶段基于规则的强化学习方法对此进行扩展,使 Qwen-7B 模型能够学习复杂的多路径探索,从而显著改善输出格式和相应的长度一致性。(3)规模化奖励:此外,规模化奖励用于促进更长的推理链和更广泛的探索。最近的研究 [64, 411, 243] 强调需要逐步规模化推理长度,以克服当前推理方法的局限性。因此,研究集中在规模化探索上 [622, 674]。然而,过度规模化可能导致效率低下和推理过于复杂 [96]。 Kimi-K1.5 [508] 以及 Arora & Zanette [17] 认为,倾向于更短、更准确的推理也可能显著提高效率和性能。
模型奖励 RL。它指的是一类通过利用额外的奖励模型来增强强化学习算法的技术,以指导探索和改进决策过程。2021 年早些时候,OpenAI [95] 提出一种“Gen-Verifier”范式来训练以正确性为导向的 ORM,并使用 ORM 奖励强化学习超越 SFT 性能。最近,随着 PRM 的快速发展,一些研究 [540, 725, 359] 通过步骤-级正确性奖励来增强探索,从而扩展强化学习。在此基础上,Hou [180] 引入熵奖励和动态正则化来进一步优化推理过程。STeCa [551] 通过比较步骤-级奖励并调整轨迹来改进深度推理,从而识别探索过程中的次优动作。此外,Kimi-K1.5 模型 [508] 将 PRM 范式扩展到多模态场景,通过精简的强化学习框架在多模态推理任务中实现最先进的性能。
外部探索
人工智能系统中编码策略的探索,正在通过旨在提高搜索效率和决策质量的创新框架不断推进。如图所示,外部探索策略根据流程管理分为两类:(1)人为驱动的探索,由人为定义的提示和固定管道引导;(2)模型驱动的探索,由具有动态、自适应搜索结构的模型驱动。
详细的性能比较如表所示。
人为驱动的探索
人为驱动的探索是指人为设计的用于长期探索的恒定流水线探索。多项研究强调基于提示的[234, 523, 143]、树结构[780, 668, 67, 441, 388, 33]甚至图结构[32, 520, 430, 46]搜索框架的有效性,这些框架在各种数据集上都表现出优于传统方法的性能和可扩展性。在此基础上,CodeTree [284]和Tree-of-Code [396]将基于树的结构与执行和LLM反馈相结合,利用多智体优化多阶段决策,从而改进策略规划和解决方案细化。Cheng [82]将这种方法推广到自对弈和树搜索细化(SPAR)策略,该策略生成有效、可比较的偏好对,以增强指令遵循能力。Bi [37]和Light [82]将这种方法推广到自对弈和树搜索细化策略,从而改进指令遵循能力。 [318] 将树搜索扩展为多树范式,引入了思维森林框架,该框架结合多棵推理树来提高探索能力,从而更准确地解决复杂任务。
模型驱动的探索
在先前研究的基础上,模型反馈辅助探索取得重大进展,它由模型和动态自适应搜索结构驱动,优化成为中心焦点。目前,有三个关键方向指导模型驱动的探索:
增强探索逻辑。最近的努力集中在改进迭代过程中的探索结构,以提高逻辑质量。(1)波束搜索:此前,Xie [624] 介绍一种解码算法,该算法通过随机波束搜索集成自我评估指导,将其作为更可靠的自动标准来简化推理空间中的搜索,从而提高预测质量。同样,Zhu [795] 提出演绎波束搜索 (DBS),将 CoT 和演绎推理与针对 RLLM 的分步集束搜索相结合。(2)A* 搜索:在另一个方面,Lehnert [269] 提出 Searchformer,它可以预测 A* 算法的动态,以提高任务性能并减少搜索步骤 [71]。后来,Kang [233] 提出 MindStar (M*) 框架,该框架通过波束搜索和 Levin 树搜索方法优化推理路径,进一步提高推理性能。(3)MCTS 搜索:基于 MCTS 的优势,Macro-o1 [765]、STILL-1 [222]、SRA-MCTS [630] 等一系列研究利用 MCTS 来指导更有效的探索 [731、294、230、220、773、433、414]。Xu [634] 在长 CoT 期间利用能量函数进行更好的探索。Yao [666] 进一步推进这一研究,引入集体 MCTS (CoMCTS),利用多个 LLM 之间的集体学习来增强推理能力。此外,MC-NEST [443] 集成了纳什均衡策略来平衡探索和利用,改善多步骤数学任务中的 LLM 决策。此外,CoAT [405] 使用动态相关记忆机制扩展 MCTS 算法,使系统能够在推理过程中动态存储新信息。尽管 MCTS 有诸多好处,但它常常受到过大动作空间和低效搜索策略的阻碍,这使得长 CoT 的生成变得复杂。为了解决这个问题,Lin [322] 提出限制动作空间并改进搜索策略,以促进长 CoT 的出现。最后,这些方法已经扩展到交互式环境,显著提高自动探索任务的成功率 [547, 249, 317, 628, 718, 412]。
探索路径反馈。另一种方法旨在增强奖励模型,改进推理探索和输出质量。Liu [340, 341] 提出 PPO 增强 MCTS,这是一种将优化价值模型与 MCTS 相结合的解码算法,提供简洁的反馈,显著改善推理探索和文本生成的可控性。同样,Zhang [322] 提出 PPO 增强 MCTS,这是一种将优化价值模型与 MCTS 相结合的解码算法,提供简洁的反馈,显著改善推理探索和文本生成的可控性。 [727] 提出 LLaMA-Berry,它将 MCTS 与自我优化 (SR-MCTS) 相结合,结合成对偏好奖励模型 (PPRM) 和增强型 Borda 计数 (EBC),以解决数学反馈中的得分变化和局部最优问题,尤其在奥林匹克级别的基准测试中表现出色。Xiang [619] 对此进行进一步改进,提出 AtomThink,它利用 PRM 和搜索策略来优化每个原子步骤,指导模型迭代优化其推理过程并生成更可靠的解决方案。Puri [432] 利用基于采样的 PRM 技术来探索具有一个近似似然的状态空间模型状态分布,而不是直接优化其模式。
统一的改进。最后一个方向融合探索策略和路径反馈方面的进展。具体来说,Guan [151] 引入一种多步骤迭代学习方法,通过 MCTS 和自我进化过程优化 PRM 和 RLLM,显著提高数学推理能力。同样地,Lee [268] 和 Kim [242] 提出一种增强深度推理、探索和响应细化的范式,进一步提高 RLLM 性能。QLASS [326] 和 DQO [335] 构建探索树,并使用基于 Q 值的奖励模型进行逐步指导,提高大搜索空间中的反馈效率 [296, 156]。Zeng [717] 提出,在长 CoT 中的广泛探索中,RLLM 总是会迷失方向,因此他们引入一个贴纸(sticker)来进一步提高探索效果。
训练资源讨论如下。
开源训练框架
一系列开源训练框架为研究人员和开发人员提供优化训练和增强推理的工具。每个框架都建立在不同的设计原则和特性之上。早期的框架,如 SimpleRL [712] 和 DeepScaler [359],迅速复制 R1 的技术堆栈。其他框架,如 X-R1 [519] 和 TinyZero [406],则强调以低于 50 美元的价格提供直观的“顿悟时刻”体验。Open-Reasoner-Zero [183] 使用 32B 模型复制 DeepSeek-R1-zero 训练方案,并取得类似的性能。此外,LLM Reasoner [161] 提供工具来帮助研究人员调整外部探索策略。OpenR [557]、OpenRLHF [182]、OpenR1 [507] 和 Logic-RL [622] 等框架增强文本模态深度强化学习中长 CoT 的复制。 R1-V [62]、R1-Multimodal-Journey [465]、VL-Thinking [57]、VLM-R1 [467]、Open-R1-Multimodal [255] 和 Video-R1 [518] 将 R1 框架扩展到多模态设置,实现跨模态 R1 类强化学习训练。这些框架通过开源共享,加速学术研究的进展,增强业界高效应用大规模语言模型和推理算法的能力。它们为基于深度学习的推理和多模态处理提供宝贵的资源和技术支持,助力大规模基于长 CoT 的 RLLM 的训练和应用。
开源训练数据
为了促进社区更好地实施长 CoT,收集一套全面的常用开源训练数据集。如表所示,这些数据集主要分为四类:人工标注、直接蒸馏、基于搜索的蒸馏和经过验证的蒸馏。它们涵盖数学、科学、医学、代码和通用领域等各个领域。人工标注数据集(如 R1-OneVision 和 Big-Math-RL-Verified)包含 8K 到 250K 个示例,融合人工规则和标注。直接蒸馏数据集(如 NaturalReasoning 和 NuminaMath-CoT)利用大型预训练模型(如 Llama3.3-70B 和 GPT-4o),提供数百万个示例,主要涉及语言。基于搜索和经过验证的蒸馏数据集(包括 STILL-1 和 KodCode-V1)将结构化数据与验证技术相结合,确保使用高质量、经过验证的资源。这个多样化且全面的数据集有助于提高不同领域的模型性能。
前沿与未来方向讨论如下。
如图所示,长 CoT 的六个关键前沿和未来方向如下:
(1)多模态长 CoT,整合多种输入输出模态;
(2)多语言长 CoT,支持跨语言应用;
(3)智体与具身长 CoT,通过具身系统增强现实世界交互;
(4)高效长 CoT,提高推理速度;
(5)知识增强长 CoT,利用外部知识丰富推理;
(6)长 CoT 的安全性,确保可靠性并最大限度地降低出错的可能性。