欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 新闻 > 国际 > Search-R1 、 R1-Searcher 和 Search-O1

Search-R1 、 R1-Searcher 和 Search-O1

2025/3/15 16:54:41 来源：https://blog.csdn.net/galileo2016/article/details/146267919 浏览: 次关键词：Search-R1 、 R1-Searcher 和 Search-O1

原文链接:https://i68.ltd/notes/posts/20250307-search-r1/

Search-R1

DeepSeek团队开发的SEARCH-R1模型通过强化学习，让AI学会了自主搜索信息并将其与推理过程无缝结合，性能提升高达26%
高效、可扩展的RL训练框架，用于推理和搜索引擎调用，基于veRL的交错LLM
论文链接:https://arxiv.org/pdf/2503.09516v1
项目仓库:https://github.com/PeterGriffinJin/Search-R1
Search-R1: 让AI学会搜索引擎互动，推理能力大幅提升26%

核心创新:通过强化学习让模型自主学习如何与搜索引擎交互

革命性的交互式搜索推理框架

SEARCH-R1将搜索引擎视为环境的一部分，使AI能够在推理过程中自主发起搜索请求。具体来说：

1）模型使用和标记触发搜索调用

2）检索内容被封装在和标记中

3）模型的思考步骤包含在和标记内

4）最终答案使用和标记呈现

这种结构化设计让模型能够进行多轮交错的推理与搜索，大大提升了解决复杂问题的能力。

稳定可靠的训练策略

SEARCH-R1采用了几项关键技术来确保训练稳定：

1）检索令牌掩码：仅对模型生成的内容进行优化，避免对检索内容的不当学习

2）简单有效的奖励函数：基于最终结果的准确性进行奖励，避免了复杂的过程奖励设计

3）兼容多种强化学习算法：支持PPO和GRPO等主流强化学习方法

实验结果：碾压现有方法

研究团队在七个问答数据集上进行了全面测试，结果令人振奋：

1）Qwen2.5-7B：性能提升26%

2）Qwen2.5-3B：性能提升21%

3）LLaMA3.2-3B：性能提升10%

R1-Searcher 通过强化学习激励LLMs中的搜索能力

R1-Searcher采用两阶段强化学习方法，增强LLMs的搜索能力。
通过强化学习激励LLMs在推理过程中主动调用外部搜索系统，从而获取必要的知识来解决复杂问题。
与以往的方法不同，R1-Searcher框架完全依赖于RL，不需要过程奖励或通过蒸馏进行冷启动。
论文链接:https://arxiv.org/pdf/2503.05592
项目仓库:https://github.com/SsmallSong/R1-Searcher
R1-Searcher告别SFT,强化学习提升LLM推理能力300%
R1思考+RAG = R1-Searcher

search-o1 增强的大规模推理模型

通过代理检索增强生成（RAG）机制和文档中推理模块来增强LRM的框架，用于深入分析检索到的文档并将其集成到推理链中
论文链接:[2501.05366] Search-o1: Agentic Search-Enhanced Large Reasoning Models
项目仓库:https://github.com/sunnynexus/Search-o1
HuggingFace:https://huggingface.co/papers/2501.05366
大&清华提出Search-o1：赋予推理模型主动搜索的能力
Search-o1 升级：主动搜索+知识整合，推理能力更强！

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词