欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 国际 > Search-R1 、 R1-Searcher 和 Search-O1

Search-R1 、 R1-Searcher 和 Search-O1

2025/3/15 16:54:41 来源:https://blog.csdn.net/galileo2016/article/details/146267919  浏览:    关键词:Search-R1 、 R1-Searcher 和 Search-O1

原文链接:https://i68.ltd/notes/posts/20250307-search-r1/

Search-R1

  • DeepSeek团队开发的SEARCH-R1模型通过强化学习,让AI学会了自主搜索信息并将其与推理过程无缝结合,性能提升高达26%
  • 高效、可扩展的RL训练框架,用于推理和搜索引擎调用,基于veRL的交错LLM
  • 论文链接:https://arxiv.org/pdf/2503.09516v1
  • 项目仓库:https://github.com/PeterGriffinJin/Search-R1
  • Search-R1: 让AI学会搜索引擎互动,推理能力大幅提升26%

核心创新:通过强化学习让模型自主学习如何与搜索引擎交互

  • 革命性的交互式搜索推理框架

SEARCH-R1将搜索引擎视为环境的一部分,使AI能够在推理过程中自主发起搜索请求。具体来说:

1)模型使用和标记触发搜索调用

2)检索内容被封装在和标记中

3)模型的思考步骤包含在和标记内

4)最终答案使用和标记呈现

这种结构化设计让模型能够进行多轮交错的推理与搜索,大大提升了解决复杂问题的能力。

  • 稳定可靠的训练策略

SEARCH-R1采用了几项关键技术来确保训练稳定:

1)检索令牌掩码:仅对模型生成的内容进行优化,避免对检索内容的不当学习

2)简单有效的奖励函数:基于最终结果的准确性进行奖励,避免了复杂的过程奖励设计

3)兼容多种强化学习算法:支持PPO和GRPO等主流强化学习方法

实验结果:碾压现有方法

研究团队在七个问答数据集上进行了全面测试,结果令人振奋:

1)Qwen2.5-7B:性能提升26%

2)Qwen2.5-3B:性能提升21%

3)LLaMA3.2-3B:性能提升10%

R1-Searcher 通过强化学习激励LLMs中的搜索能力

  • R1-Searcher采用两阶段强化学习方法,增强LLMs的搜索能力。
  • 通过强化学习激励LLMs在推理过程中主动调用外部搜索系统,从而获取必要的知识来解决复杂问题。
  • 与以往的方法不同,R1-Searcher框架完全依赖于RL,不需要过程奖励或通过蒸馏进行冷启动。
  • 论文链接:https://arxiv.org/pdf/2503.05592
  • 项目仓库:https://github.com/SsmallSong/R1-Searcher
  • R1-Searcher告别SFT,强化学习提升LLM推理能力300%
  • R1思考+RAG = R1-Searcher

search-o1 增强的大规模推理模型

  • 通过代理检索增强生成(RAG)机制和文档中推理模块来增强LRM的框架,用于深入分析检索到的文档并将其集成到推理链中
  • 论文链接:[2501.05366] Search-o1: Agentic Search-Enhanced Large Reasoning Models
  • 项目仓库:https://github.com/sunnynexus/Search-o1
  • HuggingFace:https://huggingface.co/papers/2501.05366
  • 大&清华提出Search-o1:赋予推理模型主动搜索的能力
  • Search-o1 升级:主动搜索+知识整合,推理能力更强!

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词