欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 能源 > Gemini Thinks Faster

Gemini Thinks Faster

2025/2/21 3:19:34 来源:https://blog.csdn.net/qq_22337877/article/details/145642984  浏览:    关键词:Gemini Thinks Faster

Gemini Thinks Faster

谷歌模型更新情况

  • 背景与目的:谷歌更新了Gemini 2.0系列模型,推出了Gemini 2.0 Flash Thinking Experimental 1-21等,试图在与OpenAI的o1和DeepSeek的R1等模型的竞争中取得优势,提升自身在推理领域的地位和影响力。

  • 模型发布情况:谷歌推出了多个Gemini 2.0版本模型。其中,Gemini 2.0 Flash Thinking Experimental 1-21目前处于实验阶段,可通过API免费访问,Gemini 2.0 Flash已走出实验阶段,Gemini 2.0 Pro Experimental为新发布的实验版本,Gemini 2.0 Flash Lite也已开启预览。

Gemini 2.0 Flash Thinking Experimental 1-21的特点与优势

  • 基础信息:是基于Gemini 2.0 Flash Experimental的视觉语言模型,输入为图像和文本,输出为文本,能生成结构化推理过程或思维链。

  • 上下文窗口:可处理高达100万个tokens的输入上下文,远超Gemini 2.0 Flash的32,000和o1的128,000。

  • 推理输出呈现:与DeepSeek-R1和Qwen QwQ类似,会在输出中包含推理过程,不像o1隐藏思维链。

  • 考试与测试表现

    • 在GPQA-Diamond考试:在研究生水平的科学考试GPQA-Diamond中,成绩从旧版本的58.6%提升到74.2%,超过了DeepSeek-R1的71.5%,但略逊于o1的77.3%。

    • 在AIME 2024基准:在2024年的高级数学基准AIME上,成绩从之前版本的35.5%提升到73.3%,落后于DeepSeek-R1的79.8%和o1的74.4%。

    • 在MMMU测试:在视觉和多媒体理解测试MMMU中,达到75.4%,优于前一版本的70.7%,但低于o1的78.2%。

  • 开发支持:开发者可通过API集成Python代码执行,借助预安装库支持数据分析和可视化。

模型存在的挑战与限制

  • 成本与延迟问题:训练生成思维链的大语言模型在提高准确性的同时,增加了推理成本和延迟。目前虽无Gemini 2.0 Flash Thinking Experimental 1-21速度的可靠数据,但已知其基础模型运行速度比除o1-mini外的同类模型快。

  • 性能有待提升:尽管该模型在多个基准测试中有所进步,但在部分测试中仍未超越o1等竞争对手,还有提升空间。

模型的意义与影响

  • 潜在应用价值:结合思维链推理和长上下文能力,如果能充分利用100万tokens的上下文窗口,可能会在诸多领域有重要应用,比如分析整个代码库。

  • 用户偏好体现:在撰写本文时,该模型在Chatbot Arena排行榜上名列前茅,表明至少在日常常见提示方面,用户对其偏好度高于o1和DeepSeek-R1。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词