Gemini Thinks Faster
谷歌模型更新情况
-
背景与目的:谷歌更新了Gemini 2.0系列模型,推出了Gemini 2.0 Flash Thinking Experimental 1-21等,试图在与OpenAI的o1和DeepSeek的R1等模型的竞争中取得优势,提升自身在推理领域的地位和影响力。
-
模型发布情况:谷歌推出了多个Gemini 2.0版本模型。其中,Gemini 2.0 Flash Thinking Experimental 1-21目前处于实验阶段,可通过API免费访问,Gemini 2.0 Flash已走出实验阶段,Gemini 2.0 Pro Experimental为新发布的实验版本,Gemini 2.0 Flash Lite也已开启预览。
Gemini 2.0 Flash Thinking Experimental 1-21的特点与优势
-
基础信息:是基于Gemini 2.0 Flash Experimental的视觉语言模型,输入为图像和文本,输出为文本,能生成结构化推理过程或思维链。
-
上下文窗口:可处理高达100万个tokens的输入上下文,远超Gemini 2.0 Flash的32,000和o1的128,000。
-
推理输出呈现:与DeepSeek-R1和Qwen QwQ类似,会在输出中包含推理过程,不像o1隐藏思维链。
-
考试与测试表现
-
在GPQA-Diamond考试:在研究生水平的科学考试GPQA-Diamond中,成绩从旧版本的58.6%提升到74.2%,超过了DeepSeek-R1的71.5%,但略逊于o1的77.3%。
-
在AIME 2024基准:在2024年的高级数学基准AIME上,成绩从之前版本的35.5%提升到73.3%,落后于DeepSeek-R1的79.8%和o1的74.4%。
-
在MMMU测试:在视觉和多媒体理解测试MMMU中,达到75.4%,优于前一版本的70.7%,但低于o1的78.2%。
-
-
开发支持:开发者可通过API集成Python代码执行,借助预安装库支持数据分析和可视化。
模型存在的挑战与限制
-
成本与延迟问题:训练生成思维链的大语言模型在提高准确性的同时,增加了推理成本和延迟。目前虽无Gemini 2.0 Flash Thinking Experimental 1-21速度的可靠数据,但已知其基础模型运行速度比除o1-mini外的同类模型快。
-
性能有待提升:尽管该模型在多个基准测试中有所进步,但在部分测试中仍未超越o1等竞争对手,还有提升空间。
模型的意义与影响
-
潜在应用价值:结合思维链推理和长上下文能力,如果能充分利用100万tokens的上下文窗口,可能会在诸多领域有重要应用,比如分析整个代码库。
-
用户偏好体现:在撰写本文时,该模型在Chatbot Arena排行榜上名列前茅,表明至少在日常常见提示方面,用户对其偏好度高于o1和DeepSeek-R1。