重磅惊喜!
今天,在MadeByGoogle发布会上,谷歌公布了 AI语音助手 Gemini Live,对标的正是GPT-4o,而且是两周前开放测试的语音模式。
Gemini Live 可以进行顺畅的语音交流,听从语音指令,可以随时打断对话、稍后继续对话。
谷歌在发布会中提到,Gemini Live 有10条声线,支持自由对话、打断AI说话、以及免提播放等等。
更惊艳的是,Gemini Live 深度集成到安卓系统里,只需要长按电源键或者说“OK Google”,就能唤起Gemini Live,能实现屏幕读取、内容感知等。
如同集成到苹果系统里的Siri一样,Gemini Live 也是以语音助手的形态呈现出来的。
Gemini Experiences和Google Assistant的副总裁兼总经理Sissie Hsiao强调:
AI的发展能引起人们重新思考:助理到底能提供什么帮助?通过这些更新,Gemini将以语音助手的形式,提供更直观和对话式的体验,使其成为复杂任务的可靠伙伴。
此外,Gemini Live 还能与所有的Google应用和工具进行集成,实现跨软件交互、图片识别等。
例如,给Gemini发音乐会传单的信息,要求它查看日历上当天是否有待办事项,来判断自己有没有空去音乐会。
还可以让Gemini设置待办,晚上七点看一下门票价格。
这个上下文记忆功能是真的强大啊!
还可以话锋一转,让Gemini把浓咖啡的原料,添加到Keep购物清单中。
不需要描述太多细节,Gemini就能get到你想要什么。但这个功能需要过几周才能上线。
我想我知道为什么要过几周才能上线,因为谷歌自己都没调试好这个功能!
你看,发布会的实机演示就翻车了,还翻车了两次:
谷歌,你们是不是线下没商量好?还不如只放个视频演示上来呢!
已向Google Advanced用户开放测试
现在,这个语音功能已经向订阅Google Advanced的用户开放测试,暂时仅支持英文交流,且只有安卓手机能优先体验。谷歌宣称,在未来几周后苹果用户也能使用,并将开放更多语言。
虽然谷歌的语音功能上线得晚,但是它开放的早呀!OpenAI的语音功能还在小范围测试,完全开放还需要等到秋季(但谁也不知道,到底是早秋还是晚秋 )。
此外——
这个发布会不仅是语音功能比较惊艳,还有谷歌的新手机Pixel 9 。相比于上一代Pixel 8,它搭载了更先进的设备端AI模型,更快的响应速度、更多的AI功能,遥遥领先。
想具体领略一下它的魅力,请看VCR:
就是这个手机背面的摄像头,有点丑……
美好愿景
这里还有一些更长期的对未来的展望,Gemini未来还会推出多步骤连续推理功能,可以实现AI高级代理:全自动做计划,用Google Doc整合整合信息做成报告,成为用户、组织、企业的自动化研究助理。
比较恐怖的是,这些展望并没有那么遥远,它们就会在未来几个月内落地实现。
剩下的就是一些客套话了。比如AI的新功能也会带来新的挑战呀,我们会继续注重于服务效率和质量呀,未来继续加油呀,等等等等。
是每家发布会都会走的一些必备流程。
但,谷歌的发布会已经惊吓到我的小心脏了,虽然很多东西都是展望、期货,但至少Gemini Live是现在就能用的新玩意。
而且,很多期货内容(例如AI高级代理),也能吓死一堆小型创业公司了。
别总是吊在只会画“草莓”饼的OpenAI上了。