【产品分析】语音交互在产品设计中的价值

文章目录

前言
语音交互的特点
- 优势
- 劣势
语音交互的应用发展
- Siri 与语音助手
- 智能音箱与智能家居
- 智能语音芯片与智驾
- 语音转文字与大语言模型
语音交互产品形态的思考

前言

语音交互，是一种基于语音识别和自然语言处理技术的人机交互方式。它允许用户通过语音命令与设备或系统进行交互，并获得相应的反馈或执行相应的操作，从而完成特定的任务或获取所需的信息。

随着人工智能和物联网技术的发展，语音交互已经成为一种重要的交互方式，广泛应用于智能家居、智能汽车、智能穿戴设备、移动支付等领域。这种交互方式不仅能够提升用户体验，还具有提高效率和便捷性的优势。

语音交互的基础是语音识别、语义理解、自然语言处理等，这些技术和算法都在持续发展中。基于目前的技术水平，本文从产品的角度浅谈语音交互在产品设计中的价值。

语音交互的特点

首先我整理了一下，语音作为一种交互的手段，所具备的一些特点。这些特点往往和当下的技术水平是相关的，也可能会因为技术的进步而发生一些变化。

优势

附加：有时用户的手和眼睛是忙碌的，此时嘴巴和耳朵作为补充的感官能力，可以实现额外的任务，典型场景如开车、做饭等
口气：语音中往往带有口气、语调等额外的信息，这是文字所不具备的，能够传达出说话人的态度、情绪等，对于产品为用户提供针对性的服务也有很大的意义
高效：语音输入比文字输入来的更高效，如果能保证输入的准确性，那么当用户需要输入大段内容的时候，语音将是更好的选择
自然：语音比键盘打字来得更自然，几乎每个人都要学习说话，但不一定每个人都能很好地打字，所以对于老人和儿童而言，语音有着天然的优势

劣势

隐私：说话就一定会被听到，在公共场合通过语音进行交互很难保证隐私性，也容易让用户有一种羞耻感
鉴权：并不是通过语音完全没有办法进行鉴权，因为每个人的声纹是不同的，但通过语音进行鉴权，远比指纹人脸要复杂
模糊：人的语言有随意性，同样一个意思，在不同时候可能会用不同词语和句式来表达。这必然导致语音交互比手指点按要模糊
上下文：人类的沟通中，对话是常态。语音交互中的很多信息需要通过上下文来获取，有一些上下文甚至不是在这一次对话中出现的，这也加大了语音交互的复杂性
方言：文字有更大范围的统一性，口语的地方性就要强的多，目前针对方言的语音识别技术成熟度不足，这也导致了语音交互的应用范围受限
麻烦：在优势中我们提到语音比文字输入更高效，但在用户的实际场景中，用户还可以通过手指和眼睛，来实现复杂得多的交互，在不少情况下要比语音要方便
低效：依然是和文字进行对比，阅读可能会比聆听更加高效

语音交互的应用发展

Siri 与语音助手

2011年，苹果的Siri语音助手横空出世，它的前身是一款语音助手应用，被苹果花费 2 亿美金收购，这也代表着乔布斯对人工智能的未来充满憧憬。
早期的 Siri 团队甚至有一个名为 “App Store for AI” 的计划，从而基于 Siri 的语音交互建立一个第三方生态系统。随后整个团队经历了平频繁而大量的变动，产品思路也有了非常多的调整，Siri 给大家带来的惊喜越来越少，产品迭代速度也显然不足。

对 Siri 的发展，可以用“起个大早、赶个晚集”来形容。我想 Siri 目前的不成功与很多因素都相关，早期的语音交互大部分是服务器来完成语义识别的收到，这涉及到服务稳定、用户隐私、无网使用等多种复杂的情况。
结合前面我们分析到的语音交互的优势和劣势，我们也容易得知，Siri的使用场景并没有那么广泛，针对Siri的生态进行开发的开发者必然也会更少。
用户大概也不会因为Siri的功能非常完善，就选择苹果的手机。更何况实现一个全能的语音助手，难度实在是太大了。

因此产品发展的速度不足就容易理解了。

智能音箱与智能家居

2014年，亚马逊发布了智能音箱 Amazon echo，并实现了15年出货250万台，2016年出货520万台；随后国外的Google，国内的百度、小米、阿里等多个厂商都发布了相应的智能音箱产品。
其间智能音箱的产品也发生了大量的迭代升级，从最开始简单的一个小喇叭，升级到带屏的音箱，简直如同一个带屏的电视盒子、一个音质很好的平板。

每一家智能音箱都在努力发展音箱的技能，这和Siri未能实现的“App Store for AI”计划如出一辙。不幸的是，我们看到这些应用市场里往往没有非常大量的活跃开发者，应用的质量也堪忧。
由于音箱通常放在家中使用，几乎所有智能音箱厂商也都打起了智能家居的算盘。
但结果显而易见：语音控制并未给智能家居带来飞跃式的体验提升，互联互通以及自动化控制到现在为止也没有成为智能家居的主要卖点，或者说这部分的体验也并不足够好。

我们也发现了语音控制的诸多弊端，与语音助手遇到的问题相同，通过语音控制智能家居，目前还没有办法实现特别复杂的指令。
口语的随意性也为设备的精确控制：当我在主卧的桌子上放了一个台灯，我可能会称呼它为台灯、桌上的灯、写字灯、护眼灯，程序如何识别出这些都是同一个设备呢的？这样的问题也比较难解决。
再者，语音控制似乎并没有那么便捷，但我希望控制这个台灯的亮度和色温时，或许点击设备上的一个物理按键会更加直观而方便。当智能音箱带来的意义仅仅停留在“酷”这个层面上，就必然难以持续为用户带来价值。

智能音箱的市场经历了快速的发展，2021年全球智能音箱的出货量达到1.5亿台，但增长也基本见顶，近年来智能音箱似乎一点也不酷了，大家越来越少的提起智能音箱。

智能语音芯片与智驾

智能音箱的兴起同样带来了智能语音芯片的长足发展。
云知声，思必驰、出门问问等专注于语音和对话的公司，推出了种类繁多的语音芯片，通过终端设备内嵌的芯片，就可以实现音频采集、信号处理、语音识别、语义理解、对话管理、语音合成等多种任务，形成了离线智能语音芯片。

而上边提到的大多数功能，在离线智能语音芯片出现之前，还都需要云端服务器来实现。
当这些功能可以通过本地来实现而无需联网，服务的成本就能极大降低。
对于一些难以联网或网络环境不稳定的场景，离线智能语音芯片的加入也使一些应用变得可能。

越来越多的物联网设备开始内嵌智能语音芯片，目前我们能看到最成功的产品落地，应该是发生在智能汽车领域。
汽车座舱天然适合使用语音交互，它具备如下几个特征：

首先是空间比较简单，没有太多的人，对鉴权的要求也不高，更不用考虑多设备协同的事情
其次开车的时候，人的手和眼睛都无法进行别的操作，语音交互就变成了更好的选择
再者车上的需求比较简单，在目前的语音技术背景下，绝大多数用户需求都能被满足

离线智能语音芯片的短板也很明显，那就是对于语义的理解还相对简单，很难实现结合上下文完成复杂操作的任务。

语音转文字与大语言模型

2022年ChatGPT 3.5发布，开启了大语言模型的迸发式发展，人工智能进入一个新的发展阶段。

早在大语言模型面世之前，大家就已经在语音识别技术领域深耕多年，很多厂商都提供了成熟的 ASR（Automatic Speech Recognition，智能语音识别）服务很多，其作用是将人类的语音转换为可编辑的文本或数据。
随着 NLP、声纹识别等技术的进步，ASR 还可以做到角色识别、情绪识别、根据上下文订正文本等功能。
和消费者距离最近的ASR的应用，大概就要数输入法和微信等软件的语音转文字功能了。

随着大语言模型的加入，机器对自然语言的理解达到了一个新的水平，通常来讲，说话比打字要快得多，大语言模型的加入，让大家对语音助手又多了很多畅想。
我们也看到一些极客和达人通过融合Siri、Workflow和ChatGPT DIY 了自己的语音助手，其中让我非常惊讶的包括：

通过语音碎片化地录入笔记并完成整理
更加灵活有效的智能家居控制
类似电影《Her》中的聊天陪伴机器人

当然目前的问题依然是大语言模型对算力有巨大依赖，手持设备通常不具备足够的能力，因此相关服务还需要依赖云端来完成。
如果有一天我们的手持设备也具备了相当强的计算能力，或者是大语言模型对算力的要求出现指数级的降低，那么我相信语音交互会有更大的想象空间。

语音交互产品形态的思考

我还是用“帮什么人在什么场景下解决什么问题”的方式来思考这个问题：

用户
- 对于儿童而言，语音交互会是更自然的一种模式，因此在很多面向幼儿提供的产品上，语音交互是具有优势的
- 现阶段有浓重口音的人群可能在使用过程中会遇到问题
场景
- 语音交互的使用场景往往需要安静，并在一定程度上是封闭的
- 与此同时，语音交互应该是最方便的形式：例如用户的眼睛和手无法参与当下任务
- 正如上文提到的，私家车内、厨房、浴室等可能是比较时候语音交互的场所
任务
- 把语音输入作为媒介转换成文字，无疑是可以完成的，借助大语言模型，就能在文字的基础上完成更多的任务，例如搜索、总结等
- 标准而简单的任务可以通过语音来实现，甚至可以通过一些对话的方式来完成引导，用户只需要回答“是否”、“要不要”就能完成最好
- 语音作为一种反馈机制，有自己的一些优势，我们甚至可以通过口气和音调来加入一些文字不具备的信息

大家对语音交互终极形态的畅想，通常是一个可以对话的全能服务者，它像一个中介和分流器，同时连接着多个专家，它们是我工作中的秘书、家庭中的管家、诊所中的医生、健身房的教练、度假地的向导。

对此我还是抱有悲观的态度，因为上述我们提到语音交互的特点，导致在很多具体场景下无法简单通过语音交互就完成任务。
例如我想去新疆旅游，我需要知道新疆有哪些地方好玩，有什么好吃的东西，怎么结合我的时间安排行程，这些都很难只通过语音交互完成。
更别提语音助手几乎不可能知道我这次的整体预算是多少，想在各个项目上分配多少，我的安排里是否有同行人，我的同行人又是什么想法。
这显然也不是大语言模型技术能够解决的。

所以目前我对语音交互的理解，依然是一些特定场景下的补充。如果现在问我什么会带来交互的飞跃式发展，我相信那应该是脑机接口的发展。