听见文本的魅力：AI 与未来的语音交互

AI 与未来的语音交互

- - 引言
  - 什么是文本转语音（TTS）？
  - 当前 TTS 技术现状
  - 国内海外文本转语音能力调研
  - 文本转语音能力说明
  - - 多情感风格
    - SSML语音合成标记语言
  - 未来趋势

引言

随着人工智能（AI）技术的迅猛发展，文本转语音（Text-to-Speech, TTS）技术逐渐进入了我们的日常生活中。
已广泛应用于不限于以下示例场景：

流式语音实时翻译对话；
非流式语音对话机器人一问一答式对话；
类似豆包、Kimi等AI工具的智能助手；
用户友好的功能引导提示；
游戏NPC交互；
儿童读物；
影视配音；
电子书；
…

什么是文本转语音（TTS）？

文本转语音（TTS）是一种将书面文本转换为语音的技术。用户可以通过输入文本，利用 TTS 系统生成听起来自然流畅的语音。TTS 系统通常由以下几个主要组件组成：

文本分析：解析输入的文本，识别分词、语法、标点和其他语言特征。
语言处理：根据语言特征，将文本转换为音素（phonemes）和音节（syllables）。
语音合成：将音素和音节转换为实际声音，通常采用预录音频或合成方式。

当前 TTS 技术现状

神经网络与深度学习：近年来，随着神经网络和深度学习技术的突破，TTS 的质量得到了显著提升。尤其是 WaveNet、Tacotron 和 FastSpeech 等模型，在合成的自然度和表现力上远超传统 TTS 系统。这些模型能够生成更加流畅、自然的语音，甚至模仿特定说话者的音色。
多语言支持：现代 TTS 系统已支持多种语言，适应全球用户需求。许多大厂商的 TTS 技术能够处理包括中文、英文、西班牙文等多种语言，并且提供不同地区的口音和方言。
个性化语音：个性化语音合成技术的出现，使得用户可以定制语音特征，如音调、语速和情感风格。这种个性化的体验在教育和娱乐等领域尤为重要。

国内海外文本转语音能力调研

三方厂商服务	多音色	SSML标记语言	多情感Emotion	语速rate	音调pitch	音量volume	API	价格	备注
出门问问魔音工坊	是	是	是	是	是	是	是	标准音色：100元/百万字符；精品音色：300元/百万字符	支持多情感，国内语音合成效果非常好的一款产品，英文语音效果亦佳
阿里云TTS	是	是	是	是	是	是	是	1.80元/千次	部分中文音色支持多情感，英文音色不支持多情感
腾讯云语音合成	是	是	否	是	是	是	是	标准音色：0.2元/万字符；精品音色：0.3元/万字符	英文不支持多情感
火山云语音技术	是	是	否	是	是	是	是	5.5元/千次	慵懒女声-Ava、情感女声-Lawrence、亲切女声-Anna支持通用、开心、悲伤、生气、害怕、厌恶、惊讶等情感。男声不支持多情感
科大讯飞TTS	是	是	是	是	是	是	否	1、会员月/45元，权益-80次/天；2、单次付费1_{20字5元；21}50字10元；51_{100字20元；101}300字30元；301_{1000字45元；1001}5000字78元；5001~20000字168元；	图形化操作不支持API，英文不支持多情感
Elevenlabs	是	否	否	是	否	否	是	$99/500min；$330/2000min/	英文场景优先推荐，英文音色效果很好；多情感需要文本中包含情感描述，导致合成语音存在情感描述。对情感类支持灵活性低。
Google Cloud	是	是	否	是	是	是	是	标准语音：$4.00/100万字符Neural2 语音：$16.00/100万字符	英文语音效果好，可通过SSML实现语音控制
Azure AI	是	是	是	是	是	是	是	$15.00/100万字符	英文场景优先推荐，英文音色效果很好；支持多情感音色
AWS Polly	是	是	否	是	是	是	是	标准语音：$4.00/100 万字符；神经语音：$16.00/100 万字符	多情感，只能通过选择不同的音色，配置不同的语速和语调，来表达积极或失落的情感
ArtList	是	否	是	是	否	否	否	$11.99/月，50,000积分（约1个小时音频）	语音效果较好。支持多情感，但情感分类较少。图形化操作不支持API
Play.ht	是	否	否	是	否	否	是	$49.00/月，25万字符	需要通过声音参数表现力稳定性、声音相似性、情绪强度来调整语音设置；类似elevenlabs，对情感类支持灵活度较低。

文本转语音能力说明

在这里插入图片描述
此处以出门问问的序列猴子开放平台音色为例，介绍下音色主要的能力。
首先音色有分类，男声、女声、儿童、青年、中年、老年、中文、英文、韩语、法语这些最基本的大类。

音色
每个人的音色都不一样，不同的AI音色也不一样
语速
控制指定音色制作语音讲话的快慢
音调
控制指定音色制作语音的音调大小
音量
控制指定音色制作语音的音量大小

多情感风格

然后重要介绍下音色的多情感风格，训练出一款好的AI音色不局限于一种中性风格。例如出门问问会支持开心、难过、惊喜、生气、呢喃、新闻等各种情感色彩；Azure会支持友好、充满希望、柔和等情感风格；
一个普通的AI模型是没有感情色彩的，通常为中性，通过中性音色制作的语音，听起来有明显的AI感、机械化没有感情色彩。一个支持多情感的音色，是可以处理短文故事文案中各种复杂场景的，且语音合成没有AI感，更接近真实的人声。

此处以Azure AI语音Style为例。

情感风格	风格描述
friendly	表达一种愉快、怡人且温暖的语气。听起来很真诚且满怀关切。
hopeful	表达一种温暖且渴望的语气。听起来像是会有好事发生在说话人身上。
whispering	表达一种柔和的语气，试图发出安静而柔和的声音。
empathetic	表达关心和理解。
chat	表达轻松随意的语气。
serious	表达严肃和命令的语气。说话者的声音通常比较僵硬，节奏也不那么轻松。
excited	表达乐观和充满希望的语气。似乎发生了一些美好的事情，说话人对此满意。

SSML语音合成标记语言

正常语音合成输入纯文本即可，语音合成引擎内部会使用基于规则或者统计学习模型的方法，去做文本分析，尝试预测合理的注音和韵律等。
使用SSML标签标记文本中的关键文字，可以指定文字的发音、语速、停顿、多音字处理、情感风格等。提到这些功能，大概可以知道SSML标签可以更加细化的控制我们的语音合成效果。实际生产过程中对制作语音要求高的场景，往往建议你通过SSML标签来控制。

示例：

9月10日，庆祝2019年教师节暨全国教育系统先进集体和先进个人表彰大会在京举行。
XXX在XXX亲切会见受表彰代表，向受到表彰的先进集体和先进个人表示热烈祝贺，向全国广大教师和教育工作者致以节日的问候。

文本转语音API调用：

{"signature": "appkey+secret+timestamp的MD5值","timestamp": "1665717322","appkey": "开发者应用appkey","speaker": "cissy_meet","ignore_limit": true,"gen_srt": true,"audio_type": "mp3","text": "9月10日，庆祝2019年教师节暨全国教育系统先进集体和先进个人表彰大会在京举行。
XXX在XXX亲切会见受表彰代表，向受到表彰的先进集体和先进个人表示热烈祝贺，向全国广大教师和教育工作者致以节日的问候。","speed": "1.0"
}

SSML标签处理后示例：
此处对"教师节"制定了读音及读第几声。通过break控制停顿500ms。更多能力请参考官方文档语音合成标记语言SSML使用说明

<speak version="1.0" xml:lang="zh-CN" xmlns="http://www.w3.org/2001/10/synthesis">9月10日，庆祝2019年<w phoneme="jiao4 shi1 jie2">教师节</w>暨全国教育系统先进集体和先进个人表彰大会在京举行。<break time="500ms" />XXX在XXX亲切会见受表彰代表，<break time="500ms" />向受到表彰的先进集体和先进个人表示热烈祝贺，<break time="500ms" />向全国广大<p phoneme="jiao4">教</p>师和教育工作者致以节日的问候。</speak>

文本转语音API调用：

{"signature": "appkey+secret+timestamp的MD5值","timestamp": "1665717322","appkey": "开发者应用appkey","speaker": "cissy_meet","ignore_limit": true,"gen_srt": true,"audio_type": "mp3","text": "<speak version=\"1.0\" xml:lang=\"zh-CN\" xmlns=\"http://www.w3.org/2001/10/synthesis\">9月10日，庆祝2019年<w phoneme=\"jiao4 shi1 jie2\">教师节</w>暨全国教育系统先进集体和先进个人表彰大会在京举行。<break time=\"500ms\" />XXX在XXX亲切会见受表彰代表，<break time=\"500ms\" />向受到表彰的先进集体和先进个人表示热烈祝贺，<break time=\"500ms\" />向全国广大<p phoneme=\"jiao4\">教</p>师和教育工作者致以节日的问候。</speak>","speed": "1.0"
}

未来趋势

更自然的语音生成：目前的语音合成很多时候虽然还是被吐槽一听就有AI感，但是已存在部分厂商的音色去AI感了。未来的 TTS 技术将继续朝着更高的自然度和声音表现力发展，甚至可能实现像人声一样真实的交互。
专属AI语音模型训练：目前已经很多厂商在做训练用户专属的AI语音模型，并已经作为功能开放出来，供开发者训练指定音色模型，比如我们投喂姚明的大量的语音资源，可以训练出姚明的音色模型出来。
情感语音合成：随着情感计算技术的发展，TTS 将能够生成不同情感的语音，自动分析前后文，动态的切换感情色彩，提升人机交互的情感表达能力。
跨模态学习：结合图像、视频和文本等多种模态的信息处理，未来的 TTS 系统将能够更好地理解上下文，从而生成更恰当的语音输出。
隐私与安全：随着个人语音数据的增加，确保用户隐私和数据安全将成为 TTS 技术发展的重要课题。