欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 新闻 > 社会 > Spark-TTS：基于单流解耦语音标记的高效大语言模型文本转语音系统

Spark-TTS：基于单流解耦语音标记的高效大语言模型文本转语音系统

2025/3/14 10:49:54 来源：https://blog.csdn.net/weixin_44649780/article/details/146237127 浏览: 次关键词：Spark-TTS：基于单流解耦语音标记的高效大语言模型文本转语音系统

在人工智能和语音合成技术的飞速发展中，文本转语音（TTS）系统正变得越来越智能和高效。然而，传统的TTS模型往往面临着计算复杂度高、生成速度慢以及语音质量不稳定的挑战。近日，一项名为Spark-TTS的创新研究引起了广泛关注。该研究提出了一种基于大语言模型（LLM）的高效TTS框架，通过引入单流解耦语音标记（Single-Stream Decoupled Speech Tokens），成功实现了高质量语音的快速生成。Spark-TTS不仅在生成速度上显著优于现有模型，还在语音自然度和多样性方面取得了突破性进展。本文将深入解析Spark-TTS的核心技术。

论文：2025.03.03_Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens一种高效的基于 LLM 的文本转语音模型，具有单流解耦语音令牌

论文地址：https://arxiv.org/pdf/2503.01710

代码地址：https://github.com/SparkAudio/Spark-TTS

DEMO:https://sparkaudio.github.io/spark-tts/

https://sparktts.online/

1.背景

问题：传统自回归TTS模型（如Tacotron）推理速度慢，而非自回归模型（如FastSpeech）在生成质量上不如人意。

现有方案局限：基于LLM的TTS模型（如VALL-E）虽利用语言模型的强大生成能力，但直接建模高维语音标记导致计算效率低下。

论文核心：通过解耦语音的语义和声学信息，分别由LLM和轻量级声学模型处理，减少LLM的计算负担，实现高效高质量生成。

2.主要方法

2.1.BiCodec

论文提出BiCodec,将输入音频离散化为①每秒 50 个(TPS) 的语义标记，捕捉语言内容，以及 ②固定长度的全局标记，编码说话者属性和其他全局语音特征。

如上图所示，BiCodec 包括一个全局标记器和语义标记器。前者从输入音频的梅尔频谱图中提取全局标记。后者使用wav2vec 2.0中的特征作为输入来提取语义标记，也就是对于语音进行分解。下图是BiCodec的详细模型框架：

2.1.1.编码器和解码器

语义标记器Es使用ConvNeXt,全局标记符编码器Eg采用ECAPA-TDNN。

2.1.2.量化

语义标记器采用单码本向量量化技术进行量化，先将编码器的输出投射到地位潜在变量空间，采用FSQ降低训练风险。

2.2.Spark-TTS模型框架

如上图所示，Spark-TTS语音语言模型采用解码器转换器架构，采用与训练文本的大语言模型Qwen作为语音语言模型的骨干网络，BiCodec的解码器直接处理LM的输出，生成最终的音频。

2.2.1.代币(Tokenizer)

文本标记器：采用字节对编码(BPE)来处理原始文本。
属性标记器：在2个层面进行编码：粗粒度(性别，音调速度等等)和细粒度(属性值可精确调控音调和速度)
语音标记器：全局标记器和语义标记器。

2.2.2.训练

解码器语言模型通过最小化标记预测的负对数似然来训练。Zero shot TTS的优化方法如下：

可控语音生成优化如下

实际中，Lzst和Lcontrol在训练过程中是混合的，每个音频示例被分为2个训练样本。

2.3.VoxBox数据集

推出VoxBox语音数据集，数据来自于开源数据集，并进行数据清理。

包含470万音频文件，共102500小时的语音数据。

3.实验与结果

表1证明BiCodec的有效性。

在最近的TTS模型的随机测试中取得良好成绩。

结论

Spark-TTS通过解耦语义与声学标记，结合LLM的高效推理和非自回归声学生成，在速度与质量间取得平衡，为LLM在TTS中的应用提供了新思路。其单流设计确保了生成过程的协同优化，实验验证了其在主流数据集上的优越性。

想要了解更多内容，可在小程序搜索🔍AI Pulse,获取更多最新内容。

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词