欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 社会 > Spark-TTS:基于单流解耦语音标记的高效大语言模型文本转语音系统

Spark-TTS:基于单流解耦语音标记的高效大语言模型文本转语音系统

2025/3/14 10:49:54 来源:https://blog.csdn.net/weixin_44649780/article/details/146237127  浏览:    关键词:Spark-TTS:基于单流解耦语音标记的高效大语言模型文本转语音系统

在人工智能和语音合成技术的飞速发展中,文本转语音(TTS)系统正变得越来越智能和高效。然而,传统的TTS模型往往面临着计算复杂度高、生成速度慢以及语音质量不稳定的挑战。近日,一项名为Spark-TTS的创新研究引起了广泛关注。该研究提出了一种基于大语言模型(LLM)的高效TTS框架,通过引入单流解耦语音标记(Single-Stream Decoupled Speech Tokens),成功实现了高质量语音的快速生成。Spark-TTS不仅在生成速度上显著优于现有模型,还在语音自然度和多样性方面取得了突破性进展。本文将深入解析Spark-TTS的核心技术。

论文:2025.03.03_Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens一种高效的基于 LLM 的文本转语音模型,具有单流解耦语音令牌

论文地址:https://arxiv.org/pdf/2503.01710

代码地址:https://github.com/SparkAudio/Spark-TTS

DEMO:https://sparkaudio.github.io/spark-tts/

https://sparktts.online/

1.背景

问题:传统自回归TTS模型(如Tacotron)推理速度慢,而非自回归模型(如FastSpeech)在生成质量上不如人意。

现有方案局限:基于LLM的TTS模型(如VALL-E)虽利用语言模型的强大生成能力,但直接建模高维语音标记导致计算效率低下。

论文核心:通过解耦语音的语义和声学信息,分别由LLM和轻量级声学模型处理,减少LLM的计算负担,实现高效高质量生成。

2.主要方法

2.1.BiCodec

论文提出BiCodec,将输入音频离散化为①每秒 50 个(TPS) 的语义标记,捕捉语言内容,以及 ②固定长度的全局标记,编码说话者属性和其他全局语音特征。

图片

如上图所示,BiCodec 包括一个全局标记器和语义标记器。前者从输入音频的梅尔频谱图中提取全局标记。后者使用wav2vec 2.0中的特征作为输入来提取语义标记,也就是对于语音进行分解。下图是BiCodec的详细模型框架:

图片

2.1.1.编码器和解码器

语义标记器Es使用ConvNeXt,全局标记符编码器Eg采用ECAPA-TDNN。

2.1.2.量化

语义标记器采用单码本向量量化技术进行量化,先将编码器的输出投射到地位潜在变量空间,采用FSQ降低训练风险。

2.2.Spark-TTS模型框架

图片

如上图所示,Spark-TTS语音语言模型采用解码器转换器架构,采用与训练文本的大语言模型Qwen作为语音语言模型的骨干网络,BiCodec的解码器直接处理LM的输出,生成最终的音频。

2.2.1.代币(Tokenizer)

  • 文本标记器:采用字节对编码(BPE)来处理原始文本。

  • 属性标记器:在2个层面进行编码:粗粒度(性别,音调速度等等)和细粒度(属性值可精确调控音调和速度)

  • 语音标记器:全局标记器和语义标记器。

2.2.2.训练

解码器语言模型通过最小化标记预测的负对数似然来训练。Zero shot TTS的优化方法如下:

图片

可控语音生成优化如下

图片

实际中,Lzst和Lcontrol在训练过程中是混合的,每个音频示例被分为2个训练样本。

图片

2.3.VoxBox数据集

推出VoxBox语音数据集,数据来自于开源数据集,并进行数据清理。

包含470万音频文件,共102500小时的语音数据。

3.实验与结果

图片

表1证明BiCodec的有效性。

图片

在最近的TTS模型的随机测试中取得良好成绩。

结论

Spark-TTS通过解耦语义与声学标记,结合LLM的高效推理和非自回归声学生成,在速度与质量间取得平衡,为LLM在TTS中的应用提供了新思路。其单流设计确保了生成过程的协同优化,实验验证了其在主流数据集上的优越性。


想要了解更多内容,可在小程序搜索🔍AI Pulse,获取更多最新内容。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词