在人工智能和语音合成技术的飞速发展中,文本转语音(TTS)系统正变得越来越智能和高效。然而,传统的TTS模型往往面临着计算复杂度高、生成速度慢以及语音质量不稳定的挑战。近日,一项名为Spark-TTS的创新研究引起了广泛关注。该研究提出了一种基于大语言模型(LLM)的高效TTS框架,通过引入单流解耦语音标记(Single-Stream Decoupled Speech Tokens),成功实现了高质量语音的快速生成。Spark-TTS不仅在生成速度上显著优于现有模型,还在语音自然度和多样性方面取得了突破性进展。本文将深入解析Spark-TTS的核心技术。
论文:2025.03.03_Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens一种高效的基于 LLM 的文本转语音模型,具有单流解耦语音令牌
论文地址:https://arxiv.org/pdf/2503.01710
代码地址:https://github.com/SparkAudio/Spark-TTS
DEMO:https://sparkaudio.github.io/spark-tts/
https://sparktts.online/
1.背景
问题:传统自回归TTS模型(如Tacotron)推理速度慢,而非自回归模型(如FastSpeech)在生成质量上不如人意。
现有方案局限:基于LLM的TTS模型(如VALL-E)虽利用语言模型的强大生成能力,但直接建模高维语音标记导致计算效率低下。
论文核心:通过解耦语音的语义和声学信息,分别由LLM和轻量级声学模型处理,减少LLM的计算负担,实现高效高质量生成。
2.主要方法
2.1.BiCodec
论文提出BiCodec,将输入音频离散化为①每秒 50 个(TPS) 的语义标记,捕捉语言内容,以及 ②固定长度的全局标记,编码说话者属性和其他全局语音特征。
如上图所示,BiCodec 包括一个全局标记器和语义标记器。前者从输入音频的梅尔频谱图中提取全局标记。后者使用wav2vec 2.0中的特征作为输入来提取语义标记,也就是对于语音进行分解。下图是BiCodec的详细模型框架:
2.1.1.编码器和解码器
语义标记器Es使用ConvNeXt,全局标记符编码器Eg采用ECAPA-TDNN。
2.1.2.量化
语义标记器采用单码本向量量化技术进行量化,先将编码器的输出投射到地位潜在变量空间,采用FSQ降低训练风险。
2.2.Spark-TTS模型框架
如上图所示,Spark-TTS语音语言模型采用解码器转换器架构,采用与训练文本的大语言模型Qwen作为语音语言模型的骨干网络,BiCodec的解码器直接处理LM的输出,生成最终的音频。
2.2.1.代币(Tokenizer)
-
文本标记器:采用字节对编码(BPE)来处理原始文本。
-
属性标记器:在2个层面进行编码:粗粒度(性别,音调速度等等)和细粒度(属性值可精确调控音调和速度)
-
语音标记器:全局标记器和语义标记器。
2.2.2.训练
解码器语言模型通过最小化标记预测的负对数似然来训练。Zero shot TTS的优化方法如下:
可控语音生成优化如下
实际中,Lzst和Lcontrol在训练过程中是混合的,每个音频示例被分为2个训练样本。
2.3.VoxBox数据集
推出VoxBox语音数据集,数据来自于开源数据集,并进行数据清理。
包含470万音频文件,共102500小时的语音数据。
3.实验与结果
表1证明BiCodec的有效性。
在最近的TTS模型的随机测试中取得良好成绩。
结论
Spark-TTS通过解耦语义与声学标记,结合LLM的高效推理和非自回归声学生成,在速度与质量间取得平衡,为LLM在TTS中的应用提供了新思路。其单流设计确保了生成过程的协同优化,实验验证了其在主流数据集上的优越性。
想要了解更多内容,可在小程序搜索🔍AI Pulse,获取更多最新内容。