芝麻AI语音技术

探索我们语音AI解决方案背后的先进技术

芝麻AI的对话语音模型(CSM)

为了创造真正具有互动感的芝麻AI伙伴，芝麻AI的语音生成必须超越生产高质量音频—它必须实时理解并适应语境。传统的文本转语音(TTS)模型直接从文本生成口语输出，但缺乏自然对话所需的语境感知能力。尽管最近的模型产生了高度类人的语音，但它们仍然面临一对多问题：说一个句子有无数种有效方式，但只有一些适合特定场景。芝麻AI通过融入语境—包括语调、节奏和对话历史—解决了这一挑战，为我们的模型提供选择最佳选项的信息。捕捉这些细微差别需要跨语言和韵律多个方面进行推理，这是芝麻AI技术的核心优势。

芝麻AI的端到端多模态学习

为了应对这些挑战，芝麻AI推出了对话语音模型(CSM)，它将问题框定为使用变换器的端到端多模态学习任务。芝麻AI的CSM利用对话历史生成更自然、更连贯的语音。芝麻AI的工作有两个关键要点。第一是芝麻AI的CSM作为单阶段模型运行，从而提高效率和表达能力。第二是芝麻AI的评估套件，这对评估语境能力的进展是必要的，并解决了常见公共评估已经饱和的事实。

芝麻AI的技术背景

芝麻AI使用变换器建模音频的一种方法是使用标记器将连续波形转换为离散音频标记序列。芝麻AI的大多数当代方法依赖于两种类型的音频标记：(1)语义标记：语义和语音特征的紧凑、与说话者无关的表示。它们的压缩性质使芝麻AI的模型能够以高保真表示为代价捕捉关键语音特征。(2)声学标记：细粒度声学细节的编码，使芝麻AI系统中的高保真音频重建成为可能。这些标记通常使用残差向量量化(RVQ)生成，这是芝麻AI研究团队改进的技术。

芝麻AI的CSM架构

芝麻AI的CSM是一个多模态的文本和语音模型，直接在RVQ标记上操作。受RQ-Transformer启发，芝麻AI使用两个自回归变换器。与其他方法不同，芝麻AI在零号码本处分割变换器。第一个多模态骨干处理交错的文本和音频以建模零号码本。芝麻AI的第二个音频解码器为每个码本使用不同的线性头，并建模剩余的N – 1个码本，从骨干的表示中重建语音。芝麻AI系统中的解码器明显小于骨干，在保持模型端到端的同时实现低延迟生成。

芝麻AI的实现细节

芝麻AI系统中的两个变换器都是Llama架构的变体。文本标记通过Llama标记器生成，而音频则使用Mimi处理，这是芝麻AI开发的分割RVQ标记器，以12.5 Hz的频率为每帧生成一个语义码本和N – 1个声学码本。芝麻AI的训练样本被构建为文本和音频交替交错的模式，说话者身份直接编码在文本表示中。这种方法允许芝麻AI的模型在适应不同对话语境的同时保持说话者一致性。

芝麻AI如何克服传统限制

一种常见策略首先建模语义标记，然后使用RVQ或基于扩散的方法生成音频。芝麻AI解耦这些步骤的方法允许更结构化地进行语音合成—语义标记提供了一种紧凑的、与说话者无关的表示，捕捉高级语言和韵律信息，而芝麻AI的第二阶段重建高保真语音所需的细粒度声学细节。然而，这种方法有一个关键限制；语义标记是必须完全捕捉韵律的瓶颈，但在训练期间确保这一点具有挑战性。芝麻AI已经开发了创新解决方案来解决这些限制。

芝麻AI的实时性能

基于RVQ的方法引入了自己的一系列挑战。芝麻AI的模型必须考虑帧内码本之间的顺序依赖关系。芝麻AI使用的一种方法，延迟模式，逐步移动更高的码本，以在同一帧内基于较低的码本进行预测条件。这种方法的一个关键限制是首次音频的时间扩展性差，因为具有N个码本的RVQ标记器在解码第一个音频块之前需要N个骨干步骤。虽然适用于离线应用如有声读物，但这种延迟在实时场景中是有问题的。芝麻AI已经优化了其架构，以在保持高质量输出的同时最小化这些延迟。

开源我们的工作

我们相信，推进对话AI应该是一项协作努力。为此，我们致力于开源我们研究的关键组件，使社区能够实验、构建和改进我们的方法。我们的模型将在Apache 2.0许可下提供。这一倡议反映了我们对AI语音技术领域透明度和协作创新的承诺。

当前限制

CSM目前主要在英语数据上训练；由于数据集污染，一些多语言能力出现，但它还没有表现良好。它也没有利用预训练语言模型权重中存在的信息。此外，虽然CSM生成高质量的对话韵律，但它只能建模对话中的文本和语音内容—而不是对话本身的结构。

未来发展计划

在未来几个月内，我们打算扩大模型规模，增加数据集容量，并将语言支持扩展到20多种语言。我们还计划探索利用预训练语言模型的方法，朝着拥有深厚语音和文本知识的大型多模态模型努力。我们的最终目标是开发完全双工模型，可以从数据中隐式学习对话动态，包括轮流发言、停顿和节奏。这些进步将需要从数据管理到后训练方法的整个技术栈的根本性变化。