Sesame AI技術

發現驅動我們AI語音解決方案的尖端技術

Sesame AI的對話語音模型(CSM)

為了打造出真正具有互動感的Sesame AI夥伴,Sesame AI的語音生成技術不僅需生產高品質的音頻,還需即時理解並適應上下文。傳統的文字轉語音(TTS)模型直接從文本生成語音輸出,但缺乏自然對話所需的上下文感知能力。儘管近期的模型能生成極為類似人類的語音,它們仍面臨一對多的問題:一句話有無數種有效的說法,但只有某些方式適合特定的情境。Sesame AI通過整合上下文——包括語調、節奏和對話歷史——來應對這一挑戰,為我們的模型提供選擇最佳方案所需的資訊。捕捉這些細微差異需要跨越語言和韻律的多方面推理,這是Sesame AI技術的核心優勢。

Sesame AI的對話語音模型(CSM) - 技術插圖

Sesame AI的端到端多模態學習

為了解決這些挑戰,Sesame AI推出了對話語音模型(CSM),將問題定義為使用變換器(transformers)進行的端到端多模態學習任務。Sesame AI的CSM利用對話歷史生成更自然且連貫的語音。Sesame AI的研究有兩個主要結論。首先,Sesame AI的CSM作為單階段模型運行,從而提升了效率和表現力。其次,Sesame AI的評估套件對於評估上下文能力的進展至關重要,並解決了常見公開評估已趨於飽和的問題。

Sesame AI的技術背景

在Sesame AI中,使用變換器進行音頻建模的一種方法是通過分詞器將連續波形轉換為離散音頻標記序列。Sesame AI的大多數當代方法依賴於兩種類型的音頻標記:(1)語義標記:語義和語音特徵的緊湊、不隨講者變化的表示。其壓縮特性使Sesame AI的模型能在犧牲高保真表示的情況下捕捉關鍵語音特徵。(2)聲學標記:允許在Sesame AI系統中進行高保真音頻重建的細粒度聲學細節編碼。這些標記通常使用殘差向量量化(RVQ)生成,這是Sesame AI研究團隊改進的一項技術。

Sesame AI的CSM架構

Sesame AI的CSM是一個直接在RVQ標記上運作的多模態文本和語音模型。受到RQ-Transformer的啟發,Sesame AI使用兩個自回歸變換器。與其他方法不同,Sesame AI在第零個代碼簿處分割變換器。第一個多模態骨幹處理交錯的文本和音頻輸入以建模第零個代碼簿。Sesame AI的第二個音頻解碼器為每個代碼簿使用一個獨立的線性頭,並建模剩餘的N – 1個代碼簿,以從骨幹的表示中重建語音。Sesame AI系統中的解碼器比骨幹小得多,從而能在保持端到端模型的同時實現低延遲生成。

Sesame AI的CSM架構 - 技術插圖

Sesame AI的實現細節

Sesame AI系統中的兩個變換器都是Llama架構的變體。文本標記通過Llama分詞器生成,而音頻則使用Sesame AI開發的分割RVQ分詞器Mimi進行處理,每幀以12.5 Hz的頻率產生一個語義代碼簿和N – 1個聲學代碼簿。Sesame AI的訓練樣本被結構化為交替交錯的文本和音頻模式,講者身份直接編碼在文本表示中。這種方法使Sesame AI的模型能在保持講者一致性的同時適應不同的對話上下文。

Sesame AI如何克服傳統限制

一個常見的策略是首先建模語義標記,然後使用RVQ或基於擴散的方法生成音頻。Sesame AI將這些步驟解耦的做法允許更結構化的語音合成方式——語義標記提供了一個緊湊、不隨講者變化的表示,捕捉高層次的語言和韻律信息,而Sesame AI的第二階段則重建高保真語音所需的細粒度聲學細節。然而,這種方法有一個關鍵限制:語義標記是一個瓶頸,必須完全捕捉韻律,但這在訓練過程中是個挑戰。Sesame AI開發了創新的解決方案來應對這些限制。

Sesame AI的即時性能

基於RVQ的方法帶來了自身的挑戰。Sesame AI的模型必須考慮一幀中代碼簿之間的順序依賴性。Sesame AI使用的一種方法是延遲模式,逐漸移動較高的代碼簿以在同一幀內基於較低的代碼簿進行條件預測。這種方法的一個關鍵限制是首音時間的擴展性差,因為具有N個代碼簿的RVQ分詞器在解碼第一個音頻塊之前需要N個骨幹步驟。雖然這適合像有聲書這樣的離線應用,但在即時場景中這種延遲會成為問題。Sesame AI已優化其架構以在保持高品質輸出的同時最大限度減少這些延遲。

我們的開源工作

我們相信推進對話AI應該是一個共同努力的過程。為此,我們致力於將我們研究中的關鍵組件開源,讓社群能夠實驗、建立並改進我們的做法。我們的模型將在Apache 2.0許可證下提供。這一舉措反映了我們在AI語音技術領域對透明度和協作創新的承諾。

當前限制

CSM目前主要使用英語數據進行訓練;由於數據集污染,出現了一些多語言能力,但表現尚未理想。它也未利用預訓練語言模型權重中的信息。此外,雖然CSM能生成高品質的對話韻律,但它僅能建模對話中的文本和語音內容,而不能建模對話本身的結構。

未來發展計劃

在未來幾個月,我們計劃擴大模型規模、增加數據集容量,並將語言支持擴展到20多種語言。我們也計劃探索使用預訓練語言模型的方法,朝著擁有語音和文本深層知識的大型多模態模型努力。我們的最終目標是開發完全雙工模型,能從數據中隱式學習對話動態,包括輪流說話、停頓和節奏。這些進展將需要從數據整理到訓練後方法論的整個技術棧的根本性變革。