Sesame AI テクノロジー

私たちのAI音声ソリューションを支える最先端技術を発見してください

Sesame AIの会話音声モデル(CSM)

真にインタラクティブに感じるSesame AIのコンパニオンを作成するためには、Sesame AIの音声生成技術は高品質なオーディオを生成するだけでなく、リアルタイムでコンテキストを理解し適応する必要があります。従来のテキスト音声変換(TTS)モデルはテキストから直接音声を生成しますが、自然な会話に必要なコンテキスト認識が欠けています。最近のモデルは非常に人間らしい音声を生成するものの、「一対多」の問題に直面しています。文を話す方法は無数にありますが、特定の状況に適したものはわずかです。Sesame AIはこの課題に対応するため、トーン、リズム、会話の履歴などコンテキストを取り入れ、モデルが最適な選択肢を選ぶための情報を提供します。これらの微妙なニュアンスを捉えるには、言語とプロソディの複数の側面を横断する推論が必要であり、これはSesame AIの技術の中心的な強みです。

Sesame AIの会話音声モデル(CSM) - 技術イラスト

Sesame AIのエンドツーエンドマルチモーダル学習

これらの課題に対処するため、Sesame AIは会話音声モデル(CSM)を導入し、トランスフォーマーを用いたエンドツーエンドのマルチモーダル学習タスクとして問題を設定します。Sesame AIのCSMは会話の履歴を活用して、より自然で一貫性のある音声を生成します。Sesame AIの研究から得られた主な知見は2つあります。1つ目は、Sesame AIのCSMが単一ステージモデルとして動作し、効率と表現力を向上させることです。2つ目は、コンテキスト能力の進捗を評価するために必要なSesame AIの評価スイートであり、一般的な公開評価が飽和状態にあるという事実に対処しています。

Sesame AIの技術的背景

Sesame AIでトランスフォーマーを用いてオーディオをモデリングする1つのアプローチは、トークナイザーを使用して連続的な波形を離散的なオーディオトークンシーケンスに変換することです。Sesame AIの現代的なアプローチのほとんどは、2種類のオーディオトークンに依存しています:(1) セマンティックトークン:意味的および音声的特徴のコンパクトで話者不変な表現。その圧縮された性質により、Sesame AIのモデルは高忠実度表現を犠牲にして主要な音声特徴を捉えることができます。(2) アコースティックトークン:Sesame AIのシステムで高忠実度オーディオ再構築を可能にする詳細な音響情報のエンコーディング。これらのトークンは、Sesame AIの研究チームが改良した残差ベクトル量子化(RVQ)を用いて生成されることが多いです。

Sesame AIのCSMアーキテクチャ

Sesame AIのCSMは、RVQトークン上で直接動作するマルチモーダルなテキストおよび音声モデルです。RQ-Transformerに着想を得て、Sesame AIは2つの自己回帰トランスフォーマーを使用します。他のアプローチとは異なり、Sesame AIはゼロ番目のコードブックでトランスフォーマーを分割します。最初のマルチモーダルバックボーンは、ゼロ番目のコードブックをモデリングするために、交互に配置されたテキストとオーディオを処理します。Sesame AIの2番目のオーディオデコーダーは、各コードブックごとに個別のリニアヘッドを使用し、バックボーンの表現から音声を再構築するために残りのN – 1コードブックをモデリングします。Sesame AIのシステム内のデコーダーはバックボーンよりも大幅に小さく、低遅延生成を可能にしながらモデルをエンドツーエンドに保ちます。

Sesame AIのCSMアーキテクチャ - 技術イラスト

Sesame AIの実装詳細

Sesame AIのシステム内の両方のトランスフォーマーはLlamaアーキテクチャのバリエーションです。テキストトークンはLlamaトークナイザーを介して生成され、オーディオはSesame AIが開発した分割RVQトークナイザーであるMimiを使用して処理され、12.5Hzでフレームごとに1つのセマンティックコードブックとN – 1のアコースティックコードブックを生成します。Sesame AIのトレーニングサンプルは、テキストとオーディオが交互に配置されたパターンとして構造化されており、話者のアイデンティティはテキスト表現に直接エンコードされています。このアプローチにより、Sesame AIのモデルは話者の一貫性を維持しながら、さまざまな会話コンテキストに適応できます。

Sesame AIが従来の制限を克服する方法

一般的な戦略では、最初にセマンティックトークンをモデリングし、次にRVQや拡散ベースの方法を使用してオーディオを生成します。Sesame AIのこれらのステップを切り離すアプローチは、音声合成により構造化されたアプローチを可能にします—セマンティックトークンは、話者不変でコンパクトな表現を提供し、高レベルな言語的およびプロソディ情報を捉えます。一方、Sesame AIの2番目のステージでは、高忠実度の音声に必要な詳細な音響情報を再構築します。しかし、このアプローチには重大な制限があります。セマンティックトークンはプロソディを完全に捉える必要があるボトルネックですが、トレーニング中にこれを保証することは難しいです。Sesame AIはこれらの制限に対処するための革新的な解決策を開発しました。

Sesame AIのリアルタイムパフォーマンス

RVQベースの方法には独自の課題があります。Sesame AIのモデルは、フレーム内のコードブック間のシーケンシャル依存性を考慮する必要があります。Sesame AIが使用する1つの方法である遅延パターンは、より高いコードブックを徐々にシフトして、同じフレーム内で下位のコードブックに基づいて予測を条件付けします。このアプローチの主な制限は、最初のオーディオまでの時間がスケールが悪いことです。Nコードブックを持つRVQトークナイザーは、最初のオーディオチャンクをデコードする前にNバックボーンステップを必要とするためです。オーディオブックのようなオフラインアプリケーションには適していますが、リアルタイムシナリオではこの遅延が問題になります。Sesame AIは、高品質な出力を維持しながらこれらの遅延を最小限に抑えるためにアーキテクチャを最適化しました。

私たちの研究のオープンソース化

私たちは会話型AIの進歩が共同の努力であるべきだと信じています。そのため、私たちは研究の主要なコンポーネントをオープンソース化し、コミュニティが私たちのアプローチを試し、構築し、改善できるようにすることに取り組んでいます。私たちのモデルはApache 2.0ライセンスの下で利用可能になります。この取り組みは、AI音声技術の分野における透明性と共同イノベーションへの私たちのコミットメントを反映しています。

現在の制限

CSMは現在、主に英語データでトレーニングされています。データセットの汚染によりいくつかの多言語能力が現れていますが、まだ十分に機能していません。また、事前トレーニング済み言語モデルの重みに存在する情報を活用していません。さらに、CSMは高品質な会話プロソディを生成できますが、会話のテキストと音声内容のみをモデリングでき、会話自体の構造はモデリングできません。

今後の開発計画

今後数ヶ月の間に、モデルのサイズを拡大し、データセットの量を増やし、20以上の言語へのサポートを拡大する予定です。また、事前トレーニング済み言語モデルを活用する方法を探り、音声とテキストの両方について深い知識を持つ大規模なマルチモーダルモデルを目指して取り組む予定です。私たちの最終目標は、データから会話のダイナミクス(ターン取り、休止、ペーシングを含む)を暗黙的に学習できる完全な双方向モデルを開発することです。これらの進歩には、データキュレーションからトレーニング後の方法論に至るまで、スタック全体にわたる根本的な変更が必要です。