Technologie de Sesame AI
Découvrez la technologie de pointe qui alimente nos solutions vocales avec IA
Le modèle de parole conversationnelle de Sesame AI (CSM)
Pour créer des compagnons Sesame AI qui semblent véritablement interactifs, la génération de parole de Sesame AI doit aller au-delà de la production d’un audio de haute qualité : elle doit comprendre et s’adapter au contexte en temps réel. Les modèles traditionnels de synthèse vocale (TTS) génèrent une sortie parlée directement à partir de texte, mais ils manquent de la conscience contextuelle nécessaire pour des conversations naturelles. Bien que les modèles récents produisent une parole très similaire à celle d’un humain, ils peinent avec le problème de « un à plusieurs » : il existe d’innombrables façons valides de prononcer une phrase, mais seules certaines conviennent à un contexte donné. Sesame AI relève ce défi en intégrant le contexte – y compris le ton, le rythme et l’historique de la conversation – offrant ainsi à nos modèles les informations nécessaires pour choisir la meilleure option. Capturer ces nuances nécessite de raisonner sur plusieurs aspects du langage et de la prosodie, ce qui constitue une force fondamentale de la technologie de Sesame AI.

L’apprentissage multimodal de bout en bout de Sesame AI
Pour relever ces défis, Sesame AI introduit le Modèle de Parole Conversationnelle (CSM), qui pose le problème comme une tâche d’apprentissage multimodal de bout en bout utilisant des transformeurs. Le CSM de Sesame AI exploite l’historique de la conversation pour produire une parole plus naturelle et cohérente. Il y a deux conclusions clés du travail de Sesame AI. Premièrement, le CSM de Sesame AI fonctionne comme un modèle à une seule étape, améliorant ainsi l’efficacité et l’expressivité. Deuxièmement, la suite d’évaluation de Sesame AI, nécessaire pour évaluer les progrès sur les capacités contextuelles, répond au fait que les évaluations publiques courantes sont saturées.
Contexte technique de Sesame AI
Une approche pour modéliser l’audio avec des transformeurs chez Sesame AI consiste à convertir les formes d’onde continues en séquences de jetons audio discrets à l’aide de tokenizers. La plupart des approches contemporaines chez Sesame AI reposent sur deux types de jetons audio : (1) Jetons sémantiques : Représentations compactes invariantes au locuteur des caractéristiques sémantiques et phonétiques. Leur nature compressée permet aux modèles de Sesame AI de capturer les caractéristiques clés de la parole au détriment d’une représentation haute fidélité. (2) Jetons acoustiques : Encodages des détails acoustiques fins qui permettent une reconstruction audio haute fidélité dans les systèmes de Sesame AI. Ces jetons sont souvent générés à l’aide de la quantification vectorielle résiduelle (RVQ), une technique affinée par l’équipe de recherche de Sesame AI.
Architecture du CSM de Sesame AI
Le CSM de Sesame AI est un modèle multimodal de texte et de parole qui fonctionne directement sur des jetons RVQ. Inspiré par le RQ-Transformer, Sesame AI utilise deux transformeurs autorégressifs. Contrairement à d’autres approches, Sesame AI divise les transformeurs au niveau du livre de codes zéro. Le premier backbone multimodal traite des entrées texte et audio entrelacées pour modéliser le livre de codes zéro. Le second décodeur audio de Sesame AI utilise une tête linéaire distincte pour chaque livre de codes et modélise les N – 1 livres de codes restants pour reconstruire la parole à partir des représentations du backbone. Le décodeur dans le système de Sesame AI est nettement plus petit que le backbone, permettant une génération à faible latence tout en maintenant le modèle de bout en bout.

Détails de mise en œuvre de Sesame AI
Les deux transformeurs du système de Sesame AI sont des variantes de l’architecture Llama. Les jetons de texte sont générés via un tokenizer Llama, tandis que l’audio est traité à l’aide de Mimi, un tokenizer RVQ divisé développé par Sesame AI, produisant un livre de codes sémantique et N – 1 livres de codes acoustiques par trame à 12,5 Hz. Les échantillons d’entraînement de Sesame AI sont structurés sous forme de motifs entrelacés alternés de texte et d’audio, avec l’identité du locuteur encodée directement dans la représentation textuelle. Cette approche permet au modèle de Sesame AI de maintenir une cohérence du locuteur tout en s’adaptant à différents contextes conversationnels.
Comment Sesame AI surmonte les limites traditionnelles
Une stratégie courante consiste d’abord à modéliser les jetons sémantiques, puis à générer l’audio à l’aide de RVQ ou de méthodes basées sur la diffusion. L’approche de Sesame AI pour découpler ces étapes permet une approche plus structurée de la synthèse vocale – les jetons sémantiques fournissent une représentation compacte et invariante au locuteur qui capture des informations linguistiques et prosodiques de haut niveau, tandis que la deuxième étape de Sesame AI reconstruit les détails acoustiques fins nécessaires pour une parole haute fidélité. Cependant, cette approche présente une limitation critique : les jetons sémantiques constituent un goulot d’étranglement qui doit capturer entièrement la prosodie, mais garantir cela pendant l’entraînement est un défi. Sesame AI a développé des solutions innovantes pour répondre à ces limitations.
Performance en temps réel de Sesame AI
Les méthodes basées sur RVQ introduisent leur propre ensemble de défis. Les modèles de Sesame AI doivent tenir compte de la dépendance séquentielle entre les livres de codes dans une trame. Une méthode utilisée par Sesame AI, le motif de décalage, décale progressivement les livres de codes supérieurs pour conditionner les prédictions sur les livres de codes inférieurs dans la même trame. Une limitation clé de cette approche est que le temps jusqu’au premier audio évolue mal car un tokenizer RVQ avec N livres de codes nécessite N étapes de backbone avant de décoder le premier segment audio. Bien que cela convienne aux applications hors ligne comme les livres audio, ce décalage est problématique dans un scénario en temps réel. Sesame AI a optimisé son architecture pour minimiser ces délais tout en maintenant une sortie de haute qualité.
Open-sourcing de notre travail
Nous croyons que l’avancement de l’IA conversationnelle doit être un effort collaboratif. À cette fin, nous nous engageons à mettre en open-source des composants clés de nos recherches, permettant à la communauté d’expérimenter, de développer et d’améliorer notre approche. Nos modèles seront disponibles sous une licence Apache 2.0. Cette initiative reflète notre engagement envers la transparence et l’innovation collaborative dans le domaine de la technologie vocale IA.
Limites actuelles
Le CSM est actuellement entraîné principalement sur des données en anglais ; certaines capacités multilingues émergent en raison de la contamination des ensembles de données, mais il ne fonctionne pas encore bien. Il n’exploite pas non plus les informations présentes dans les poids des modèles de langage pré-entraînés. De plus, bien que le CSM génère une prosodie conversationnelle de haute qualité, il ne peut modéliser que le contenu textuel et vocal d’une conversation – et non la structure de la conversation elle-même.
Plans de développement futurs
Dans les prochains mois, nous prévoyons d’augmenter la taille du modèle, d’accroître le volume des ensembles de données et d’étendre le support linguistique à plus de 20 langues. Nous envisageons également d’explorer des moyens d’utiliser des modèles de langage pré-entraînés, en travaillant à la création de grands modèles multimodaux qui possèdent une connaissance approfondie à la fois de la parole et du texte. Notre objectif ultime est de développer des modèles entièrement duplex capables d’apprendre implicitement les dynamiques de la conversation à partir des données, y compris les tours de parole, les pauses et le rythme. Ces avancées nécessiteront des changements fondamentaux à tous les niveaux, de la curation des données aux méthodologies post-entraînement.