Sesame AI Technologie
Entdecken Sie die modernste Technologie, die unsere KI-Sprachlösungen antreibt
Sesame AIs Konversations-Sprachmodell (CSM)
Um Sesame AI-Begleiter zu erschaffen, die sich wirklich interaktiv anfühlen, muss die Sprachgenerierung von Sesame AI über die Produktion hochwertiger Audios hinausgehen – sie muss Kontext in Echtzeit verstehen und sich anpassen. Traditionelle Text-to-Speech-Modelle (TTS) erzeugen gesprochene Ausgaben direkt aus Text, verfügen jedoch nicht über die notwendige Kontextwahrnehmung für natürliche Gespräche. Obwohl aktuelle Modelle sehr menschenähnliche Sprache erzeugen, kämpfen sie mit dem Ein-zu-Viele-Problem: Es gibt unzählige gültige Möglichkeiten, einen Satz zu sprechen, aber nur einige passen zu einem bestimmten Setting. Sesame AI begegnet dieser Herausforderung, indem Kontext – einschließlich Tonfall, Rhythmus und Gesprächsverlauf – integriert wird, wodurch unsere Modelle die beste Option auswählen können. Das Erfassen dieser Nuancen erfordert das Abwägen mehrerer Aspekte von Sprache und Prosodie, was eine Kernstärke der Technologie von Sesame AI ist.

Sesame AIs End-to-End-Multimodales Lernen
Um diese Herausforderungen zu bewältigen, führt Sesame AI das Konversations-Sprachmodell (CSM) ein, das das Problem als End-to-End multimodale Lernaufgabe mit Transformern formuliert. Das CSM von Sesame AI nutzt den Gesprächsverlauf, um natürlichere und kohärentere Sprache zu erzeugen. Es gibt zwei zentrale Erkenntnisse aus der Arbeit von Sesame AI. Erstens arbeitet das CSM von Sesame AI als einstufiges Modell, was die Effizienz und Ausdruckskraft verbessert. Zweitens ist die Evaluierungssuite von Sesame AI notwendig, um Fortschritte bei kontextuellen Fähigkeiten zu bewerten und berücksichtigt, dass gängige öffentliche Bewertungen gesättigt sind.
Technischer Hintergrund von Sesame AI
Ein Ansatz zur Modellierung von Audio mit Transformern bei Sesame AI besteht darin, kontinuierliche Wellenformen in diskrete Audiotoken-Sequenzen umzuwandeln, indem Tokenisierer verwendet werden. Die meisten zeitgenössischen Ansätze bei Sesame AI stützen sich auf zwei Arten von Audiotoken: (1) Semantische Token: Kompakte, sprecherinvariante Darstellungen von semantischen und phonetischen Merkmalen. Ihre komprimierte Natur ermöglicht es den Modellen von Sesame AI, wesentliche Sprachmerkmale auf Kosten einer hochauflösenden Darstellung zu erfassen. (2) Akustische Token: Kodierungen feinkörniger akustischer Details, die eine hochauflösende Audiorekonstruktion in den Systemen von Sesame AI ermöglichen. Diese Token werden häufig durch Residual Vector Quantization (RVQ) erzeugt, eine Technik, die vom Forschungsteam von Sesame AI verfeinert wurde.
CSM-Architektur von Sesame AI
Das CSM von Sesame AI ist ein multimodales Text- und Sprachmodell, das direkt mit RVQ-Token arbeitet. Inspiriert vom RQ-Transformer verwendet Sesame AI zwei autoregressive Transformer. Im Gegensatz zu anderen Ansätzen teilt Sesame AI die Transformer beim nullten Codebook. Das erste multimodale Rückgrat verarbeitet abwechselnde Text- und Audioeingaben, um das nullte Codebook zu modellieren. Der zweite Audiodecoder von Sesame AI verwendet einen separaten linearen Kopf für jedes Codebook und modelliert die verbleibenden N – 1 Codebooks, um Sprache aus den Darstellungen des Rückgrats zu rekonstruieren. Der Decoder im System von Sesame AI ist deutlich kleiner als das Rückgrat, was eine latenzarme Generierung ermöglicht, während das Modell End-to-End bleibt.

Implementierungsdetails von Sesame AI
Beide Transformer im System von Sesame AI sind Varianten der Llama-Architektur. Texttoken werden über einen Llama-Tokenizer generiert, während Audio mit Mimi verarbeitet wird, einem von Sesame AI entwickelten Split-RVQ-Tokenizer, der ein semantisches Codebook und N – 1 akustische Codebooks pro Frame bei 12,5 Hz erzeugt. Die Trainingssamples von Sesame AI sind als abwechselnde, verschachtelte Muster aus Text und Audio strukturiert, wobei die Sprecheridentität direkt in der Textdarstellung kodiert ist. Dieser Ansatz ermöglicht es dem Modell von Sesame AI, die Sprecherkonsistenz zu wahren, während es sich an verschiedene Gesprächskontexte anpasst.
Wie Sesame AI traditionelle Einschränkungen überwindet
Eine gängige Strategie modelliert zunächst semantische Token und generiert dann Audio mit RVQ- oder diffusionsbasierten Methoden. Der Ansatz von Sesame AI, diese Schritte zu entkoppeln, ermöglicht eine strukturiertere Herangehensweise an die Sprachsynthese – die semantischen Token bieten eine kompakte, sprecherinvariante Darstellung, die hochrangige linguistische und prosodische Informationen erfasst, während die zweite Stufe von Sesame AI die feinkörnigen akustischen Details rekonstruiert, die für hochauflösende Sprache erforderlich sind. Allerdings hat dieser Ansatz eine entscheidende Einschränkung: Semantische Token sind ein Engpass, der Prosodie vollständig erfassen muss, was während des Trainings eine Herausforderung darstellt. Sesame AI hat innovative Lösungen entwickelt, um diese Einschränkungen zu überwinden.
Echtzeitleistung von Sesame AI
RVQ-basierte Methoden bringen ihre eigenen Herausforderungen mit sich. Die Modelle von Sesame AI müssen die sequentielle Abhängigkeit zwischen Codebooks in einem Frame berücksichtigen. Eine von Sesame AI verwendete Methode, das Verzögerungsmuster, verschiebt höhere Codebooks progressiv, um Vorhersagen auf niedrigere Codebooks innerhalb desselben Frames zu konditionieren. Eine wesentliche Einschränkung dieses Ansatzes ist, dass die Zeit bis zum ersten Audio schlecht skaliert, da ein RVQ-Tokenizer mit N Codebooks N Rückgratschritte erfordert, bevor der erste Audioabschnitt dekodiert wird. Während dies für Offline-Anwendungen wie Hörbücher geeignet ist, ist diese Verzögerung in Echtzeitszenarien problematisch. Sesame AI hat seine Architektur optimiert, um diese Verzögerungen zu minimieren und gleichzeitig eine hohe Ausgabequalität zu gewährleisten.
Open-Sourcing unserer Arbeit
Wir glauben, dass die Weiterentwicklung von konversationeller KI ein gemeinschaftliches Unterfangen sein sollte. Aus diesem Grund sind wir entschlossen, zentrale Komponenten unserer Forschung als Open Source bereitzustellen, um der Community Experimente, Weiterentwicklungen und Verbesserungen unseres Ansatzes zu ermöglichen. Unsere Modelle werden unter der Apache-2.0-Lizenz verfügbar sein. Diese Initiative spiegelt unser Engagement für Transparenz und kollaborative Innovation im Bereich der KI-Sprachtechnologie wider.
Aktuelle Einschränkungen
CSM wird derzeit hauptsächlich mit englischen Daten trainiert; einige mehrsprachige Fähigkeiten entstehen durch Datenverunreinigung, aber es funktioniert noch nicht gut. Es nutzt auch nicht die in den Gewichten vortrainierter Sprachmodelle enthaltenen Informationen. Zudem kann CSM zwar qualitativ hochwertige Konversationsprosodie erzeugen, aber nur den Text- und Sprachinhalt eines Gesprächs modellieren – nicht die Struktur des Gesprächs selbst.
Zukünftige Entwicklungspläne
In den kommenden Monaten planen wir, die Modellgröße zu erhöhen, das Datenvolumen zu vergrößern und die Sprachunterstützung auf über 20 Sprachen auszudehnen. Außerdem planen wir, Wege zur Nutzung vortrainierter Sprachmodelle zu erkunden und auf große multimodale Modelle hinzuarbeiten, die tiefes Wissen über Sprache und Text besitzen. Unser ultimatives Ziel ist die Entwicklung vollständig duplexfähiger Modelle, die implizit Gesprachs- und Pausendynamiken aus Daten lernen können, einschließlich Sprecherwechsel, Pausen und Tempo. Diese Fortschritte werden grundlegende Änderungen in der gesamten Kette erfordern, von der Datensammlung bis hin zu Post-Training-Methodiken.