Sesame AI Technologie

Ontdek de geavanceerde technologie die onze AI-stemoplossingen mogelijk maakt

Sesame AI's Conversational Speech Model (CSM)

Om Sesame AI-metgezellen te creëren die echt interactief aanvoelen, moet de spraakgeneratie van Sesame AI verder gaan dan het produceren van hoogwaardige audio – het moet context in realtime begrijpen en zich daaraan aanpassen. Traditionele tekst-naar-spraakmodellen (TTS) genereren gesproken uitvoer rechtstreeks uit tekst, maar missen de contextuele bewustwording die nodig is voor natuurlijke gesprekken. Hoewel recente modellen zeer menselijke spraak produceren, worstelen ze met het één-op-veel probleem: er zijn talloze geldige manieren om een zin uit te spreken, maar slechts enkele passen bij een bepaalde setting. Sesame AI pakt deze uitdaging aan door context – inclusief toon, ritme en gespreksgeschiedenis – te integreren, waardoor onze modellen de informatie krijgen om de beste optie te kiezen. Het vastleggen van deze nuances vereist redeneren over meerdere aspecten van taal en prosodie, wat een kernkracht is van Sesame AI's technologie.

Sesame AI's Conversational Speech Model (CSM) - Technische illustratie

Sesame AI's End-to-End Multimodale Leren

Om deze uitdagingen aan te pakken, introduceert Sesame AI het Conversational Speech Model (CSM), dat het probleem formuleert als een end-to-end multimodale leertaak met behulp van transformers. Sesame AI's CSM maakt gebruik van de gespreksgeschiedenis om natuurlijkere en coherente spraak te produceren. Er zijn twee belangrijke inzichten uit het werk van Sesame AI. De eerste is dat Sesame AI's CSM werkt als een enkelstadig model, waardoor de efficiëntie en expressiviteit worden verbeterd. De tweede is Sesame AI's evaluatiesuite, die nodig is om vooruitgang op contextuele vaardigheden te beoordelen en het feit aanpakt dat gangbare openbare evaluaties verzadigd zijn.

Sesame AI's Technische Achtergrond

Een benadering om audio te modelleren met transformers bij Sesame AI is door continue golfvormen om te zetten in discrete audiotokensequenties met behulp van tokenizers. De meeste hedendaagse benaderingen bij Sesame AI vertrouwen op twee soorten audiotokens: (1) Semantische tokens: Compacte, spreker-invariante representaties van semantische en fonetische kenmerken. Hun gecomprimeerde aard stelt Sesame AI's modellen in staat om belangrijke spraakkenmerken vast te leggen ten koste van een hoogwaardige representatie. (2) Akoestische tokens: Coderingen van fijnmazige akoestische details die hoogwaardige audioreconstructie mogelijk maken in Sesame AI's systemen. Deze tokens worden vaak gegenereerd met behulp van Residual Vector Quantization (RVQ), een techniek die is verfijnd door het onderzoeksteam van Sesame AI.

Sesame AI's CSM Architectuur

Sesame AI's CSM is een multimodaal tekst- en spraakmodel dat direct werkt op RVQ-tokens. Geïnspireerd door de RQ-Transformer gebruikt Sesame AI twee autoregressieve transformers. In tegenstelling tot andere benaderingen splitst Sesame AI de transformers bij het nulde codebook. Het eerste multimodale backbone verwerkt afwisselende tekst- en audio-invoer om het nulde codebook te modelleren. Sesame AI's tweede audio-decoder gebruikt een afzonderlijke lineaire kop voor elk codebook en modelleert de resterende N – 1 codebooks om spraak te reconstrueren uit de representaties van het backbone. De decoder in Sesame AI's systeem is aanzienlijk kleiner dan het backbone, wat generatie met lage latentie mogelijk maakt terwijl het model end-to-end blijft.

Sesame AI's CSM Architectuur - Technische illustratie

Sesame AI's Implementatiedetails

Beide transformers in Sesame AI's systeem zijn varianten van de Llama-architectuur. Teksttokens worden gegenereerd via een Llama-tokenizer, terwijl audio wordt verwerkt met Mimi, een door Sesame AI ontwikkelde split-RVQ-tokenizer, die één semantisch codebook en N – 1 akoestische codebooks per frame produceert op 12,5 Hz. Sesame AI's trainingssamples zijn gestructureerd als afwisselende, interleaved patronen van tekst en audio, waarbij de sprekeridentiteit direct in de tekstrepresentatie wordt gecodeerd. Deze aanpak stelt Sesame AI's model in staat om sprekerconsistentie te behouden terwijl het zich aanpast aan verschillende gesprekscontexten.

Hoe Sesame AI Traditionele Beperkingen Overwint

Een veelvoorkomende strategie modelleert eerst semantische tokens en genereert vervolgens audio met behulp van RVQ of diffusie-gebaseerde methoden. Sesame AI's aanpak om deze stappen te ontkoppelen maakt een meer gestructureerde benadering van spraaksynthese mogelijk – de semantische tokens bieden een compacte, spreker-invariante representatie die taalkundige en prosodische informatie op hoog niveau vastlegt, terwijl Sesame AI's tweede fase de fijnmazige akoestische details reconstrueert die nodig zijn voor hoogwaardige spraak. Deze aanpak heeft echter een cruciale beperking: semantische tokens vormen een knelpunt dat prosodie volledig moet vastleggen, maar dit tijdens de training garanderen is een uitdaging. Sesame AI heeft innovatieve oplossingen ontwikkeld om deze beperkingen aan te pakken.

Sesame AI's Realtime Prestaties

RVQ-gebaseerde methoden brengen hun eigen uitdagingen met zich mee. Sesame AI's modellen moeten rekening houden met de sequentiële afhankelijkheid tussen codebooks in een frame. Een methode die door Sesame AI wordt gebruikt, het vertragingspatroon, verschuift hogere codebooks progressief om voorspellingen te conditioneren op lagere codebooks binnen hetzelfde frame. Een belangrijke beperking van deze aanpak is dat de tijd tot de eerste audio slecht schaalt omdat een RVQ-tokenizer met N codebooks N backbone-stappen vereist voordat het eerste audiostuk wordt gedecodeerd. Hoewel dit geschikt is voor offline toepassingen zoals audioboeken, is deze vertraging problematisch in een realtime scenario. Sesame AI heeft zijn architectuur geoptimaliseerd om deze vertragingen te minimaliseren terwijl de hoge uitvoerkwaliteit behouden blijft.

Open-sourcing van Ons Werk

Wij geloven dat het bevorderen van conversationele AI een gezamenlijke inspanning zou moeten zijn. Daarom zijn we toegewijd aan het open-sourcen van belangrijke onderdelen van ons onderzoek, zodat de gemeenschap kan experimenteren, voortbouwen en onze aanpak verbeteren. Onze modellen zullen beschikbaar zijn onder een Apache 2.0-licentie. Deze initiatieven weerspiegelen onze toewijding aan transparantie en collaboratieve innovatie op het gebied van AI-spraaktechnologie.

Huidige Beperkingen

CSM wordt momenteel voornamelijk getraind op Engelse data; enige meertalige capaciteit komt naar voren door datasetvervuiling, maar het presteert nog niet goed. Het maakt ook geen gebruik van de informatie die aanwezig is in de gewichten van voorgetrainde taalmodellen. Bovendien kan CSM虽然能生成高质量的对话韵律,但只能对对话中的文本和语音内容建模,而不能对对话结构本身建模。

Toekomstige Ontwikkelingsplannen

In de komende maanden zijn we van plan om de modelgrootte te vergroten, het datavolume te verhogen en de taalsupport uit te breiden naar meer dan 20 talen. We plannen ook om manieren te onderzoeken om voorgetrainde taalmodellen te benutten, en werken aan grote multimodale modellen met diepgaande kennis van zowel spraak als tekst. Ons uiteindelijke doel is om volledig duplex modellen te ontwikkelen die impliciet gespreksdynamieken uit data kunnen leren, inclusief beurtwisselingen, pauzes en tempo. Deze vooruitgang vereist fundamentele veranderingen over de hele stack, van datacuratie tot post-trainingsmethodologieën.