Sesame AI-teknologi

Upptäck den banbrytande teknologin som driver våra AI-röstlösningar

Sesame AI:s konversationsspråkmodell (CSM)

För att skapa Sesame AI-kompanjoner som verkligen känns interaktiva måste Sesame AI:s talgenerering gå bortom att bara producera högkvalitativt ljud – den måste förstå och anpassa sig till sammanhang i realtid. Traditionella text-till-tal-modeller (TTS) genererar talat ljud direkt från text, men saknar den kontextuella medvetenhet som krävs för naturliga konversationer. Även om nya modeller producerar mycket mänskligt tal kämpar de med ett-till-många-problemet: det finns otaliga giltiga sätt att uttala en mening, men bara vissa passar i ett givet sammanhang. Sesame AI tar itu med denna utmaning genom att integrera sammanhang – inklusive ton, rytm och konversationshistorik – vilket ger våra modeller information för att välja det bästa alternativet. Att fånga dessa nyanser kräver resonemang över flera aspekter av språk och prosodi, vilket är en kärnstyrka i Sesame AI:s teknologi.

Sesame AI:s konversationsspråkmodell (CSM) - Teknisk illustration

Sesame AI:s end-to-end multimodala lärande

För att hantera dessa utmaningar introducerar Sesame AI Conversational Speech Model (CSM), som formulerar problemet som en end-to-end multimodal lärandeuppgift med hjälp av transformatorer. Sesame AI:s CSM utnyttjar konversationshistoriken för att producera mer naturligt och sammanhängande tal. Det finns två viktiga slutsatser från Sesame AI:s arbete. Den första är att Sesame AI:s CSM fungerar som en enstegsmodell, vilket förbättrar effektiviteten och uttrycksfullheten. Den andra är Sesame AI:s utvärderingssvit, som är nödvändig för att utvärdera framsteg inom kontextuella förmågor och adresserar det faktum att vanliga offentliga utvärderingar är mättade.

Sesame AI:s tekniska bakgrund

Ett tillvägagångssätt för att modellera ljud med transformatorer hos Sesame AI är att konvertera kontinuerliga vågformer till diskreta ljudtoken-sekvenser med hjälp av tokenizers. De flesta moderna tillvägagångssätt hos Sesame AI bygger på två typer av ljudtoken: (1) Semantiska token: Kompakta, talarinvarianta representationer av semantiska och fonetiska egenskaper. Deras komprimerade natur gör det möjligt för Sesame AI:s modeller att fånga nyckelegenskaper hos tal på bekostnad av högupplöst representation. (2) Akustiska token: Kodningar av finfördelade akustiska detaljer som möjliggör högupplöst ljudrekonstruktion i Sesame AI:s system. Dessa token genereras ofta med hjälp av Residual Vector Quantization (RVQ), en teknik som förfinats av Sesame AI:s forskarteam.

Sesame AI:s CSM-arkitektur

Sesame AI:s CSM är en multimodal text- och talmodell som fungerar direkt på RVQ-token. Inspirerad av RQ-Transformer använder Sesame AI två autoregressiva transformatorer. Till skillnad från andra tillvägagångssätt delar Sesame AI transformatorerna vid det nollte kodblocket. Det första multimodala ryggraden bearbetar växelvis text och ljud för att modellera det nollte kodblocket. Sesame AI:s andra ljudavkodare använder en distinkt linjär topp för varje kodblock och modellerar de återstående N – 1 kodblocken för att rekonstruera tal från ryggradens representationer. Avkodaren i Sesame AI:s system är betydligt mindre än ryggraden, vilket möjliggör generering med låg latens samtidigt som modellen förblir end-to-end.

Sesame AI:s CSM-arkitektur - Teknisk illustration

Sesame AI:s implementeringsdetaljer

Båda transformatorerna i Sesame AI:s system är varianter av Llama-arkitekturen. Texttoken genereras via en Llama-tokenizer, medan ljud bearbetas med Mimi, en delad RVQ-tokenizer utvecklad av Sesame AI, som producerar ett semantiskt kodblock och N – 1 akustiska kodblock per ram vid 12,5 Hz. Sesame AI:s träningsexempel är strukturerade som växelvis interleaved mönster av text och ljud, med talaridentitet kodad direkt i textrepresentationen. Detta tillvägagångssätt gör det möjligt för Sesame AI:s modell att bibehålla talarkonsistens samtidigt som den anpassar sig till olika konversationella sammanhang.

Hur Sesame AI Övervinner Traditionella Begränsningar

En vanlig strategi modellerar först semantiska token och genererar sedan ljud med hjälp av RVQ eller diffusionsbaserade metoder. Sesame AI:s tillvägagångssätt att koppla isär dessa steg möjliggör en mer strukturerad metod för talsyntes – de semantiska token ger en kompakt, talarinvariant representation som fångar språklig och prosodisk information på hög nivå, medan Sesame AI:s andra steg rekonstruerar de finfördelade akustiska detaljerna som behövs för högupplöst tal. Detta tillvägagångssätt har dock en kritisk begränsning: semantiska token är en flaskhals som måste fånga prosodin helt, men att säkerställa detta under träning är en utmaning. Sesame AI har utvecklat innovativa lösningar för att hantera dessa begränsningar.

Sesame AI:s realtidsprestanda

RVQ-baserade metoder medför sina egna utmaningar. Sesame AI:s modeller måste ta hänsyn till den sekventiella beroendet mellan kodblock i en ram. En metod som används av Sesame AI, fördröjningsmönstret, förskjuter gradvis högre kodblock för att villkora förutsägelser på lägre kodblock inom samma ram. En viktig begränsning med denna metod är att tiden till första ljudet skalar dåligt eftersom en RVQ-tokenizer med N kodblock kräver N ryggradssteg innan det första ljudsegmentet avkodas. Även om detta är lämpligt för offline-applikationer som ljudböcker är denna fördröjning problematisk i ett realtidsscenario. Sesame AI har optimerat sin arkitektur för att minimera dessa fördröjningar samtidigt som högkvalitativ utdata bibehålls.

Öppenkällkodsarbete av vårt arbete

Vi anser att utvecklingen av konversationell AI bör vara en gemensam ansträngning. Därför är vi engagerade i att göra viktiga komponenter av vår forskning till öppen källkod, så att gemenskapen kan experimentera, bygga vidare på och förbättra vår metod. Våra modeller kommer att vara tillgängliga under en Apache 2.0-licens. Denna satsning återspeglar vårt engagemang för transparens och kollaborativ innovation inom området för AI-röstteknologi.

Nuvarande begränsningar

CSM är för närvarande tränad huvudsakligen på engelskspråkiga data; vissa flerspråkiga förmågor dyker upp på grund av datasetförorening, men den presterar ännu inte bra. Den utnyttjar inte heller informationen som finns i vikterna hos förtränade språkmodeller. Dessutom kan CSM, trots att den genererar högkvalitativ konversationsprosodi, bara modellera text- och talinnehållet i en konversation – inte själva konversationsstrukturen.

Framtida utvecklingsplaner

Under de kommande månaderna planerar vi att skala upp modellstorleken, öka datamängden och utöka språkstödet till över 20 språk. Vi planerar también att utforska sätt att använda förtränade språkmodeller och arbeta mot stora multimodala modeller som har djup kunskap om både tal och text. Vårt ultimata mål är att utveckla helt duplexmodeller som implicit kan lära sig konversationsdynamik från data, inklusive turordning, pauser och tempo. Dessa framsteg kommer att kräva grundläggande förändringar över hela stacken, från datakuration till metodologier efter-traening.