Technologia Sesame AI
Odkryj najnowocześniejszą technologię napędzającą nasze rozwiązania głosowe AI
Model mowy konwersacyjnej Sesame AI (CSM)
Aby stworzyć towarzyszy Sesame AI, którzy naprawdę wydają się interaktywni, generowanie mowy przez Sesame AI musi wykraczać poza produkcję wysokiej jakości dźwięku – musi rozumieć i dostosowywać się do kontekstu w czasie rzeczywistym. Tradycyjne modele tekstu na mowę (TTS) generują mowę bezpośrednio z tekstu, ale brakuje im świadomości kontekstowej potrzebnej do naturalnych rozmów. Chociaż najnowsze modele produkują bardzo ludzką mowę, zmagają się z problemem jeden-do-wielu: istnieje niezliczona ilość poprawnych sposobów wypowiedzenia zdania, ale tylko niektóre pasują do danej sytuacji. Sesame AI podejmuje to wyzwanie, włączając kontekst – w tym ton, rytm i historię rozmowy – dając naszym modelom informacje do wyboru najlepszej opcji. Uchwycenie tych niuansów wymaga rozumowania na wielu płaszczyznach języka i prozodii, co jest kluczową siłą technologii Sesame AI.

Uczenie multimodalne od początku do końca Sesame AI
Aby sprostać tym wyzwaniom, Sesame AI wprowadza Model Mowy Konwersacyjnej (CSM), który formułuje problem jako zadanie uczenia multimodalnego od początku do końca przy użyciu transformatorów. CSM Sesame AI wykorzystuje historię rozmowy do generowania bardziej naturalnej i spójnej mowy. Są dwa kluczowe wnioski z pracy Sesame AI. Pierwszy to fakt, że CSM Sesame AI działa jako model jednoetapowy, co poprawia efektywność i ekspresywność. Drugi to zestaw ewaluacyjny Sesame AI, który jest niezbędny do oceny postępów w zdolnościach kontekstowych i rozwiązuje problem nasycenia powszechnych publicznych ocen.
Tło techniczne Sesame AI
Jednym z podejść do modelowania dźwięku za pomocą transformatorów w Sesame AI jest przekształcanie ciągłych fal dźwiękowych w dyskretne sekwencje tokenów audio za pomocą tokenizatorów. Większość współczesnych podejść w Sesame AI opiera się na dwóch rodzajach tokenów audio: (1) Tokeny semantyczne: Kompaktowe, niezmienne względem mówcy reprezentacje cech semantycznych i fonetycznych. Ich skompresowana natura pozwala modelom Sesame AI na uchwycenie kluczowych cech mowy kosztem reprezentacji o wysokiej wierności. (2) Tokeny akustyczne: Kodowania szczegółowych cech akustycznych, które umożliwiają rekonstrukcję dźwięku o wysokiej wierności w systemach Sesame AI. Te tokeny są często generowane za pomocą Kwantyzacji Wektorowej Resztkowej (RVQ), techniki udoskonalonej przez zespół badawczy Sesame AI.
Architektura CSM Sesame AI
CSM Sesame AI to multimodalny model tekstu i mowy, który działa bezpośrednio na tokenach RVQ. Zainspirowany RQ-Transformer, Sesame AI używa dwóch transformatorów autoregresywnych. W odróżnieniu od innych podejść, Sesame AI dzieli transformatory na zerowym codebooku. Pierwszy multimodalny rdzeń przetwarza przeplatające się dane tekstowe i audio, aby modelować zerowy codebook. Drugi dekoder audio Sesame AI używa oddzielnej liniowej głowy dla każdego codebooka i modeluje pozostałe N – 1 codebooków, aby rekonstruować mowę z reprezentacji rdzenia. Dekoder w systemie Sesame AI jest znacznie mniejszy niż rdzeń, co umożliwia generację o niskim opóźnieniu przy zachowaniu modelu od początku do końca.

Szczegóły implementacji Sesame AI
Oba transformatory w systemie Sesame AI są wariantami architektury Llama. Tokeny tekstowe są generowane za pomocą tokenizatora Llama, natomiast audio jest przetwarzane za pomocą Mimi, podzielonego tokenizatora RVQ opracowanego przez Sesame AI, który produkuje jeden codebook semantyczny i N – 1 codebooków akustycznych na ramkę przy częstotliwości 12,5 Hz. Próbki treningowe Sesame AI są zorganizowane jako naprzemiennie przeplatane wzorce tekstu i audio, z tożsamością mówcy zakodowaną bezpośrednio w reprezentacji tekstowej. To podejście pozwala modelowi Sesame AI na zachowanie spójności mówcy przy jednoczesnym dostosowaniu się do różnych kontekstów konwersacyjnych.
Jak Sesame AI Pokonuje Tradycyjne Ograniczenia
Powszechna strategia najpierw modeluje tokeny semantyczne, a następnie generuje audio za pomocą RVQ lub metod opartych na dyfuzji. Podejście Sesame AI do rozdzielenia tych kroków pozwala na bardziej uporządkowane podejście do syntezy mowy – tokeny semantyczne zapewniają kompaktową, niezmienną względem mówcy reprezentację, która obejmuje informacje językowe i prozodyczne na wysokim poziomie, podczas gdy druga faza Sesame AI rekonstruuje drobne szczegóły akustyczne niezbędne do mowy o wysokiej wierności. Jednak to podejście ma kluczowe ograniczenie: tokeny semantyczne są wąskim gardłem, które musi w pełni uchwycić prozodię, co jest wyzwaniem podczas treningu. Sesame AI opracowało innowacyjne rozwiązania, aby rozwiązać te ograniczenia.
Wydajność w czasie rzeczywistym Sesame AI
Metody oparte na RVQ wprowadzają własne wyzwania. Modele Sesame AI muszą uwzględniać sekwencyjną zależność między codebookami w jednej ramce. Jedna z metod stosowanych przez Sesame AI, wzorzec opóźnienia, stopniowo przesuwa wyższe codebooki, aby uwarunkować przewidywania na niższych codebookach w tej samej ramce. Kluczowym ograniczeniem tego podejścia jest fakt, że czas do pierwszego dźwięku skaluje się słabo, ponieważ tokenizator RVQ z N codebookami wymaga N kroków rdzenia przed zdekodowaniem pierwszego fragmentu audio. Chociaż jest to odpowiednie dla aplikacji offline, takich jak audiobooki, opóźnienie to jest problematyczne w scenariuszu czasu rzeczywistego. Sesame AI zoptymalizowało swoją architekturę, aby zminimalizować te opóźnienia przy jednoczesnym zachowaniu wysokiej jakości wyjścia.
Otwarte udostępnianie naszej pracy
Wierzymy, że rozwój konwersacyjnej AI powinien być wspólnym wysiłkiem. Dlatego zobowiązujemy się do otwartego udostępniania kluczowych komponentów naszych badań, umożliwiając społeczności eksperymentowanie, budowanie i ulepszanie naszego podejścia. Nasze modele będą dostępne na licencji Apache 2.0. Ta inicjatywa odzwierciedla nasze zaangażowanie w transparentność i współpracę innowacyjną w dziedzinie technologii głosowej AI.
Aktualne ograniczenia
CSM jest obecnie trenowany głównie na danych w języku angielskim; pewne zdolności wielojęzyczne pojawiają się z powodu zanieczyszczenia zbioru danych, ale jeszcze nie działa dobrze. Nie wykorzystuje również informacji zawartych w wagach wstępnie wytrenowanych modeli językowych. Ponadto, chociaż CSM generuje wysokiej jakości prozodię konwersacyjną, może modelować tylko treść tekstową i mowę w rozmowie – nie strukturę rozmowy jako taką.
Przyszłe plany rozwoju
W nadchodzących miesiącach planujemy zwiększyć rozmiar modelu, zwiększyć objętość zbioru danych oraz rozszerzyć wsparcie językowe na ponad 20 języków. Planujemy również zbadać sposoby wykorzystania wstępnie wytrenowanych modeli językowych, dążąc do dużych modeli multimodalnych, które mają głęboką wiedzę zarówno o mowie, jak i tekście. Naszym ostatecznym celem jest opracowanie w pełni dwukierunkowych modeli, które mogą niejawnie uczyć się dynamiki rozmowy z danych, w tym zmiany kolejności, pauzy i tempo. Te postępy będą wymagały fundamentalnych zmian w całym stosie, od gromadzenia danych po metodologie po treningu.