Sesame AI Teknolojisi
AI ses çözümlerimizi güçlendiren son teknolojiyi keşfedin
Sesame AI'ın Konuşma Konuşma Modeli (CSM)
Gerçekten etkileşimli hissettiren Sesame AI yoldaşları yaratmak için, Sesame AI'ın konuşma üretimi yalnızca yüksek kaliteli ses üretmekle yetinmemeli – gerçek zamanlı olarak bağlamı anlamalı ve buna uyum sağlamalıdır. Geleneksel metinden konuşmaya (TTS) modelleri, metinden doğrudan konuşma çıkışı üretir ancak doğal konuşmalar için gerekli bağlamsal farkındalıktan yoksundur. Son modeller oldukça insan benzeri konuşma üretse de, bir-çok problemine takılır: Bir cümleyi konuşmanın sayısız geçerli yolu vardır, ancak yalnızca bazıları belirli bir duruma uygundur. Sesame AI bu sorunu, ton, ritim ve konuşma geçmişi dahil olmak üzere bağlamı entegre ederek ele alır ve modellerimize en iyi seçeneği seçmeleri için bilgi sağlar. Bu ince detayları yakalamak, dil ve prosodinin birden fazla yönü üzerinde akıl yürütmeyi gerektirir ki bu, Sesame AI teknolojisinin temel bir gücüdür.

Sesame AI'ın Uçtan Uca Çok Modlu Öğrenimi
Bu zorlukları ele almak için Sesame AI, sorunu transformatörler kullanarak uçtan uca çok modlu bir öğrenme görevi olarak çerçeveleyen Konuşma Konuşma Modeli’ni (CSM) tanıtıyor. Sesame AI'ın CSM'si, konuşma geçmişini kullanarak daha doğal ve tutarlı konuşma üretir. Sesame AI'ın çalışmasından iki temel çıkarım vardır. Birincisi, Sesame AI'ın CSM'si tek aşamalı bir model olarak çalışır, böylece verimliliği ve ifade gücünü artırır. İkincisi, bağlamsal yeteneklerdeki ilerlemeyi değerlendirmek için gerekli olan Sesame AI'ın değerlendirme paketi, yaygın kamu değerlendirmelerinin doyum noktasına ulaştığı gerçeğini ele alır.
Sesame AI'ın Teknik Arka Planı
Sesame AI'da transformatörlerle ses modellemenin bir yaklaşımı, sürekli dalga formlarını tokenlaştırıcılar kullanarak ayrık ses token dizilerine dönüştürmektir. Sesame AI'daki çoğu çağdaş yaklaşım, iki tür ses tokenına dayanır: (1) Anlamsal tokenlar: Anlamsal ve fonetik özelliklerin kompakt, konuşmacıdan bağımsız temsilleri. Sıkıştırılmış yapıları, Sesame AI modellerinin temel konuşma özelliklerini yüksek sadakat temsili pahasına yakalamasını sağlar. (2) Akustik tokenlar: Sesame AI sistemlerinde yüksek sadakat ses yeniden yapılandırmasını mümkün kılan ince taneli akustik ayrıntıların kodlamaları. Bu tokenlar genellikle Sesame AI’ın araştırma ekibi tarafından geliştirilen Artık Vektör Kuantizasyonu (RVQ) kullanılarak oluşturulur.
Sesame AI'ın CSM Mimarisi
Sesame AI'ın CSM'si, RVQ tokenları üzerinde doğrudan çalışan çok modlu bir metin ve konuşma modelidir. RQ-Transformer’dan ilham alan Sesame AI, iki otoregresif transformatör kullanır. Diğer yaklaşımlardan farklı olarak, Sesame AI transformatörleri sıfırıncı kod kitabında böler. İlk çok modlu omurga, sıfırıncı kod kitabını modellemek için sıralı metin ve ses girişlerini işler. Sesame AI’ın ikinci ses kod çözücüsü, her kod kitabı için ayrı bir doğrusal başlık kullanır ve omurganın temsillerinden konuşmayı yeniden yapılandırmak için kalan N – 1 kod kitabını modeller. Sesame AI sistemindeki kod çözücü, omurgadan önemli ölçüde daha küçüktür ve modeli uçtan uca tutarken düşük gecikmeli üretimi mümkün kılar.

Sesame AI'ın Uygulama Detayları
Sesame AI sistemindeki her iki transformatör, Llama mimarisinin varyantlarıdır. Metin tokenları bir Llama tokenlaştırıcı aracılığıyla oluşturulurken, ses, Sesame AI tarafından geliştirilen bölünmüş bir RVQ tokenlaştırıcı olan Mimi kullanılarak işlenir ve 12,5 Hz’de her çerçeve için bir anlamsal kod kitabı ve N – 1 akustik kod kitabı üretir. Sesame AI’ın eğitim örnekleri, konuşmacı kimliğinin doğrudan metin temsiline kodlandığı, metin ve sesin dönüşümlü olarak iç içe geçtiği desenler olarak yapılandırılmıştır. Bu yaklaşım, Sesame AI’ın modelinin konuşmacı tutarlılığını korurken farklı konuşma bağlamlarına uyum sağlamasını sağlar.
Sesame AI Geleneksel Sınırlamaları Nasıl Aşar
Yaygın bir strateji önce anlamsal tokenları modeller ve ardından RVQ veya difüzyon tabanlı yöntemler kullanarak ses üretir. Sesame AI’ın bu adımları ayırma yaklaşımı, konuşma sentezi için daha yapılandırılmış bir yöntem sağlar – anlamsal tokenlar, yüksek seviyeli dilbilimsel ve prosodik bilgiyi yakalayan kompakt, konuşmacıdan bağımsız bir temsil sunar; Sesame AI’ın ikinci aşaması ise yüksek sadakat konuşma için gerekli ince taneli akustik ayrıntıları yeniden yapılandırır. Ancak bu yaklaşımın kritik bir sınırlaması vardır; anlamsal tokenlar, prosodiyi tamamen yakalaması gereken bir darboğazdır, ancak bunu eğitim sırasında sağlamak zordur. Sesame AI bu sınırlamaları ele almak için yenilikçi çözümler geliştirmiştir.
Sesame AI’ın Gerçek Zamanlı Performansı
RVQ tabanlı yöntemler kendi zorluklarını ortaya koyar. Sesame AI modelleri, bir çerçevedeki kod kitapları arasındaki sıralı bağımlılığı hesaba katmalıdır. Sesame AI tarafından kullanılan bir yöntem olan gecikme deseni, aynı çerçeve içinde alt kod kitaplarına dayalı tahminleri koşullandırmak için üst kod kitaplarını kademeli olarak kaydırır. Bu yaklaşımın temel bir sınırlaması, ilk sese kadar geçen sürenin kötü ölçeklenmesidir, çünkü N kod kitabına sahip bir RVQ tokenlaştırıcı, ilk ses parçasını çözmeden önce N omurga adımı gerektirir. Sesli kitaplar gibi çevrimdışı uygulamalar için uygun olsa da, bu gecikme gerçek zamanlı bir senaryoda sorun yaratır. Sesame AI, yüksek kaliteli çıktıyı korurken bu gecikmeleri en aza indirmek için mimarisini optimize etmiştir.
Çalışmamızı Açık Kaynak Yapma
Konuşma yapay zekasını ilerletmenin ortak bir çaba olması gerektiğine inanıyoruz. Bu amaçla, araştırmamızın temel bileşenlerini açık kaynak yaparak topluluğun yaklaşımımız üzerinde denemeler yapmasını, geliştirmesini ve iyileştirmesini sağlamayı taahhüt ediyoruz. Modellerimiz Apache 2.0 lisansı altında sunulacak. Bu girişim, yapay zeka ses teknolojisi alanında şeffaflık ve işbirlikçi yeniliğe olan bağlılığımızı yansıtmaktadır.
Mevcut Sınırlamalar
CSM şu anda esas olarak İngilizce verilerle eğitiliyor; veri kümesi kirliliği nedeniyle bazı çok dilli yetenekler ortaya çıkıyor, ancak henüz iyi performans göstermiyor. Ayrıca, önceden eğitilmiş dil modellerinin ağırlıklarında bulunan bilgileri kullanmıyor. Bunun dışında, CSM yüksek kaliteli konuşma prosodisi üretse de, bir konuşmadaki yalnızca metin ve konuşma içeriğini modelleyebilir – konuşmanın kendi yapısını değil.
Gelecekteki Gelişim Planları
Önümüzdeki aylarda model boyutunu büyütmeyi, veri kümesi hacmini artırmayı ve dil desteğini 20’den fazla dile genişletmeyi planlıyoruz. Ayrıca, önceden eğitilmiş dil modellerini kullanmanın yollarını keşfetmeyi ve hem konuşma hem de metin hakkında derin bilgiye sahip büyük çok modlu modeller geliştirmeyi amaçlıyoruz. Nihai hedefimiz, konuşma dinamiklerini (sıra alma, duraklamalar ve hız dahil) verilerden dolaylı olarak öğrenebilen tam çift yönlü modeller geliştirmektir. Bu ilerlemeler, veri düzenlemesinden eğitime sonrasındaki metodolojilere kadar tüm yığında temel değişiklikler gerektirecektir.