Tecnologia Sesame AI
Descubra a tecnologia de ponta que impulsiona nossas soluções de voz com IA
Modelo de Fala Conversacional da Sesame AI (CSM)
Para criar companheiros da Sesame AI que pareçam verdadeiramente interativos, a geração de fala da Sesame AI deve ir além da produção de áudio de alta qualidade – ela precisa entender e se adaptar ao contexto em tempo real. Modelos tradicionais de texto para fala (TTS) geram saída falada diretamente a partir de texto, mas carecem da consciência contextual necessária para conversas naturais. Embora modelos recentes produzam fala muito semelhante à humana, eles enfrentam o problema de um para muitos: há inúmeras maneiras válidas de falar uma frase, mas apenas algumas se encaixam em um dado cenário. A Sesame AI aborda esse desafio incorporando contexto – incluindo tom, ritmo e histórico da conversa – dando aos nossos modelos as informações para escolher a melhor opção. Capturar essas nuances exige raciocínio sobre múltiplos aspectos da linguagem e da prosódia, o que é uma força central da tecnologia da Sesame AI.

Aprendizado Multimodal de Ponta a Ponta da Sesame AI
Para enfrentar esses desafios, a Sesame AI apresenta o Modelo de Fala Conversacional (CSM), que formula o problema como uma tarefa de aprendizado multimodal de ponta a ponta usando transformers. O CSM da Sesame AI aproveita o histórico da conversa para produzir uma fala mais natural e coerente. Há duas conclusões principais do trabalho da Sesame AI. A primeira é que o CSM da Sesame AI opera como um modelo de estágio único, melhorando assim a eficiência e a expressividade. A segunda é a suíte de avaliação da Sesame AI, necessária para avaliar o progresso em capacidades contextuais e que aborda o fato de que avaliações públicas comuns estão saturadas.
Contexto Técnico da Sesame AI
Uma abordagem para modelar áudio com transformers na Sesame AI é converter formas de onda contínuas em sequências de tokens de áudio discretas usando tokenizadores. A maioria das abordagens contemporâneas na Sesame AI depende de dois tipos de tokens de áudio: (1) Tokens semânticos: Representações compactas invariantes ao falante de características semânticas e fonéticas. Sua natureza comprimida permite que os modelos da Sesame AI capturem características-chave da fala às custas de uma representação de alta fidelidade. (2) Tokens acústicos: Codificações de detalhes acústicos finos que permitem a reconstrução de áudio de alta fidelidade nos sistemas da Sesame AI. Esses tokens são frequentemente gerados usando Quantização Vetorial Residual (RVQ), uma técnica refinada pela equipe de pesquisa da Sesame AI.
Arquitetura do CSM da Sesame AI
O CSM da Sesame AI é um modelo multimodal de texto e fala que opera diretamente em tokens RVQ. Inspirado pelo RQ-Transformer, a Sesame AI usa dois transformers autorregressivos. Diferentemente de outras abordagens, a Sesame AI divide os transformers no codebook zero. O primeiro backbone multimodal processa entradas de texto e áudio intercaladas para modelar o codebook zero. O segundo decodificador de áudio da Sesame AI usa uma cabeça linear distinta para cada codebook e modela os N – 1 codebooks restantes para reconstruir a fala a partir das representações do backbone. O decodificador no sistema da Sesame AI é significativamente menor que o backbone, permitindo geração de baixa latência enquanto mantém o modelo de ponta a ponta.

Detalhes de Implementação da Sesame AI
Ambos os transformers no sistema da Sesame AI são variantes da arquitetura Llama. Tokens de texto são gerados por meio de um tokenizador Llama, enquanto o áudio é processado usando o Mimi, um tokenizador RVQ dividido desenvolvido pela Sesame AI, que produz um codebook semântico e N – 1 codebooks acústicos por quadro a 12,5 Hz. As amostras de treinamento da Sesame AI são estruturadas como padrões intercalados alternados de texto e áudio, com a identidade do falante codificada diretamente na representação do texto. Essa abordagem permite que o modelo da Sesame AI mantenha a consistência do falante enquanto se adapta a diferentes contextos conversacionais.
Como a Sesame AI Supera as Limitações Tradicionais
Uma estratégia comum modela primeiro os tokens semânticos e depois gera áudio usando RVQ ou métodos baseados em difusão. A abordagem da Sesame AI de desacoplar essas etapas permite uma abordagem mais estruturada para a síntese de fala – os tokens semânticos fornecem uma representação compacta e invariante ao falante que captura informações linguísticas e prosódicas de alto nível, enquanto a segunda etapa da Sesame AI reconstrói os detalhes acústicos finos necessários para fala de alta fidelidade. No entanto, essa abordagem tem uma limitação crítica: os tokens semânticos são um gargalo que deve capturar completamente a prosódia, mas garantir isso durante o treinamento é um desafio. A Sesame AI desenvolveu soluções inovadoras para enfrentar essas limitações.
Desempenho em Tempo Real da Sesame AI
Métodos baseados em RVQ apresentam seus próprios desafios. Os modelos da Sesame AI devem considerar a dependência sequencial entre codebooks em um quadro. Um método usado pela Sesame AI, o padrão de atraso, desloca progressivamente os codebooks superiores para condicionar as previsões nos codebooks inferiores dentro do mesmo quadro. Uma limitação chave dessa abordagem é que o tempo até o primeiro áudio escala mal porque um tokenizador RVQ com N codebooks requer N etapas de backbone antes de decodificar o primeiro fragmento de áudio. Embora adequado para aplicações offline como audiolivros, esse atraso é problemático em um cenário em tempo real. A Sesame AI otimizou sua arquitetura para minimizar esses atrasos enquanto mantém uma saída de alta qualidade.
Tornando Nosso Trabalho Open-Source
Acreditamos que avançar na IA conversacional deve ser um esforço colaborativo. Com esse objetivo, estamos comprometidos em tornar open-source componentes-chave de nossa pesquisa, permitindo que a comunidade experimente, construa e melhore nossa abordagem. Nossos modelos estarão disponíveis sob uma licença Apache 2.0. Essa iniciativa reflete nosso compromisso com a transparência e a inovação colaborativa no campo da tecnologia de voz por IA.
Limitações Atuais
O CSM está atualmente treinado principalmente com dados em inglês; algumas capacidades multilíngues emergem devido à contaminação do conjunto de dados, mas ainda não funciona bem. Ele também não aproveita as informações presentes nos pesos de modelos de linguagem pré-treinados. Além disso, embora o CSM gere prosódia conversacional de alta qualidade, ele só pode modelar o conteúdo de texto e fala em uma conversa – não a estrutura da conversa em si.
Planos de Desenvolvimento Futuro
Nos próximos meses, pretendemos aumentar o tamanho do modelo, incrementar o volume do conjunto de dados e expandir o suporte a idiomas para mais de 20 línguas. Também planejamos explorar maneiras de utilizar modelos de linguagem pré-treinados, trabalhando para criar grandes modelos multimodais que tenham conhecimento profundo tanto de fala quanto de texto. Nosso objetivo final é desenvolver modelos totalmente duplex que possam aprender implicitamente as dinâmicas da conversa a partir de dados, incluindo turnos de fala, pausas e ritmo. Esses avanços exigirão mudanças fundamentais em toda a pilha, desde a curadoria de dados até as metodologias pós-treinamento.