Tecnología de Sesame AI
Descubre la tecnología de vanguardia que impulsa nuestras soluciones de voz con IA
El modelo de habla conversacional de Sesame AI (CSM)
Para crear compañeros de Sesame AI que se sientan genuinamente interactivos, la generación de habla de Sesame AI debe ir más allá de producir audio de alta calidad: debe entender y adaptarse al contexto en tiempo real. Los modelos tradicionales de texto a voz (TTS) generan salida hablada directamente desde el texto, pero carecen de la conciencia contextual necesaria para conversaciones naturales. Aunque los modelos recientes producen un habla muy similar a la humana, luchan con el problema de uno a muchos: hay innumerables formas válidas de pronunciar una oración, pero solo algunas encajan en un entorno dado. Sesame AI aborda este desafío incorporando contexto—incluyendo tono, ritmo e historial de la conversación—dando a nuestros modelos la información para elegir la mejor opción. Capturar estas sutilezas requiere razonar sobre múltiples aspectos del lenguaje y la prosodia, lo que es una fortaleza central de la tecnología de Sesame AI.

El aprendizaje multimodal de extremo a extremo de Sesame AI
Para abordar estos desafíos, Sesame AI presenta el Modelo de Habla Conversacional (CSM), que plantea el problema como una tarea de aprendizaje multimodal de extremo a extremo usando transformadores. El CSM de Sesame AI aprovecha el historial de la conversación para producir un habla más natural y coherente. Hay dos conclusiones clave del trabajo de Sesame AI. La primera es que el CSM de Sesame AI opera como un modelo de una sola etapa, mejorando así la eficiencia y la expresividad. La segunda es la suite de evaluación de Sesame AI, necesaria para evaluar el progreso en capacidades contextuales y que aborda el hecho de que las evaluaciones públicas comunes están saturadas.
Antecedentes técnicos de Sesame AI
Un enfoque para modelar audio con transformadores en Sesame AI es convertir ondas continuas en secuencias de tokens de audio discretas usando tokenizadores. La mayoría de los enfoques contemporáneos en Sesame AI se basan en dos tipos de tokens de audio: (1) Tokens semánticos: Representaciones compactas invariantes al hablante de características semánticas y fonéticas. Su naturaleza comprimida permite a los modelos de Sesame AI capturar características clave del habla a costa de una representación de alta fidelidad. (2) Tokens acústicos: Codificaciones de detalles acústicos finos que permiten la reconstrucción de audio de alta fidelidad en los sistemas de Sesame AI. Estos tokens se generan a menudo usando Cuantización Vectorial Residual (RVQ), una técnica perfeccionada por el equipo de investigación de Sesame AI.
Arquitectura del CSM de Sesame AI
El CSM de Sesame AI es un modelo multimodal de texto y voz que opera directamente sobre tokens RVQ. Inspirado en el RQ-Transformer, Sesame AI utiliza dos transformadores autorregresivos. A diferencia de otros enfoques, Sesame AI divide los transformadores en el libro de códigos cero. El primer backbone multimodal procesa texto y audio entrelazados para modelar el libro de códigos cero. El segundo decodificador de audio de Sesame AI utiliza una cabeza lineal distinta para cada libro de códigos y modela los N – 1 libros de códigos restantes para reconstruir el habla a partir de las representaciones del backbone. El decodificador en el sistema de Sesame AI es significativamente más pequeño que el backbone, lo que permite una generación de baja latencia mientras mantiene el modelo de extremo a extremo.

Detalles de implementación de Sesame AI
Ambos transformadores en el sistema de Sesame AI son variantes de la arquitectura Llama. Los tokens de texto se generan mediante un tokenizador Llama, mientras que el audio se procesa usando Mimi, un tokenizador RVQ dividido desarrollado por Sesame AI, que produce un libro de códigos semántico y N – 1 libros de códigos acústicos por frame a 12.5 Hz. Las muestras de entrenamiento de Sesame AI están estructuradas como patrones entrelazados alternados de texto y audio, con la identidad del hablante codificada directamente en la representación del texto. Este enfoque permite al modelo de Sesame AI mantener la consistencia del hablante mientras se adapta a diferentes contextos conversacionales.
Cómo Sesame AI supera las limitaciones tradicionales
Una estrategia común primero modela tokens semánticos y luego genera audio usando RVQ o métodos basados en difusión. El enfoque de Sesame AI para desacoplar estos pasos permite un enfoque más estructurado para la síntesis del habla—los tokens semánticos proporcionan una representación compacta e invariante al hablante que captura información lingüística y prosódica de alto nivel, mientras que la segunda etapa de Sesame AI reconstruye los detalles acústicos finos necesarios para el habla de alta fidelidad. Sin embargo, este enfoque tiene una limitación crítica; los tokens semánticos son un cuello de botella que debe capturar completamente la prosodia, pero asegurar esto durante el entrenamiento es un desafío. Sesame AI ha desarrollado soluciones innovadoras para abordar estas limitaciones.
Rendimiento en tiempo real de Sesame AI
Los métodos basados en RVQ presentan su propio conjunto de desafíos. Los modelos de Sesame AI deben tener en cuenta la dependencia secuencial entre libros de códigos en un frame. Un método utilizado por Sesame AI, el patrón de retraso, desplaza progresivamente los libros de códigos superiores para condicionar las predicciones en libros de códigos inferiores dentro del mismo frame. Una limitación clave de este enfoque es que el tiempo hasta el primer audio escala mal porque un tokenizador RVQ con N libros de códigos requiere N pasos de backbone antes de decodificar el primer fragmento de audio. Aunque es adecuado para aplicaciones sin conexión como audiolibros, este retraso es problemático en un escenario en tiempo real. Sesame AI ha optimizado su arquitectura para minimizar estos retrasos mientras mantiene una salida de alta calidad.
Código abierto de nuestro trabajo
Creemos que avanzar en la IA conversacional debe ser un esfuerzo colaborativo. Con ese fin, estamos comprometidos a hacer de código abierto componentes clave de nuestra investigación, permitiendo a la comunidad experimentar, construir y mejorar nuestro enfoque. Nuestros modelos estarán disponibles bajo una licencia Apache 2.0. Esta iniciativa refleja nuestro compromiso con la transparencia y la innovación colaborativa en el campo de la tecnología de voz IA.
Limitaciones actuales
El CSM está actualmente entrenado principalmente con datos en inglés; algunas capacidades multilingües emergen debido a la contaminación del conjunto de datos, pero aún no funciona bien. También no aprovecha la información presente en los pesos de los modelos de lenguaje preentrenados. Además, aunque el CSM genera prosodia conversacional de alta calidad, solo puede modelar el contenido de texto y voz en una conversación—no la estructura de la conversación en sí.
Planes de desarrollo futuro
En los próximos meses, planeamos aumentar el tamaño del modelo, incrementar el volumen del conjunto de datos y expandir el soporte de idiomas a más de 20 lenguas. también planeamos explorar formas de utilizar modelos de lenguaje preentrenados, trabajando hacia modelos multimodales grandes que tengan un conocimiento profundo tanto del habla como del texto. Nuestro objetivo final es desarrollar modelos completamente dúplex que puedan aprender implícitamente las dinámicas de la conversación a partir de datos, incluyendo turnos de habla, pausas y ritmo. Estos avances requerirán cambios fundamentales en toda la pila, desde la curación de datos hasta las metodologías posteriores al entrenamiento.