Технология Sesame AI

Откройте для себя передовые технологии, которые обеспечивают работу наших голосовых решений ИИ

Модель разговорной речи Sesame AI (CSM)

Чтобы создать компаньонов Sesame AI, которые действительно ощущаются как интерактивные, генерация речи Sesame AI должна выйти за рамки создания высококачественного звука — она должна понимать и адаптироваться к контексту в реальном времени. Традиционные модели преобразования текста в речь (TTS) генерируют устную речь непосредственно из текста, но им не хватает контекстного понимания, необходимого для естественных разговоров. Хотя последние модели создают очень похожую на человеческую речь, они сталкиваются с проблемой «один ко многим»: существует бесчисленное множество допустимых способов произнести предложение, но лишь некоторые подходят для конкретной ситуации. Sesame AI решает эту проблему, интегрируя контекст — включая тон, ритм и историю разговора — предоставляя нашим моделям информацию для выбора наилучшего варианта. Захват этих нюансов требует рассуждений на основе множества аспектов языка и просодии, что является ключевой силой технологии Sesame AI.

Модель разговорной речи Sesame AI (CSM) - Техническая иллюстрация

Сквозное мультимодальное обучение Sesame AI

Для решения этих задач Sesame AI представляет Модель разговорной речи (CSM), которая формулирует проблему как задачу сквозного мультимодального обучения с использованием трансформеров. CSM от Sesame AI использует историю разговора для создания более естественной и связной речи. Есть два ключевых вывода из работы Sesame AI. Первый — CSM от Sesame AI работает как одноэтапная модель, что повышает эффективность и выразительность. Второй — набор оценки Sesame AI, который необходим для оценки прогресса в контекстных возможностях и решает проблему насыщения общих публичных оценок.

Техническая основа Sesame AI

Один из подходов к моделированию звука с использованием трансформеров в Sesame AI заключается в преобразовании непрерывных звуковых волн в дискретные последовательности аудиотокенов с помощью токенизаторов. Большинство современных подходов в Sesame AI опираются на два типа аудиотокенов: (1) Семантические токены: Компактные, инвариантные к спикеру представления семантических и фонетических характеристик. Их сжатая природа позволяет моделям Sesame AI захватывать ключевые особенности речи за счет потери высокоточного представления. (2) Акустические токены: Кодировки мелкозернистых акустических деталей, которые обеспечивают высокоточную реконструкцию звука в системах Sesame AI. Эти токены часто генерируются с использованием остаточной векторной квантизации (RVQ), техники, усовершенствованной исследовательской командой Sesame AI.

Архитектура CSM Sesame AI

CSM от Sesame AI — это мультимодальная модель текста и речи, которая работает непосредственно с токенами RVQ. Вдохновленная RQ-Transformer, Sesame AI использует два авторегрессионных трансформера. В отличие от других подходов, Sesame AI разделяет трансформеры на нулевом кодовом блоке. Первый мультимодальный backbone обрабатывает чередующиеся текстовые и аудио входы для моделирования нулевого кодового блока. Второй аудио декодер Sesame AI использует отдельную линейную голову для каждого кодового блока и моделирует оставшиеся N – 1 кодовых блоков для восстановления речи из представлений backbone. Декодер в системе Sesame AI значительно меньше, чем backbone, что позволяет генерировать с низкой задержкой, сохраняя модель сквозной.

Архитектура CSM Sesame AI - Техническая иллюстрация

Детали реализации Sesame AI

Оба трансформера в системе Sesame AI являются вариантами архитектуры Llama. Токены текста генерируются через токенизатор Llama, тогда как аудио обрабатывается с помощью Mimi, разделенного RVQ-токенизатора, разработанного Sesame AI, который производит один семантический кодовый блок и N – 1 акустических кодовых блоков на кадр с частотой 12,5 Гц. Обучающие образцы Sesame AI структурированы как чередующиеся переплетенные шаблоны текста и аудио, с идентичностью спикера, закодированной непосредственно в текстовом представлении. Этот подход позволяет модели Sesame AI сохранять консистентность спикера, адаптируясь к различным контекстам разговора.

Как Sesame AI Преодолевает Традиционные Ограничения

Обычная стратегия сначала моделирует семантические токены, а затем генерирует аудио с использованием RVQ или методов на основе диффузии. Подход Sesame AI к разделению этих шагов позволяет более структурированно подходить к синтезу речи — семантические токены обеспечивают компактное, инвариантное к спикеру представление, которое фиксирует высокоуровневую лингвистическую и просодическую информацию, тогда как вторая стадия Sesame AI воссоздает мелкозернистые акустические детали, необходимые для высокоточного звука. Однако этот подход имеет критическое ограничение: семантические токены являются узким местом, которое должно полностью захватывать просодию, но обеспечить это во время обучения сложно. Sesame AI разработала инновационные решения для устранения этих ограничений.

Производительность в реальном времени Sesame AI

Методы на основе RVQ создают свои собственные проблемы. Модели Sesame AI должны учитывать последовательную зависимость между кодовыми блоками в одном кадре. Один из методов, используемых Sesame AI, — шаблон задержки, который постепенно смещает верхние кодовые блоки для обусловливания предсказаний на нижних кодовых блоках в том же кадре. Ключевое ограничение этого подхода заключается в том, что время до первого аудио плохо масштабируется, поскольку токенизатор RVQ с N кодовыми блоками требует N шагов backbone перед декодированием первого аудиофрагмента. Хотя это подходит для оффлайн-приложений, таких как аудиокниги, эта задержка проблематична в сценариях реального времени. Sesame AI оптимизировала свою архитектуру, чтобы минимизировать эти задержки, сохраняя высокое качество вывода.

Открытие исходного кода нашей работы

Мы считаем, что развитие разговорного ИИ должно быть совместным усилием. С этой целью мы обязуемся открыть исходный код ключевых компонентов наших исследований, позволяя сообществу экспериментировать, развивать и улучшать наш подход. Наши модели будут доступны под лицензией Apache 2.0. Эта инициатива отражает наше стремление к прозрачности и совместной инновации в области технологии голосового ИИ.

Текущие ограничения

CSM в настоящее время обучается в основном на англоязычных данных; некоторые многоязычные возможности возникают из-за загрязнения набора данных, но пока работает не очень хорошо. Он также не использует информацию, присутствующую в весах предварительно обученных языковых моделей. Кроме того, хотя CSM генерирует высококачественную разговорную просодию, он может моделировать только текстовое и речевое содержание в разговоре — не саму структуру разговора.

Планы на будущее развитие

В ближайшие месяцы мы планируем увеличить размер модели, увеличить объем набора данных и расширить поддержку языков до более чем 20 языков. Мы также планируем изучить способы использования предварительно обученных языковых моделей, работая над созданием больших мультимодальных моделей с глубокими знаниями как речи, так и текста. Наша конечная цель — разработать полностью дуплексные модели, которые могут неявно изучать динамику разговора из данных, включая чередование речевых ходов, паузы и темп. Эти достижения потребуют фундаментальных изменений по всей цепочке, от сбора данных до методологий пост-обучения.