Sesame AI 기술
우리의 AI 음성 솔루션을 구동하는 최첨단 기술을 발견하세요
Sesame AI의 대화 음성 모델(CSM)
진정으로 상호작용적으로 느껴지는 Sesame AI 동반자를 만들기 위해, Sesame AI의 음성 생성 기술은 고품질 오디오를 생성하는 것을 넘어 실시간으로 맥락을 이해하고 적응해야 합니다. 전통적인 텍스트 음성 변환(TTS) 모델은 텍스트에서 직접 음성을 생성하지만, 자연스러운 대화에 필요한 맥락 인식이 부족합니다. 최근 모델들이 매우 인간과 유사한 음성을 생성하고 있지만, '일대다' 문제에 직면합니다: 한 문장을 말하는 유효한 방법은 무수히 많지만, 특정 상황에 적합한 것은 일부에 불과합니다. Sesame AI는 톤, 리듬, 대화 기록 등을 포함한 맥락을 통합함으로써 이 문제를 해결하여 모델이 최적의 선택을 할 수 있는 정보를 제공합니다. 이러한 미묘한 뉘앙스를 포착하려면 언어와 운율의 여러 측면을 고려한 추론이 필요하며, 이는 Sesame AI 기술의 핵심 강점입니다.

Sesame AI의 종단간 멀티모달 학습
이러한 도전에 대응하기 위해 Sesame AI는 대화 음성 모델(CSM)을 도입하며, 문제를 트랜스포머를 사용한 종단간 멀티모달 학습 작업으로 정의합니다. Sesame AI의 CSM은 대화 기록을 활용하여 더 자연스럽고 일관된 음성을 생성합니다. Sesame AI의 연구에서 얻은 주요 통찰은 두 가지입니다. 첫째, Sesame AI의 CSM은 단일 단계 모델로 작동하여 효율성과 표현력을 향상시킵니다. 둘째, 맥락적 능력의 진전을 평가하기 위해 필요한 Sesame AI의 평가 스위트는 일반적인 공개 평가가 포화 상태라는 사실을 해결합니다.
Sesame AI의 기술적 배경
Sesame AI에서 트랜스포머를 사용해 오디오를 모델링하는 한 가지 접근법은 토크나이저를 활용해 연속적인 파형을 이산적인 오디오 토큰 시퀀스로 변환하는 것입니다. Sesame AI의 현대적인 접근법 대부분은 두 가지 유형의 오디오 토큰에 의존합니다: (1) 의미적 토큰: 의미적 및 음성적 특징의 압축된 화자 불변 표현. 압축된 특성 덕분에 Sesame AI의 모델은 고충실도 표현을 희생하면서도 주요 음성 특징을 포착할 수 있습니다. (2) 음향적 토큰: Sesame AI 시스템에서 고충실도 오디오 재구성을 가능하게 하는 세밀한 음향 세부 사항의 인코딩. 이러한 토큰은 Sesame AI 연구팀이 개선한 잔여 벡터 양자화(RVQ)를 사용해 생성되는 경우가 많습니다.
Sesame AI의 CSM 아키텍처
Sesame AI의 CSM은 RVQ 토큰에서 직접 작동하는 멀티모달 텍스트 및 음성 모델입니다. RQ-Transformer에서 영감을 받아 Sesame AI는 두 개의 오토리그레시브 트랜스포머를 사용합니다. 다른 접근법과 달리 Sesame AI는 제로 번째 코드북에서 트랜스포머를 분할합니다. 첫 번째 멀티모달 백본은 제로 번째 코드북을 모델링하기 위해 교차 배치된 텍스트와 오디오를 처리합니다. Sesame AI의 두 번째 오디오 디코더는 각 코드북마다 별개의 선형 헤드를 사용하며, 백본의 표현에서 음성을 재구성하기 위해 나머지 N – 1 코드북을 모델링합니다. Sesame AI 시스템의 디코더는 백본보다 훨씬 작아 모델을 종단간으로 유지하면서도 낮은 지연 생성을 가능하게 합니다.

Sesame AI의 구현 세부 사항
Sesame AI 시스템 내의 두 트랜스포머는 모두 Llama 아키텍처의 변형입니다. 텍스트 토큰은 Llama 토크나이저를 통해 생성되며, 오디오는 Sesame AI가 개발한 분할 RVQ 토크나이저인 Mimi를 사용해 처리되며, 12.5Hz에서 프레임당 하나의 의미적 코드북과 N – 1개의 음향적 코드북을 생성합니다. Sesame AI의 훈련 샘플은 텍스트와 오디오가 교차 배치된 패턴으로 구조화되어 있으며, 화자 ID는 텍스트 표현에 직접 인코딩됩니다. 이 접근법은 Sesame AI의 모델이 화자 일관성을 유지하면서 다양한 대화 맥락에 적응할 수 있게 합니다.
Sesame AI가 전통적 한계를 극복하는 방법
일반적인 전략은 먼저 의미적 토큰을 모델링한 후 RVQ 또는 확산 기반 방법을 사용해 오디오를 생성하는 것입니다. Sesame AI의 이러한 단계를 분리하는 접근법은 음성 합성에 더 구조화된 접근을 가능하게 합니다—의미적 토큰은 고수준 언어적 및 운율 정보를 포착하는 화자 불변의 압축된 표현을 제공하며, Sesame AI의 두 번째 단계는 고충실도 음성에 필요한 세밀한 음향 세부 사항을 재구성합니다. 그러나 이 접근법에는 중요한 한계가 있습니다; 의미적 토큰은 운율을 완전히 포착해야 하는 병목 지점이며, 훈련 중 이를 보장하는 것이 어렵습니다. Sesame AI는 이러한 한계를 해결하기 위한 혁신적인 솔루션을 개발했습니다.
Sesame AI의 실시간 성능
RVQ 기반 방법은 자체적인 도전 과제를 제시합니다. Sesame AI의 모델은 프레임 내 코드북 간의 순차적 의존성을 고려해야 합니다. Sesame AI가 사용하는 한 가지 방법인 지연 패턴은 상위 코드북을 점진적으로 이동시켜 동일 프레임 내에서 하위 코드북에 기반한 예측을 조건부로 만듭니다. 이 접근법의 주요 한계는 첫 오디오까지의 시간이 제대로 확장되지 않는다는 점입니다. N 코드북을 가진 RVQ 토크나이저는 첫 오디오 청크를 디코딩하기 전에 N 백본 단계를 필요로 하기 때문입니다. 오디오북과 같은 오프라인 애플리케이션에는 적합하지만, 실시간 시나리오에서는 이 지연이 문제가 됩니다. Sesame AI는 고품질 출력을 유지하면서 이러한 지연을 최소화하도록 아키텍처를 최적화했습니다.
우리의 연구 오픈소싱
우리는 대화형 AI 발전이 협력적인 노력이어야 한다고 믿습니다. 이를 위해 우리는 연구의 주요 구성 요소를 오픈소싱하여 커뮤니티가 우리의 접근법을 실험하고, 구축하고, 개선할 수 있도록 할 예정입니다. 우리의 모델은 Apache 2.0 라이선스 하에 제공될 것입니다. 이 이니셔티브는 AI 음성 기술 분야에서의 투명성과 협력적 혁신에 대한 우리의 약속을 반영합니다.
현재 한계
CSM은 현재 주로 영어 데이터로 훈련되고 있습니다; 데이터셋 오염으로 인해 일부 다국어 능력이 나타나지만, 아직 잘 작동하지 않습니다. 또한 사전 훈련된 언어 모델의 가중치에 존재하는 정보를 활용하지 않습니다. 게다가 CSM은 고품질 대화 운율을 생성할 수 있지만, 대화의 텍스트와 음성 내용만 모델링할 수 있으며 대화 자체의 구조는 모델링할 수 없습니다.
미래 개발 계획
앞으로 몇 달 동안 모델 크기를 늘리고, 데이터셋 용량을 확대하며, 20개 이상의 언어 지원을 확장할 계획입니다. 또한 사전 훈련된 언어 모델을 활용하는 방법을 탐구하고, 음성과 텍스트 모두에 대한 깊은 지식을 갖춘 대규모 멀티모달 모델을 목표로 연구를 진행할 예정입니다. 우리의 궁극적인 목표는 데이터에서 대화 다이내믹스(턴 테이킹, 일시 정지, 속도 포함)를 암묵적으로 학습할 수 있는 완전한 양방향 모델을 개발하는 것입니다. 이러한 발전은 데이터 큐레이션에서 훈련 후 방법론에 이르기까지 스크트 전반에 걸친 근본적인 변화를 요구할 것입니다.