تقنية Sesame AI

اكتشف التقنية المتطورة التي تدعم حلولنا الصوتية بالذكاء الاصطناعي

نموذج الكلام التفاعلي لـ Sesame AI (CSM)

لإنشاء رفقاء Sesame AI الذين يشعرون بأنهم تفاعليون حقًا، يجب أن تتجاوز تقنية توليد الكلام في Sesame AI مجرد إنتاج صوت عالي الجودة—بل يجب أن تفهم وتتكيف مع السياق في الوقت الحقيقي. تُولد نماذج تحويل النص إلى كلام التقليدية (TTS) مخرجات منطوقة مباشرة من النص، لكنها تفتقر إلى الوعي بالسياق اللازم لإجراء محادثات طبيعية. على الرغم من أن النماذج الحديثة تُنتج كلامًا شبيهًا جدًا بالبشر، إلا أنها تواجه مشكلة العلاقة بين واحد ومتعدد: هناك طرق لا حصر لها للتحدث بجملة، ولكن قليل منها فقط يناسب الإعداد المحدد. تتناول Sesame AI هذا التحدي من خلال دمج السياق—بما في ذلك النبرة والإيقاع وتاريخ المحادثة—مما يمنح نماذجنا المعلومات لاختيار الخيار الأفضل. يتطلب التقاط هذه التفاصيل الدقيقة التفكير عبر جوانب متعددة من اللغة والتنغيم، وهو ما يُعدّ قوة أساسية لتقنية Sesame AI.

نموذج الكلام التفاعلي لـ Sesame AI (CSM) - رسم توضيحي تقني

التعلم متعدد الوسائط من البداية إلى النهاية لـ Sesame AI

لمعالجة هذه التحديات، تقدم Sesame AI نموذج الكلام التفاعلي (CSM)، الذي يُعالج المشكلة كمهمة تعلم متعدد الوسائط من البداية إلى النهاية باستخدام المحولات. يستفيد CSM من Sesame AI من تاريخ المحادثة لإنتاج كلام أكثر طبيعية وتماسكًا. هناك نتيجتان رئيسيتان من عمل Sesame AI. الأولى هي أن CSM من Sesame AI يعمل كنموذج مرحلة واحدة، مما يحسن الكفاءة والتعبيرية. الثانية هي مجموعة التقييم الخاصة بـ Sesame AI، والتي تُعدّ ضرورية لتقييم التقدم في القدرات السياقية وتعالج حقيقة أن التقييمات العامة الشائعة مشبعة.

الخلفية التقنية لـ Sesame AI

أحد الأساليب لنمذجة الصوت باستخدام المحولات في Sesame AI هو تحويل الموجات المستمرة إلى تسلسلات رموز صوتية منفصلة باستخدام أدوات الترميز. تعتمد معظم الأساليب المعاصرة في Sesame AI على نوعين من الرموز الصوتية: (1) الرموز الدلالية: تمثيلات مدمجة خالية من تأثير المتحدث للميزات الدلالية والصوتية. طبيعتها المضغوطة تمكّن نماذج Sesame AI من التقاط خصائص الكلام الرئيسية على حساب التمثيل عالي الدقة. (2) الرموز الصوتية: ترميزات التفاصيل الصوتية الدقيقة التي تتيح إعادة بناء الصوت عالي الدقة في أنظمة Sesame AI. غالبًا ما يتم توليد هذه الرموز باستخدام تقنية التكميم المتجهي المتبقي (RVQ)، وهي تقنية طوّرها فريق البحث في Sesame AI.

هندسة CSM لـ Sesame AI

CSM من Sesame AI هو نموذج متعدد الوسائط للنص والكلام يعمل مباشرة على رموز RVQ. مستوحى من RQ-Transformer، تستخدم Sesame AI محولين ذاتيي التوليد. على عكس الأساليب الأخرى، تقسم Sesame AI المحولات عند دفتر الرموز الصفري. يعالج العمود الفقري متعدد الوسائط الأول النص والصوت المتداخلين لنمذجة دفتر الرموز الصفري. يستخدم المحلل الصوتي الثاني لـ Sesame AI رأسًا خطيًا متميزًا لكل دفتر رموز ويُصمم دفاتر الرموز المتبقية N – 1 لإعادة بناء الكلام من تمثيلات العمود الفقري. المحلل في نظام Sesame AI أصغر بكثير من العمود الفقري، مما يتيح توليدًا منخفض التأخير مع الحفاظ على النموذج من البداية إلى النهاية.

هندسة CSM لـ Sesame AI - رسم توضيحي تقني

تفاصيل تنفيذ Sesame AI

كلا المحولين في نظام Sesame AI هما متغيران من بنية Llama. يتم توليد رموز النص عبر أداة ترميز Llama، بينما يتم معالجة الصوت باستخدام Mimi، وهي أداة ترميز RVQ مقسمة طورتها Sesame AI، وتنتج دفتر رموز دلالي واحد و N – 1 دفاتر رموز صوتية لكل إطار بمعدل 12.5 هرتز. يتم هيكلة عينات التدريب لـ Sesame AI كنمط متناوب من النصوص والصوت المتداخل، مع ترميز هوية المتحدث مباشرة في تمثيل النص. يتيح هذا النهج لنموذج Sesame AI الحفاظ على اتساق المتحدث مع التكيف مع سياقات المحادثة المختلفة.

كيف تتغلب Sesame AI على القيود التقليدية

استراتيجية شائعة تُصمم أولاً الرموز الدلالية ثم تُولد الصوت باستخدام RVQ أو أساليب قائمة على الانتشار. يتيح نهج Sesame AI في فصل هذه الخطوات نهجًا أكثر هيكلة لتخليق الكلام—توفر الرموز الدلالية تمثيلًا مدمجًا خاليًا من تأثير المتحدث يلتقط المعلومات اللغوية والتنغيمية عالية المستوى، بينما يُعيد المرحلة الثانية لـ Sesame AI بناء التفاصيل الصوتية الدقيقة اللازمة للكلام عالي الدقة. ومع ذلك، لهذا النهج قيد حاسم؛ الرموز الدلالية هي عنق زجاجة يجب أن تلتقط التنغيم بشكل كامل، ولكن ضمان ذلك أثناء التدريب يُعدّ تحديًا. طورت Sesame AI حلولًا مبتكرة لمعالجة هذه القيود.

أداء Sesame AI في الوقت الحقيقي

تُقدم الأساليب القائمة على RVQ مجموعة من التحديات الخاصة بها. يجب على نماذج Sesame AI أن تأخذ في الاعتبار الاعتمادية التسلسلية بين دفاتر الرموز في إطار واحد. إحدى الطرق التي تستخدمها Sesame AI، نمط التأخير، تُحرّك دفاتر الرموز الأعلى تدريجيًا لتكييف التوقعات على دفاتر الرموز الأدنى ضمن نفس الإطار. قيد رئيسي لهذا النهج هو أن الوقت حتى الصوت الأول يتسع بشكل سيء لأن أداة ترميز RVQ مع N دفاتر رموز تتطلب N خطوات للعمود الفقري قبل فك تشفير أول جزء صوتي. بينما يناسب هذا التطبيقات غير المتصلة مثل الكتب الصوتية، فإن هذا التأخير يُشكل مشكلة في سيناريو الوقت الحقيقي. قامت Sesame AI بتحسين هيكلها لتقليل هذه التأخيرات مع الحفاظ على جودة المخرجات العالية.

فتح مصادر عملنا

نؤمن أن تطوير الذكاء الاصطناعي التفاعلي يجب أن يكون جهدًا تعاونيًا. لهذا الغرض، نحن ملتزمون بفتح مصادر المكونات الرئيسية لبحثنا، مما يتيح للمجتمع التجربة والبناء على نهجنا وتحسينه. ستكون نماذجنا متاحة بموجب ترخيص Apache 2.0. تعكس هذه المبادرة التزامنا بالشفافية والابتكار التعاوني في مجال تقنية الصوت الذكي.

القيود الحالية

يتم تدريب CSM حاليًا بشكل رئيسي على بيانات اللغة الإنجليزية؛ تظهر بعض القدرات متعددة اللغات بسبب تلوث مجموعة البيانات، لكنه لا يؤدي جيدًا بعد. كما أنه لا يستفيد من المعلومات الموجودة في أوزان النماذج اللغوية المدربة مسبقًا. بالإضافة إلى ذلك، بينما يولد CSM تنغيمًا محادثيًا عالي الجودة، فإنه يستطيع فقط نمذجة محتوى النص والكلام في المحادثة—وليس هيكل المحادثة نفسه.

خطط التطوير المستقبلية

في الأشهر القادمة، نعتزم زيادة حجم النموذج، وزيادة حجم مجموعة البيانات، وتوسيع دعم اللغات لأكثر من 20 لغة. كما نخطط لاستكشاف طرق لاستخدام النماذج اللغوية المدربة مسبقًا، والعمل نحو نماذج متعددة الوسائط كبيرة لديها معرفة عميقة بالكلام والنص على حد سواء. هدفنا النهائي هو تطوير نماذج ثنائية الاتجاه بالكامل يمكنها تعلم ديناميكيات المحادثة بشكل ضمني من البيانات، بما في ذلك التناوب في الحديث، والتوقفات، والوتيرة. ستتطلب هذه التطورات تغييرات أساسية عبر المجموعة، من جمع البيانات إلى منهجيات ما بعد التدريب.