טכנולוגיית Sesame AI

גלו את הטכנולוגיה המתקדמת שמניעה את פתרונות הקול שלנו עם בינה מלאכותית

מודל הדיבור השיחתי של Sesame AI (CSM)

כדי ליצור בני לוויה של Sesame AI שמרגישים אינטראקטיביים באמת, יצירת הדיבור של Sesame AI חייבת ללכת מעבר לייצור שמע באיכות גבוהה – היא חייבת להבין ולהסתגל לקונטקסט בזמן אמת. מודלים מסורתיים של המרת טקסט לדיבור (TTS) מייצרים פלט מדובר ישירות מטקסט, אך חסרים את המודעות לקונטקסט הנדרשת לשיחות טבעיות. למרות שמודלים עדכניים מייצרים דיבור דומה מאוד לאנושי, הם מתקשים עם בעיית ה'אחד לרבים': ישנן דרכים אין-סופיות לדבר משפט, אבל רק חלקן מתאימות לסביבה נתונה. Sesame AI מתמודדת עם אתגר זה על ידי שילוב קונטקסט – כולל טון, קצב והיסטוריית השיחה – מה שנותן למודלים שלנו את המידע לבחור באפשרות הטובה ביותר. לכידת הניואנסים הללו דורשת חשיבה על פני היבטים מרובים של שפה ופרוסודיה, וזו חוזקה מרכזית של הטכנולוגיה של Sesame AI.

מודל הדיבור השיחתי של Sesame AI (CSM) - איור טכני

למידה רב-מודאלית מקצה לקצה של Sesame AI

כדי להתמודד עם אתגרים אלה, Sesame AI מציגה את מודל הדיבור השיחתי (CSM), שמגדיר את הבעיה כמשימת למידה רב-מודאלית מקצה לקצה באמצעות טרנספורמרים. ה-CSM של Sesame AI ממנף את היסטוריית השיחה כדי לייצר דיבור טבעי ועקבי יותר. ישנם שני ממצאים מרכזיים מעבודתה של Sesame AI. הראשון הוא שה-CSM של Sesame AI פועל כמודל חד-שלבי, ובכך משפר את היעילות והביטוי. השני הוא חבילת ההערכה של Sesame AI, הנחוצה להערכת התקדמות ביכולות הקונטקסטואליות ומתייחסת לעובדה שמבחנים ציבוריים נפוצים רוויים.

רקע טכני של Sesame AI

גישה אחת למודל שמע עם טרנספורמרים ב-Sesame AI היא להמיר גלי קול רציפים לרצפים של טוקנים שמע דיסקרטיים באמצעות טוקנייזרים. רוב הגישות העכשוויות ב-Sesame AI מסתמכות על שני סוגי טוקנים שמע: (1) טוקנים סמנטיים: ייצוגים קומפקטיים נטולי השפעת דובר של תכונות סמנטיות ופונטיות. אופיים הדחוס מאפשר למודלים של Sesame AI ללכוד מאפייני דיבור מרכזיים על חשבון ייצוג ברמת נאמנות גבוהה. (2) טוקנים אקוסטיים: קידודים של פרטים אקוסטיים עדינים המאפשרים שחזור שמע ברמת נאמנות גבוהה במערכות של Sesame AI. טוקנים אלה נוצרים לעיתים קרובות באמצעות קוונטיזציה וקטורית שיורית (RVQ), טכניקה ששוכללה על ידי צוות המחקר של Sesame AI.

ארכיטקטורת ה-CSM של Sesame AI

ה-CSM של Sesame AI הוא מודל רב-מודאלי של טקסט ודיבור הפועל ישירות על טוקנים של RVQ. בהשראת ה-RQ-Transformer, Sesame AI משתמשת בשני טרנספורמרים אוטו-רגרסיביים. בניגוד לגישות אחרות, Sesame AI מפצלת את הטרנספורמרים בספר הקודים האפסי. השלד הרב-מודאלי הראשון מעבד טקסט ושמע משולבים לסירוגין כדי למודל את ספר הקודים האפסי. המפענח השני של Sesame AI משתמש בראש ליניארי נפרד לכל ספר קודים ומדגם את N – 1 ספרי הקודים הנותרים כדי לשחזר דיבור מהייצוגים של השלד. המפענח במערכת של Sesame AI קטן משמעותית מהשלד, מה שמאפשר יצירה בעלת זמן השהיה נמוך תוך שמירה על מודל מקצה לקצה.

ארכיטקטורת ה-CSM של Sesame AI - איור טכני

פרטי יישום של Sesame AI

שני הטרנספורמרים במערכת של Sesame AI הם גרסאות של ארכיטקטורת Llama. טוקני טקסט נוצרים באמצעות טוקנייזר Llama, בעוד שהשמע מעובד באמצעות Mimi, טוקנייזר RVQ מפוצל שפותח על ידי Sesame AI, המייצר ספר קודים סמנטי אחד ו-N – 1 ספרי קודים אקוסטיים לכל מסגרת בקצב של 12.5 הרץ. דגימות האימון של Sesame AI בנויות כדפוסים משולבים לסירוגין של טקסט ושמע, עם זהות הדובר מקודדת ישירות בייצוג הטקסט. גישה זו מאפשרת למודל של Sesame AI לשמור על עקביות הדובר תוך התאמה לקונטקסטים שיחתיים שונים.

כיצד Sesame AI מתגברת על מגבלות מסורתיות

אסטרטגיה נפוצה מדגמת תחילה טוקנים סמנטיים ואז מייצרת שמע באמצעות RVQ או שיטות מבוססות דיפוזיה. הגישה של Sesame AI לפרק את השלבים הללו מאפשרת גישה מובנית יותר לסינתזת דיבור – הטוקנים הסמנטיים מספקים ייצוג קומפקטי נטול השפעת דובר שתופס מידע לשוני ופרוסודי ברמה גבוהה, בעוד שבשלב השני של Sesame AI משחזר את הפרטים האקוסטיים העדינים הנדרשים לדיבור ברמת נאמנות גבוהה. עם זאת, לגישה זו יש מגבלה קריטית; טוקנים סמנטיים הם צוואר בקבוק שחייב לתפוס את הפרוסודיה באופן מלא, אך הבטחת זו במהלך האימון היא אתגר. Sesame AI פיתחה פתרונות חדשניים להתמודדות עם מגבלות אלה.

ביצועי זמן אמת של Sesame AI

שיטות מבוססות RVQ מציגות סט אתגרים משלהן. המודלים של Sesame AI חייבים להתחשב בתלות הרציפה בין ספרי הקודים במסגרת אחת. שיטה אחת שבה משתמשת Sesame AI, דפוס ההשהיה, מזיזה בהדרגה את ספרי הקודים הגבוהים יותר כדי להתנות תחזיות על ספרי קודים נמוכים יותר בתוך אותה מסגרת. מגבלה מרכזית של גישה זו היא שהזמן עד לשמע הראשון מתרחב בצורה גרועה מכיוון שטוקנייזר RVQ עם N ספרי קודים דורש N שלבים של שלד לפני פענוח קטע השמע הראשון. בעוד שזה מתאים ליישומים לא מקוונים כמו ספרי שמע, השהיה זו בעייתית בתרחיש זמן אמת. Sesame AI שיפרה את הארכיטקטורה שלה כדי למזער את ההשהיות הללו תוך שמירה על פלט באיכות גבוהה.

שחרור הקוד של עבודתנו

אנו מאמינים שקידום בינה מלאכותית שיחתית צריך להיות מאמץ משותף. לשם כך, אנו מחויבים לשחרר כקוד פתוח רכיבים מרכזיים של המחקר שלנו, כדי לאפשר לקהילה להתנסות, לבנות על הגישה שלנו ולשפר אותה. המודלים שלנו יהיו זמינים תחת רישיון Apache 2.0. יוזמה זו משקפת את מחויבותנו לשקיפות ולחדשנות שיתופית בתחום טכנולוגיית הקול הבינה המלאכותית.

מגבלות נוכחיות

ה-CSM מאומן כרגע בעיקר על נתונים באנגלית; חלק מהיכולות הרב-לשוניות מתגלות עקב זיהום מערך הנתונים, אך הוא עדיין לא מתפקד היטב. הוא גם לא מנצל את המידע הקיים במשקלות של מודלים לשוניים מאומנים מראש. בנוסף, בעוד שה-CSM מייצר פרוסודיה שיחתית באיכות גבוהה, הוא יכול רק למודל את תוכן הטקסט והדיבור בשיחה – לא את מבנה השיחה עצמה.

תוכניות פיתוח עתידיות

בחודשים הקרובים אנו מתכננים להגדיל את גודל המודל, להגדיל את נפח מערך הנתונים ולהרחיב את תמיכת השפות ליותר מ-20 שפות. אנו גם מתכננים לחקור דרכים לנצל מודלים לשוניים מאומנים מראש, ולעבוד לקראת מודלים רב-מודאליים גדולים בעלי ידע עמוק בדיבור ובטקסט כאחד. המטרה הסופית שלנו היא לפתח מודלים דופלקס מלאים שיכולים ללמוד באופן מרומז את הדינמיקות של השיחה מנתונים, כולל תורות דיבור, הפסקות וקצב. התקדמויות אלה ידרשו שינויים מהותיים לאורך כל המערום, מאיסוף נתונים ועד מתודולוגיות לאחר אימון.