זה צריך רק 3 שניות של שמע
צוות חוקרים במיקרוסופט פרסם מאמר על VALL-E, הבינה המלאכותית החדשה שלהם שיכולה ליצור התחזות מציאותית של דיבור אנושי בהתבסס על דגימות של 3 שניות בלבד. זו התפתחות מדאיגה עבור שחקני קול, כמו גם לכל מי שאפשר להטעות אותו לחשוב שהם בטלפון עם קרוב משפחה שזקוק נואשות לפרטי הכרטיס שלהם. בדרך כלל אני מופתע מהרשימה של טריקים חדשים של AI לפני שאני חושב על ההשלכות השליליות שלהם, אבל מצאתי את זה מטריד מההתחלה.
אתה יכול לנגן כמה מהדגימות בעצמךעל הדגמת github של מיקרוסופט, או צפה בסרטון למטה.
— Tuvok @ NaughtyDog (@TheCartelDel)7 בינואר 2023מיקרוסופט הכריזה על ה-AI שלהם "VALL-E"
באמצעות דגימה של 3 שניות של דיבור אנושי, הוא יכול ליצור דיבור טקסט-לטקסט באיכות סופר-גבוהה מאותו קול. אפילו טווח רגשי וסביבה אקוסטית של
ניתן לשחזר נתונים לדוגמה. הנה כמה דוגמאות.pic.twitter.com/ExoS2VWO6d
החוקרים מתארים את VALL-E כ"מודל שפת קודק עצבי", מאומן על "קודים נפרדים הנגזרים ממודל קודק אודיו עצבי מהמדף". הם גם אומרים שהוא מאומן על 60 אלף שעות דיבור, "שהן גדולות פי מאות ממערכות קיימות". בינה מלאכותית שנועדה לחקות דיבור אנושי באופן ריאליסטי קיימת כבר זמן מה, אבל הדגימות הללו משכנעות בעוד שניסיונות אחריםדי ברור רובוטים.
כפי שמציינים החוקרים, VALL-E יכול "לשמור על הרגש והסביבה האקוסטית של הדובר" של ההנחיה. זה מרשים, אבל שונה מנחיתה על הטון והרגש הנכונים בהופעה, אז זה עדיין רחוק מלהחליף שחקני קול. אני לא יכול לראות אפילו גרסה מתקדמת של VALL-E נותנת ביצועים שעולים על אלו של אנשי מקצוע מוכשרים - אבל לחברות יש נטייה לרדוף אחרי מה שמשתלם יותר מאשר מה הכי טוב.
זה זמן מרגש להתקדמות בינה מלאכותית, כאשר Chat-GPT מסוגל כעתכתיבת מאמרים ותיקון שגיאות קידוד, בעוד אנשים כמו Midjourney ו-DALL-E פולטים תמונות שאתה יכול בקלות לטעותלעבודתם של אמנים אנושיים. הלוואי והיינו יכולים לשחק עם כל הצעצועים האלה בעולם שבו הם לא איימו על פרנסתם של אנשים.