הנה רגע מרגש של 'AI יכול לעשות את זה עכשיו': ה-AI האחרון של Meta, Cicero, יכול לנצח שחקנים אנושיים במשחקי משא ומתן ובגידה קלאסיים דיפלומטיה. בזמן משחק מקוון בwebDiplomacy.net, הוא השיג "יותר מכפול מהניקוד הממוצע של שחקנים אנושיים", דירוג "ב-10 האחוזים המובילים של המשתתפים ששיחקו יותר ממשחק אחד". הוא יכול להבין מי צריך לשכנע לעשות מה, ואז לתקשר עם אותם שחקנים תוך שימוש בשפה טבעית מרשימה ויעילה.
אני לא אעשה בדיחה 'משתלט על העולם'. אני לא.
דיפלומטיה הוא משחק לוח מופשט בו שחקנים מתחרים על השליטה באירופה בגרסה חופשית לכולם של מלחמת העולם הראשונה. בכל סיבוב אתה מתמרן מספר קטן של צבאות סביב הלוח, אבל חשוב מכך, אתה כורת בריתות. אתה אומר לג'וף שאתה צריך להתאגד נגד גרמניה של מרגרט, להסכים לתמוך בחייליו לברלין, ואז להחליף בחשאי את תמיכתך למרגרט כי היא הבטיחה לעזור לך להסתער על פריז. דיפלומטיה היא, כמו של מטהפוסט מחקר בבלוגמנסח את זה, "משחק על אנשים ולא על חלקים".
תמרון מושכל עוזר, כמובן, וזה תחום אסטרטגי שבו כישורי הבינה המלאכותית המתקדמת גוברים ללא מחלוקת על אלה של בני אדם - כזה שמטה כמובן תפחית. עם זאת, זה עדיין משחק שבו אתה צריך לשכנע אנשים לשתף איתך פעולה, וקיקרו יכול לעשות בדיוק את זה.
פרטים נוספים ניתן למצוא בפוסט הבלוג של Meta ושל הצוותעבודת מחקר, אבל אתה יכול לקפוץ ישר אל החלקים המרשימים ביותר על ידי התבוננות במחקר של מדען המחקר מייק לואיסשרשור טוויטר.
כל משחק, הוא שולח ומקבל מאות הודעות, אשר חייבות להיות מבוססות במדויק על מצב המשחק, היסטוריית הדיאלוגים והתוכניות שלו. פיתחנו שיטות לסינון הודעות שגויות, ולתת לסוכן לעבור לאדם ב-40 משחקים. נחשו איזה שחקן הוא AI כאן... 4/5pic.twitter.com/8IMuepL7yf
- מייק לואיס (@ml_perception)22 בנובמבר 2022
הפוסט בבלוג של Meta אכן נכנס לדקויות של מה שגורם ל-Cicero לתקתק, וזה די מעניין. במקום להשתפר אך ורק באמצעות למידה מפוקחת, שבה AI מתאמן על "נתונים מסומנים כגון מסד נתונים של פעולות של שחקנים אנושיים במשחקי העבר", Cicero עושה תחזיות ומנסה לדבוק בהן:
"Citerative מפעיל אלגוריתם תכנון איטרטיבי שמאזן בין עקביות דיאלוג לרציונליות. הסוכן חוזה תחילה את המדיניות של כולם לתפנית הנוכחית בהתבסס על הדיאלוג שהוא שיתף עם שחקנים אחרים, וגם חוזה מה שחקנים אחרים חושבים שתהיה מדיניות הסוכן. לאחר מכן מריץ אלגוריתם תכנון שפיתחנו בשם piKL, אשר משפר באופן איטרטיבי את התחזיות הללו על ידי ניסיון לבחור מדיניות חדשה בעלת ערך צפוי גבוה יותר בהתחשב באחר המדיניות החזויה של השחקנים, תוך ניסיון לשמור את התחזיות החדשות קרובות לתחזיות המדיניות המקוריות".
עוד ציוץמלואיסמרחיב על כך, ואומר שקיקרו "נועד לעולם לא לדקור בכוונה גב" אבל ש"לפעמים הוא משנה את דעתו...".
Meta מציע יישום עתידי אחד עבור AI כמו Cicero יכול להיות יצירת NPCs של משחקי וידאו שמדברים בצורה מציאותית תוך הבנת המניעים שלך. אולי באמת נצליח לדבר עם המפלצות.