מחולל וידאו AI של עליבאבא פשוט טבע על סורה בכך שגרם לגברת סורה לשיר

עליבאבא רוצה שתשווה את החדש שלהAIמחולל וידאו לSora של OpenAI. אחרת, למה להשתמש בו כדי להפוך את חגורת היצירה המפורסמת ביותר של סורה לשיר של Dua Lipa?

ביום שלישי, ארגון בשם "המכון למחשוב אינטליגנטי" בתוך ארגון המסחר האלקטרוני הסיני עליבאבא פרסםנְיָרעל מחולל וידאו חדש ומסקרן בינה מלאכותית שהיא פיתחה שטוב להחריד בהפיכת תמונות סטילס של פרצופים לשחקנים סבירים וזמרים כריזמטיים. המערכת נקראת EMO, כינוי כיפי שנמשך כביכול מהמילים "דיוקן רגשי חי" (אם כי, במקרה כזה, מדוע היא לא נקראת "EPO"?).

EMO הוא הצצה לעתיד שבו מערכת כמו סורה מייצרת עולמות וידאו, ובמקום להיות מאוכלסת על ידיאנשים אילמים מושכים פשוט מסתכלים אחד על השני, ה"שחקנים" ביצירות הבינה המלאכותית האלה אומרים דברים - או אפילו שרים.

עליבאבא שמה סרטוני הדגמה ב-GitHub כדי להציג את המסגרת החדשה שלה לייצור וידאו. אלה כוללים סרטון של הגברת סורה - המפורסמת בהסתובבות בטוקיו שנוצרה בבינה מלאכותית מיד אחרי סופת גשם - שרה את "אל תתחיל עכשיו" מאת דואה ליפא והופכת עם זה די פאנקית.

ההדגמות גם חושפות כיצד EMO יכולה, אם לצטט דוגמה אחת, לגרום לאודרי הפבורן לדבר את האודיו מקליפ ויראלי שלריברדייללילי ריינהארט מדברת על כמה שהיא אוהבת לבכות. בקליפ ההוא, ראשה של הפבורן שומר על עמדה זקופה למדי כמו חייל, אבל כל הפנים שלה - לא רק הפה שלה - באמת מזכירים את המילים באודיו.

ראה גם:

בניגוד לגרסה המופלאה הזו של הפבורן, ריינהארטבקליפ המקורימזיזה את הראש שלה הרבה, והיא גם מרגשת אחרת לגמרי, כך ש-EMO לא נראה ריף על סוג של החלפת פנים בינה מלאכותית שהפכה לוויראלית באמצע שנות ה-2010 והובילהעליית הזיופים העמוקים ב-2017.

מהירות אור ניתנת לריסוק

במהלך השנים האחרונות צצו יישומים שנועדו ליצור הנפשת פנים מאודיו, אבל הם לא היו כל כך מעוררי השראה. לדוגמה, חבילת התוכנה NVIDIA Omniverse מציגה אפליקציה עםמסגרת אודיו-לפנים-אנימציהשנקרא "Audio2Face" - המסתמך על אנימציה תלת-ממדית עבור הפלטים שלה במקום פשוט לייצר וידאו פוטו-ריאליסטי כמו EMO.

למרות ש- Audio2Face רק בן שנתיים, ההדגמה של EMO גורמת לו להיראות כמו עתיק. בסרטון שמתיימר להפגין את יכולתו לחקות רגשות תוך כדי דיבור, הפנים התלת-ממדיות שהוא מתאר נראים יותר כמו בובה במסכת הבעת פנים, בעוד שהדמויות של EMO כאילו מבטאות את גווני הרגש המורכבים שמופיעים בכל קטע שמע. .

ראוי לציין בשלב זה שכמו עם Sora, אנו מעריכים את מסגרת הבינה המלאכותית הזו על סמך הדגמה שסופקה על ידי יוצריה, ולמעשה אין לנו יד על גרסה שמישה שנוכל לבדוק. אז קשה לדמיין שממש מחוץ לשער תוכנה זו יכולה ליצור ביצועי פנים אנושיים כה משכנעים המבוססים על אודיו ללא ניסוי וטעייה משמעותיים, או כוונון עדין ספציפי למשימה.

הדמויות בהדגמות לרוב אינן מביעות דיבור שקורא לרגשות קיצוניים - פרצופים דפוקים מזעם, או נמסים בדמעות, למשל - אז נותר לראות כיצד EMO תתמודד עם רגשות כבדים עם אודיו בלבד כמדריך. . יתרה מכך, למרות שיוצרו בסין, הוא מתואר כפוליגלוט מוחלט, המסוגל לקלוט את הפוניקה של אנגלית וקוריאנית, ולגרום לפרצופים ליצור את הפונמות המתאימות בנאמנות הגונה - אם כי רחוקה מלהיות מושלמת. אז במילים אחרות, זה יהיה נחמד לראות מה יקרה אם תכניס ל-EMO אודיו של אדם כועס מאוד המדבר בשפה פחות מוכרת כדי לראות עד כמה הוא מתפקד.

מרתקים גם הקישוטים הקטנים בין ביטויים - שפתיים קפוצות או מבט מטה - שמכניסים רגש להפסקות ולא רק בזמנים שבהם השפתיים זזות. אלו הן דוגמאות לאופן שבו פרצוף אנושי אמיתי מרגש, וזה מפתה לראות את EMO מצליחים כל כך, אפילו בהדגמה כה מוגבלת.

לפי העיתון, המודל של EMO מסתמך על מערך נתונים גדול של אודיו ווידאו (שוב:מאיפה?) לתת לו את נקודות ההתייחסות הנחוצות לרגש בצורה כל כך ריאלית. והגישה המבוססת על הדיפוזיה שלו, כנראה, אינה כרוכה בשלב ביניים שבו מודלים תלת מימדיים עושים חלק מהעבודה. אמנגנון התייחסות-תשומת לבוכן נפרדמנגנון קשב שמעמשולבים על ידי המודל של EMO כדי לספק דמויות מונפשות שהנפשות הפנים שלהן תואמות למה שמופיע באודיו תוך שמירה על נאמנות למאפייני הפנים של תמונת הבסיס שסופקה.

מדובר באוסף מרשים של הדגמות, ואחרי צפייה בהם אי אפשר שלא לדמיין מה צפוי בהמשך. אבל אם אתה מרוויח את הכסף שלך כשחקן, נסה לא לדמיין קשה מדי, כי דבריםלהיות די מטריד די מהר.