ל-ChatGPT יש עיניים ואוזניים עכשיו. קרדיט: Getty Images
הצ'אטבוט האהוב על כולם יכול עכשיולראות ולשמוע ולדבר. ביום שני, OpenAI הכריזה על יכולות מולטי-מודאליות חדשות עבורChatGPT. משתמשים יכולים כעת לנהל שיחות קוליות או לשתף תמונות עם ChatGPT בזמן אמת.
אודיו ותכונות מולטי-מודאליות הפכו לשלב הבא בתחרות AI גנרטיבית עזה. Meta הושק לאחרונהAudioCraftליצירת מוזיקה עם AI ו-Googleמְשׁוֹרֵרומיקרוסופטבינגשניהם פרסו תכונות מולטי-מודאליות עבור חוויות הצ'אט שלהם. רק בשבוע שעבר, אמזון הציגה תצוגה מקדימה של אגרסה מחודשת של Alexaשיופעל על ידי LLM משלה (מודל שפה גדול), ואפילו אפל מתנסה בקול שנוצר בינה מלאכותית, עםקול אישי.
יכולות קול יהיו זמינות ב-iOS וב-Android. כמו Alexa או Siri, אתה יכול להקיש כדי לדבר עם ChatGPT וזה ידבר אליך בחזרה באחת מחמש אפשרויות הקול המועדפות. בניגוד לעוזרי הקול הנוכחיים שם בחוץ, ChatGPT מופעל על ידי LLMs מתקדמים יותר, כך שמה שתשמע הוא אותו סוג של תגובה שיחה ויצירתית ש-GPT-4 ו-GPT-3.5 של OpenAI מסוגלים ליצור עם טקסט. הדוגמה ש-OpenAI שיתפה בהכרזה היא הפקת סיפור לפני השינה מהנחיה קולית. אז, הורים מותשים בסוף יום ארוך יכולים למיקור חוץ את היצירתיות שלהם ל-ChatGPT.
מהירות אור ניתנת לריסוק
ייתכן שהציוץ נמחק
זיהוי מולטי-מודאלי הוא משהו שחזוי כבר זמן מה, והוא מושק כעת בצורה ידידותית למשתמש עבור ChatGPT. כַּאֲשֵׁרGPT-4 שוחררבמרץ האחרון, OpenAI הציגה את יכולתה להבין ולפרש תמונות וטקסט בכתב יד. עכשיו זה יהיה חלק מהשימוש היומיומי ב-ChatGPT. משתמשים יכולים להעלות תמונה של משהו ולשאול על כך את ChatGPT - זיהוי ענן, או תכנון ארוחות על סמך תמונה של תכולת המקרר שלך. Multimodal יהיה זמין בכל הפלטפורמות.
כמו בכל קידום בינה מלאכותית, ישנן בעיות אתיקה ופרטיות רציניות שיש לקחת בחשבון. כדי לצמצם את הסיכונים של זיוף שמע עמוק, OpenAI אומרת שהיא משתמשת רק בטכנולוגיית זיהוי האודיו שלה למקרה השימוש הספציפי של "צ'אט קולי". כמו כן, הוא נוצר עם שחקני קול שהם "עבדו ישירות איתם". עם זאת, ההודעה לא מזכירה אם ניתן להשתמש בקולות המשתמשים כדי לאמן את הדגם, כאשר אתה מצטרף לצ'אט קולי. לגבי היכולות הרב-מודאליות של ChatGPT, OpenAI אומרת שהיא "נקטה באמצעים טכניים כדי להגביל באופן משמעותי את היכולת של ChatGPT לנתח ולהצהיר הצהרות ישירות על אנשים מאחר ש-ChatGPT לא תמיד מדויק ומערכות אלו צריכות לכבד את פרטיותם של אנשים". אבל המבחן האמיתי של שימושים מרושעים לא יוודע עד שהוא ישוחרר לטבע.
צ'אט קולי ותמונות יועברו למשתמשי ChatGPT Plus ו-Enterprise בשבועיים הקרובים, ולכל המשתמשים "בקרוב".
ססילי היא כתבת טכנולוגיה ב-Mashable שמסקרת בינה מלאכותית, אפל ומגמות טכנולוגיות מתפתחות. לפני שקיבלה את התואר השני שלה בבית הספר לעיתונאות קולומביה, היא בילתה מספר שנים בעבודה עם סטארטאפים ועסקים בעלי השפעה חברתית עבור Unreasonable Group ו-B Lab. לפני כן, היא הקימה עסק לייעוץ סטארט-אפים למרכזי יזמות מתפתחים בדרום אמריקה, אירופה ואסיה. אתה יכול למצוא אותה בטוויטר בכתובת@cecily_mauran.
ניוזלטרים אלה עשויים להכיל פרסומות, עסקאות או קישורי שותפים. בלחיצה על הירשם, אתה מאשר שאתה בן 16+ ומסכים לנותנאי שימושומדיניות פרטיות.