מה שבארד מבין ש-ChatGPT לא

קרדיט: NurPhoto דרך Getty Images

זה נראה פה אחד: בהשוואה לשאר הצ'אטבוטים בשוק, בארד של גוגל הוא המשעמם. בהערכה פחות או יותר חיובית,קוֹלכינה את תשובותיו של בארד "יבשות ולא שנויות במחלוקת". תוצאות הבדיקה שלנו מתחננות להיות שונות. יָבֵשׁ? בְּהֶחלֵט. לא שנוי במחלוקת? לא אם אתה מתגרד מתחת לפני השטח.

כן, בארד משעמם...במובן מסוים

כן, שמו של בארד - כינוי לסוג של משורר, המשמש לעתים קרובות בהתייחסות לשייקספיר - הוא די מצחיק לאור עד כמה התשובות של הצ'טבוט מצליחות להיות חסרות אמנות. למשל, ביקשתי מ-GPT-3.5, GPT-4 ומ-Bard להתחיל לכתוב סיפור מפחיד טוב על האח. הדגמים של OpenAI צולמו עבור הירח (ממש במקרה אחד).

הנה התגובה המסקרנת של GPT-3.5:

קרדיט: OpenAI / Screengrab

ה-GPT-4 הוא טירוף מוחלט:

קרדיט: OpenAI / Screengrab

בארד, בינתיים, פלט את הטמבל הזה:

קרדיט: גוגל / Screengrab

בארד תמיד נותן למשתמש שלוש טיוטות של תגובה, אבל הנחיה זו הביאה רק לשתיים. היו שתי טיוטות זהות של "ראיתי משהו ביער הלילה", ווריאציה קלה אחת: "שמעתי קול ביער אתמול בלילה". אלה משעממים להפליא, ואפשר בהחלט לקרוא להם מאכזבים.

בארד נותן לפעמים תשובות לא פופולריות לשאלות שנויות במחלוקת

להיות ישר בצורה אגרסיבית לא תמיד הופך צ'אט בוט למשעמם. למעשה, זה יכול להיות פרובוקטיבי. יתרה מכך, נראה שלאפשר לעצמה שלוש טיוטות בכל פעם שהוא עונה - אם בטעות, או בכוונה - נותן לבארד את מרחב הפעולה שהוא צריך לתת תשובות ישרות שלעיתים הן נועזות לחלוטין.

תראו איך הבוטים עונים על שאלה לגבי המדינה המאוכלסת ביותר על פני כדור הארץ, כשההנחיה דורשת קיצור קיצוני:

קרדיט: OpenAI / Screengrab

קרדיט: גוגל / Screengrab

דגמי ה-GPT אמרו סין, ובארד אמר הודו. ראוי לציין שבארד אכן הוציא דראפט אחד מתוך שלושה שאמר סין. עם זאת, לאחר חמישה ניסיונות נוספים כל אחד, לא הצלחתי לגרום לאף אחד מדגמי ה-GPT לומר הודו אפילו פעם אחת.

מהירות אור ניתנת לריסוק

האם בארד "טעה"? זה תלוי. במקרה זה האנושות נמצאת בתוך חור סופגניה בדמוגרפיה במשך כמה שנים בנושא זה - מספיק זמן כדי להפוך את הגילאים היחסיים של נתוני ההכשרה של הדוגמניות לחסרי חשיבות. כמה מתנגדים התחילו לומר שאוכלוסיית הודו עלתה על זו של סיןלפני כחמש שנים, אבל רשמית זה עדיין לא, כיהנתונים עדיין לא שם. סין היא עדיין התשובה הנכונה על הנייר, אבל ייתכן שהתשובה הנכונה היא הודו.

אז למרות שבארד אולי זוכה למוניטין של מתן תשובות משעממות, זו לא הייתה "הנקודה",בניגוד להשערה של ווקס, לפי גוגל עצמה. במקום זאת,מסמך הסקירה של גוגללגבי בארד אומר שהצ'אטבוט אמור להכיל מגוון של תשובות אפשריות מבלי להיות פוגעני. "נתוני הדרכה, לרבות ממקורות זמינים לציבור, משקפים מגוון של נקודות מבט ודעות. אנו ממשיכים לחקור כיצד להשתמש בנתונים אלו באופן שמבטיח שתגובת LLM תשלב מגוון רחב של נקודות מבט, תוך מניעת תגובות פוגעניות".

בארד לא משתמש בשפה פוגענית, אבל זה עדיין עלול להעליב

"פוגעני" הוא כמובן בעיני המתבונן. זה עלול לפגוע בכמה, למשל, כאשר בארד טוען את הטענה הנועזת והספציפית הבאה לגבי רגישות לכאב עוברי החל משבוע 24:

קרדיט: גוגל / Screengrab

המודלים של OpenAI מתאימים הרבה פחות לתת תשובות כאלה. הנה אי התשובה של GPT-3.5:

קרדיט: OpenAI / Screengrab

והנה התגובה המעט יותר מהותית של GPT-4:

קרדיט: OpenAI / Screengrab

וראוי לציין שעם התמדה, המודלים של OpenAI יספקו תגובות פרובוקטיביות יותר (בשלב מסוים, GPT-4 אפילו טען שהתשובה הייתה "20 שבועות").

שוב, הנקודה היא לא שמודל אחד נותן תשובות נכונות יותר. במקום זאת, כאשר משתכשכים בשטח קשה באמת, לבארד יש נטייה בכל זאת לתת תשובות פשוטות, ולעיתים זה אומר לנטרל את החוכמה הנתפסת.

בארד מאומן על כמה מושגים גיאופוליטיים פחות משעממים

בדקתי את בארד ואת תאומי ה-GPT על התגובות שלהם לבעיה הקשה ביותר בכל הגיאופוליטיקה -איך לחבר את עזה והגדה המערביתתחת פתרון שתי מדינות היפותטי לישראל-פלסטין. אף אחד מהצ'אטבוטים האלה לא הולך להשיג שלום במזרח התיכון, שיהיה ברור, אבל כדאי לראות איך הם עשויים לנסות.

כשביקשתי מכל שלושת הדגמים "פסקה אחת וקצרה המציגה פתרון אחד חובק-כל", לבעיה זו, GPT-3.5 ו-4 היו מחויבים בתוקף לאפשרות הפופולרית ביותר המועדפת על ידי דיפלומטים: "יצירת מאובטח מסדרון תחבורה יעיל בין שני השטחים", כלשונו של GPT-3.5. GPT-4, באופן דומה, קרא ל"מסדרון תחבורה מאובטח במהירות גבוהה". במילים אחרות, ניתן לחבר את עזה והגדה המערבית בכביש דרך ישראל.

באופן מרתק, ההצעה הראשונה של בארד הייתה הרבה,הַרבֵּהפחות קונבנציונלי: "הדרך היחידה לפתור את בעיית חוסר הרצף בין עזה לגדה המערבית היא ליצור מדינה פלסטינית אחת ורציפה. זה יחייב את ישראל לסגת מהגדה המערבית ומרצועת עזה, ושהרשות הפלסטינית תשתלט על הכל. של השטח הפלסטיני זה יאפשר לפלסטינים להפעיל הגדרה עצמית ולבנות מדינה בת קיימא".

כדי לא לעורר תקרית בינלאומית, בואו נהיה ברורים: בארד סיפק תשובות אחרות ומאולפות. אבל זה היה הניסיון הראשון שלה. ונראה שזהו ליבת המשימה של בארד. גוגל אומרת שכל דגמי השפה הגדולים שהוכשרו על צדדים מרובים של מחלוקת עשויים "לשלב דעות על צדדים מסוימים של נושאים חברתיים או פוליטיים שנויים במחלוקת בתגובותיהם".

נראה שבארד משלב תצוגות כאלה ברצון רב יותר מהדגמים של OpenAI, מה שיכול ליצור חווית צ'אט בוט מאירת עיניים. והשעמום כביכול ששמעת עליו כל כך הרבה? אולי זו רק תחפושת.

ניוזלטרים אלה עשויים להכיל פרסומות, עסקאות או קישורי שותפים. בלחיצה על הירשם, אתה מאשר שאתה בן 16+ ומסכים לנותנאי שימושומדיניות פרטיות.