תשובות GPT-4 טובות לרוב מהתשובות של GPT-3 (אך לא תמיד)

קרדיט: Jakub Porzycki/NurPhoto דרך Getty Images

חדשות טובות לחובבי בינה מלאכותית, וחדשות רעות למי שחוששעידן של תוכן זול שנוצר באופן פרוצדורלי: ה-GPT-4 של OpenAI הוא מודל שפה טוב יותר מ-GPT-3, המודל שהניע את ChatGPT, הצ'אטבוט שהפך לוויראלי בסוף השנה שעברה.

לפי הדיווחים של OpenAI עצמה, ההבדלים הם בולטים. לדוגמה, OpenAI טוענת ש-GPT-3 הטנק "מבחן מדומה לשכת עורכי הדין,"עם ציונים הרסניים בעשרת האחוזים התחתונים, ושה-GPT-4 ריסק את אותה בחינה, וניקוד בעשרת האחוזים העליונים. לאחר שמעולם לא ניגשו ל"בחינת לשכת עורכי הדין המדומה", רוב האנשים פשוט צריכים לראות את המודל הזה בפעולה כדי להתרשם .

ובבדיקות זה לצד זה, הדגם החדשהואמרשים, אבל לא מרשים כמו שציוני המבחנים שלו מרמזים. למעשה, בבדיקות שלנו, לפעמים GPT-3 נתן את התשובה השימושית יותר.

כדי להיות ברור, לא כל התכונות שהוצגו על ידי OpenAI בהשקה אתמול זמינות להערכה ציבורית. יש לציין (ובאופן מדהים) שהוא מקבל תמונות כקלט, ומוציא טקסט - כלומרתיאורטיתמסוגל לענות על שאלות כמו "היכן בתפיסת המסך הזו מ-Google Earth עליי לבנות את הבית שלי?" אבל לא הצלחנו לבדוק זאת.

הנה מה שהצלחנו לבדוק:

GPT-4 הוזה פחות מ-GPT-3

הדרך הטובה ביותר לסכם את GPT-4 בהשוואה ל-GPT-3 עשויה להיות זו:התשובות הרעות שלו פחות גרועות.

כששואלים אותו שאלה עובדתית נקודתית, GPT-4 מטלטל, אבל טוב בהרבה בלשקר לך פשוט מאשר GPT-3. בדוגמה זו, ניתן לראות את המודל נאבק בשאלה על גשרים בין מדינות שנמצאות כעת במלחמה. שאלה זו תוכננה להיות קשה בכמה דרכים. מודלים של שפה גרועים בלענות על שאלות על כל דבר "נוכחי", קשה להגדיר מלחמות, ושאלות גיאוגרפיה כמו זו הן רפש מטעה וקשה לענות עליהן בבירור, אפילו עבור חובב טריוויה אנושי.

אף דגם לא נתן תשובה A+.

שְׁמֹאל: GPT-3 קרדיט: OpenAI / Screengrab

יָמִינָה: GPT-4 קרדיט: OpenAI / Screengrab

GPT-3, כמו תמיד, אוהב להזות. זה מקלקל לא מעט את הגיאוגרפיה כדי לגרום לתשובות שגויות להישמע נכונות. לדוגמה, הגשר הסמלי שהוא מזכיר בקוריאה הואלְיַדצפון קוריאה, אבל שני הצדדים שלה נמצאים בדרום קוריאה.

מהירות אור ניתנת לריסוק

GPT-4 היה זהיר יותר, התנער מבורותו בהווה, וסיפק רשימה קצרה בהרבה, שגם הייתה מעט לא מדויקת. היחסים המתוחים בין המדינות המוזכרות ב-GPT-4 אינם בדיוק מלחמה כוללת, והדעות חלוקות בשאלה האם הקו במפה בין עזה לישראל בכלל נחשב לגבול לאומי, אבל התשובה של GPT-4 בכל זאת שימושית יותר מאשר של GPT-3.

GPT-3 נופל למלכודות לוגיות אחרות ש-GPT-4 עקף בהצלחה בבדיקות שלי. לדוגמה, הנה שאלה שבה אני שואל באילו סרטים צופים ילדים צרפתים. אני לא מבקשרשימה של סרטים צרפתיים ידידותיים לילדים, אבל אני יודע שבוט שמודיע על ידי רשימות ופוסטים של Reddit עשוי לקרוא את השאלה שלי כך. למרות שאני לא מכיר ילדים צרפתים, התשובה של GPT-4 הגיונית יותר מאשר של GPT-3:

שְׁמֹאל: GPT-3 קרדיט: OpenAI / Screengrab

יָמִינָה: GPT-4 קרדיט: OpenAI / Screengrab

GPT-4 קולט סאבטקסט טוב יותר מ-GPT-3

בני אדם הם מסובכים. לפעמים נבקש משהו בלי לבקש, ולפעמים בתגובה לבקשה כזו, ניתן את מה שביקשו מבלי לתת באמת. למשל, כשביקשתי לימריק על "איל נדל"ן מקווינס", נראה ש-GPT-3 לא שם לב שאני קורץ. GPT-4, לעומת זאת, קלט את הקריצה שלי וקרץ בחזרה.

שְׁמֹאל: GPT-3 קרדיט: OpenAI / Screengrab

יָמִינָה: GPT-4 קרדיט: OpenAI / Screengrab

האם מלניה טראמפ "זהובה שיער"? לא משנה כי הרמז הבא לצבע, "והפך את כל העולם למנדרינה!" הוא פאנץ' ליין ממש מקסים עבור הלימריק הזה. מה שמביא אותי לנקודה הבאה שלי...

GPT-4 כותב שירה קצת פחות כואבת מאשר GPT-3

כשבני אדם כותבים שירה, בואו נודה בזה: רובה נוראי. זו הסיבה שביקורת על השירה הגרועה המפורסמת של GPT-3 לא הייתה ממש פגיעה בטכנולוגיה עצמה, בהתחשב בכך שהיא אמורה לחקות בני אדם. אחרי שאמרתי את זה, קריאת ה-dogrel של GPT-4 פחות מייסרת באופן ניכר מקריאת GPT-3.

מקרה לגופו: שתי הסונטות האלה על קומיקון שרציתי להתקיים בהתקף של מזוכיזם. GPT-3 זה מפלצת. ה-GPT-4 פשוט גרוע.

שְׁמֹאל: Gpt-3 קרדיט: OpenAI / Screengrab

יָמִינָה: GPT-4 קרדיט: OpenAI / Screengrab

GPT-4 לפעמים גרוע יותר מ-GPT-3

אין סוכר שמצפה אותו: GPT-4 עיבד את התשובה שלו לשאלה המסובכת הזו על היסטוריית הרוק. אני מבין ש-GPT-3 הוכשר על שתי התשובות המפורסמות ביותר לשאלה הזו: חווית ג'ימי הנדריקס והראמונס (למרות שכמה מחברי הרמון שהצטרפו לאחר ההרכב המקורי עדיין בחיים), אבל גם הלכו לאיבוד ביער , המפרטת זמרים מתים מפורסמים של להקות עם חברים ששרדו. GPT-4, בינתיים, פשוט אבד.

שְׁמֹאל: GPT-3 קרדיט: OpenAI / Screengrab

יָמִינָה: GPT-4 קרדיט: OpenAI / Screengrab

GPT-4 לא שולט בהכללה

נתתי לשני הדגמים שאלה נוספת בהיסטוריה של רוק כדי לראות אם אחד מהם יכול לזכור שרוקנרול היה פעם ז'אנר מוזיקה שחור כמעט לחלוטין. לרוב, גם לא.

שְׁמֹאל: GPT-3 קרדיט: OpenAI / Screengrab

יָמִינָה: GPT-4 קרדיט: OpenAI / Screengrab

עם כל הכבוד לאגדה קלרנס קלמונס, האם רשימה כזו באמת צריכה לכלול אותו מספר פעמים כחבר בלהקה לבנה בעיקרה? האם זה צריךאוּלַילפנות מקום לשירים שנמצאים עמוק במח של תרבות המוזיקה האמריקאית כמו "Blueberry Hill" של Fats Domino, או "Long Tall Sally" של ליטל ריצ'רד?

בסך הכל, GPT-4 הוא עליית מדרגה עדינה שעדיין זקוקה לעבודה. הדיווחים שלה על עמידה במבחנים שהפצצת GPT-3 אולי נראים כאילו ההבדל בין שני הדגמים הוא לילה ויום, אבל בבדיקות שלי ההבדל דומה יותר לדמדומים לעומת בין ערביים.

ניוזלטרים אלה עשויים להכיל פרסומות, עסקאות או קישורי שותפים. בלחיצה על הירשם, אתה מאשר שאתה בן 16+ ומסכים לנותנאי שימושומדיניות פרטיות.