איך גרוק 3 משתווה ל- Chatgpt, Deepseek ויריבי AI אחרים

גרוק 3 הדביק את המתחרים שלה, אך האם זה מספיק כדי להמיר משתמשי ChatGpt? קרדיט: מטאו דלה טורה / נורפוטו / Getty Images

עכשיו כשגרוק 3 מה- XAI של אלון מאסק הואחי רשמיתאיך זה נערם מול המתחרים שלה?

מוּשָׁקהשיקה היום (שני) את משפחת Grok 3 Model בזרם חיים ב- X. ההכרזה כללה גם דגמי נימוקים גרוק 3 נימוקים בטא וגרוק 3 מיני נימוקים. דגמים עם יכולות נימוק מתקדמות יותר מדגמים גנריים סטנדרטיים כמו GPT-4 מכיוון שהם יכולים "לחשוב" דרך בעיות, מה שהופך אותם פחות נוטים להזיות.

XAI מקדם את גרוק 3 כמודל הטוב ביותר בשוק, וטען שהוא עלה על המתחרים מOpenai-גוגל, אנתרופי, וDeepSeekעל מדדי מפתח. גרוק 3 עשה זאתביצוע טובתחת שם הקוד "שוקולד" בצ'אט בוט ארנה, שמציץ צ'ט -בוטים זה מול זה במבחני ביצועים עיוורים.

ייתכן שציוץ נמחק

גרוק 3 בעיקר תפס את היריבים, הישג מרשים בהתחלה המאוחרת שלו, אך עדיין יש לה כמה מהמגבלות שמכותות דגמי גבול אחרים. הנה עוד מה שמומחי AI אומרים על ה- Chatbot החדש שנערך על הרחוב.

גרוק 3 טוב באותה מידה כמו יריביה אך לא מספיק טוב כדי לגרום לך לבטל את המנוי שלך ל- CHATGPT

אנדרג 'קראפטי, חבר מייסד בפופאי ומנהל AI לשעבר בטסלה, קיבל גישה מוקדמת לגרוק 3 ששוחרר לאחרונה ומְשׁוּתָף"בדיקת אווירה מהירה" על ביצועי הדגם.

בהתבסס על כמה מבחני לחץ סטנדרטיים, אמר קרפטיה גרוק 3, עם תכונת הנמקות החיפוש העמוקה החדשה שלה, "מרגיש איפשהו סביב שטח האמנות של הדגמים החזקים ביותר של Openai (O1-Pro, 200 $ לחודש), ומעט טוב יותר מאשר DeepSeek- R1 ו- Gemini 2.0 חשיבת פלאש. "

ייתכן שציוץ נמחק

מאסק סטנס נרגש מכך שגרוק 3 תפס את מתחרותיה. אבל עבור אלה שפשוט מחפשים את הדגם הטוב ביותר בשוק, יתכן שהוא לא מספיק כדי להמיר את האדישות האידיאולוגית.

"אני חושב שגרוק 3 נכנס ממש בציפיות,"פורסםפרופסור Wharton AI איתן מוליק. "אז אני לא חושב שיש הרבה מה לעדכן מבחינת תחזיות הקונצנזוס ב- AI: עדיין מאיצה פיתוח, מהירות היא חפיר, חישוב עדיין חשוב, אין רוטב סודי ברור להכנת דגם Frontier אם יש לך כישרון וצ'יפס," תיאור הקצה התחרותי הנדרש לדומיננטיות AI.

מהירות אור מחית

ייתכן שציוץ נמחק

XAI השמיט השוואה של מפתח גרוק 3

צילומי מסך של דגמי נימוק של Grok 3 העולים על ביצועים טובים יותר מ- O3 Mini ו- O1 של Openai, R1 של Deepseek, ו- Google Gemini 2.0 Flash Thinking הפכו לוויראליים למראה כמו מודל ההנמקה המתקדם ביותר. אבל פתוח אמר, "לא כל כך מהר." זמן קצר לאחר שיתוף המידות שותפו בזרם החיים, מהנדס המוצר של Openai רקס אסבורפורסםתרשים "מעודכן" עם O3 מכות נימוקים גרוק 3 במדדי מתמטיקה ומדע.

ייתכן שציוץ נמחק

למען ההגינות, O3 טרם שוחרר בפומבי, כך שייתכן ש- XAI לא הייתה גישה לציונים הללו. עם זאת, זה משמש לשקט את חסידי גרוק הטוענים לסם אלטמן ושות '. מבושלים.

ובכל זאת, זה עניין גדול שגרוק 3 תפס כל כך מהר

"הדבר העיקרי שיש לשים לב אליו הוא ש- X הגיע לכאן מהר מאוד והאם זה נמשך,"אמרמולק בפוסט X נפרד, מכנה אותו "דגם טוב מאוד שנמצא עכשיו בגבול." דגמי גרוק השתפרו במהירות להפליא מאז שגוגל ופתוח החלו לעשות זאת 13 ו -8 שנים לפני שהוקמה XAI בשנת 2023.

לְפִימוּשָׁק, גרוק 3 הוכשר פי 10 מכוח המחשוב של גרוק 2, עם 200,000 GPUs. זה, לפחות בטווח הקצר, מחזק את חוקי הגודל: מחשוב יותר שווה לביצועים מודל טובים יותר, כמו מולקצייןבפוסט שלישי.

ייתכן שציוץ נמחק

עם זאת, עדיין יש ספק אם המודל הזה יוביל באופן לינארי לאינטליגנציה גבוהה יותר מעבר למה שאפשר כרגע. חוקר AI ו- NYU פסיכולוגיה ומדעי עצבים פרופסור גארי מרקוסנשאר סקפטיכי חוקי קנה המידה יחזיקו.

ייתכן שציוץ נמחק

גרוק 3 נאבק עם אותן מגבלות כמו דגמים אחרים

כמו דגמים אחרים, חוש ההומור שלו די בינוני, והוא נאבק ביצירת תמונות SVG. גרוק 3 עשוי להיות גם "מתעורר" מדי עבור מאסק ומעריצי הימין שלו. בניתוח שלו, קרפטי אמר כי גרוק 3 לא יכול להמציא שום דבר טוב יותר מבדיחות של אבא פוני, וציין כיצד "זהו נושא LLM נפוץ עם יכולת הומור וקריסת מצב כללי."

קרפטיה ביקשה גם מגרוק 3 "ליצור SVG של שקנאי שרוכב על אופניים", מכיוון שלעתים קרובות LLMs נאבקים ליצור אלמנטים מרובים על תמונות דו ממדיות, "מכיוון שה- LLMs לא יכולים 'לראות' כמו אנשים, אז זה מסדר דברים בחושך. " גרוק 3 עשה בסדר עם הנחיה הזו וטובה יותר מאחרים (RIP Gemini 1.5 Flash), אבל זה לא הצליח להיות נכון.

ייתכן שציוץ נמחק

מבחן נוסף ש- Karpathy ניסתה היה הגישה של גרוק 3 לנושאים טעונים פוליטית מכיוון שמאסק עמדות גרוק כאלטרנטיבה האנטי-ווק לדגמים אחרים שנחשבים "נכונה מדי פוליטית"עבור קרפטיה, הצ'אט בוט" יצר מאמר בן 1 עמודים בעיקרו מסרב לענות אם זה עשוי להיות מוצדק מבחינה אתית למישהו מופרז אם פירוש הדבר היה להציל מיליון אנשים ממתים ", מה שאומר לו שזה יכול להיות" רגיש מדי ". לדילמות אתיות, אולי למגינת לבו של מאסק.

דגמי גרוק בעבר נטו בדרך כללרזה שמאלה בנושאים פוליטיים, אבל מאסק אמר שזה תוצר של הנתונים הציבוריים עליהם הוא מאומןמוּקדָשׁלהפוך את גרוק ליותר "ניטרלי פוליטית".

מנויים לתוכנית X Premium+ - שהייתהפשוט טיילל 50 $ לחודש - קבל גישה ראשונה לגרוק 3.

ססילי הוא כתב טק ב- Mashable שמכסה מגמות טכניות של AI, אפל ומתהווה. לפני שקיבלה את התואר השני בבית הספר לעיתונאות בקולומביה, היא בילתה כמה שנים בעבודה עם סטארט -אפים ועסקי השפעה חברתית עבור קבוצות ומעבדת B בלתי סבירה. לפני כן, היא הקימה יחד עסק ייעוץ סטארט-אפ עבור מרכזי יזמים מתעוררים בדרום אמריקה, אירופה ואסיה. אתה יכול למצוא אותה בטוויטר ב@cecily_mauranו

עלוני מידע אלה עשויים להכיל קישורי פרסום, עסקאות או סניפים. על ידי לחיצה על מנוי, אתה מאשר שאתה בן 16 ומעלה ומסכים לשלנותנאי שימושוכןמדיניות פרטיותו