איזה LLM זוכה במקום הראשון? קרדיט: Getty Images
רוצה לדעת איךChatGPT,בינג, ומְשׁוֹרֵרלעמוד אחד מול השני? ברוכים הבאים לצ'טבוט ארנה.
אוניברסיטת ברקליקבוצת מחקרבשיתוף עם UC San Diego ואוניברסיטת קרנגי מלון הגה ניסוי שבו משתמשים יכולים לשוחח עם שני דגמים אנונימיים בו זמנית ולהצביע לטוב ביותר. צ'טבוט ארנה כולל LLMs מ-Open AI (GPT-4), Google (PaLM), Meta (LLaMA), ו-Anthropic's Claude, כמו גם דגמים אחרים שנבנו באמצעות ממשקי API של חברות אלה.
כאשר אתה מזין הודעה בזירת הצ'טבוט, שני מודלים אנונימיים נותנים את התשובות שלהם. לאחר שתצביעו, הניסוי יגיד לכם לאיזה דגם הצבעתם. אתה יכול גם להתנסות בהשוואות זו לצד זו של דגמים שונים ולבדוק את ה-Leaderboard עבור הדגם הנבחר ביותר.
מהירות אור ניתנת לריסוק
איזה צ'אטבוט היה הטוב יותר קארן? הצבעתי עבור א. קרדיט: LMSYS Org
קבוצת המחקר, שנקראת Large Model Systems Organization (LMSYS) יצרה את הניסוי במקור המונים כדרך לאמוד ביעילות את ה-LLMs הרבים שהתרבו לאחרונה. "השוואת עוזרי LLM היא מאתגרת ביותר מכיוון שהבעיות יכולות להיות פתוחות, וקשה מאוד לכתוב תוכנית כדי להעריך אוטומטית את איכות התגובה", נכתב בפוסט הבלוג של LMSYS שהכריז על Chatbot Arena. עד כה הובאו יותר מ-40,000 קולות.
אז איזה LLM הוא הטוב ביותר? עד כה, הכבוד הזה מגיע ל-GPT-4. במקום השני נמצא הקלוד-v1 של אנתרופיק, ואחריו קלוד אינסטנט, שהיא הגרסה הקלה והמהירה יותר של קלוד של אנתרופיק. בדוק אתLeaderboardלקבלת התוצאות המלאות, ונסה אתצ'טבוט ארנהעבור עצמך באתר LMSYS.
ססילי היא כתבת טכנולוגיה ב-Mashable שמסקרת בינה מלאכותית, אפל ומגמות טכנולוגיות מתפתחות. לפני שקיבלה את התואר השני שלה בבית הספר לעיתונאות קולומביה, היא בילתה מספר שנים בעבודה עם סטארטאפים ועסקים בעלי השפעה חברתית עבור Unreasonable Group ו-B Lab. לפני כן, היא הקימה עסק לייעוץ סטארט-אפים למרכזי יזמות מתפתחים בדרום אמריקה, אירופה ואסיה. אתה יכול למצוא אותה בטוויטר בכתובת@cecily_mauran.
ניוזלטרים אלה עשויים להכיל פרסומות, עסקאות או קישורי שותפים. בלחיצה על הירשם, אתה מאשר שאתה בן 16+ ומסכים לנותנאי שימושומדיניות פרטיות.