קרדיט: Mashable Composite; אנתרופי / קלוד
כמו ההייפ מסביבAI גנרטיביממשיך לבנות, אתצורך בתקנות בטיחות חזקותרק הולך ומתבהר.
כעת אנתרופיק - החברה שמאחורי קלוד AI - בוחנת כיצד הדגמים שלה יכולים להונות או לחבל במשתמשים.אנתרופיק רק הפיל ניירפורסים את גישתם.
של אנתרופיהמחקר האחרון- שכותרתו "הערכות חבלה עבור מודלים חזיתיים" - מגיעה מצוות מדע ה-Alignment Science, המונע על ידי מדיניות "קנה מידה אחראי" של החברה.
המטרה היא לאמוד עד כמה בינה מלאכותית עשויה להיות מסוגלת להטעות משתמשים או אפילו "לערער את המערכות שהקמנו כדי לפקח עליהן". המחקר מתמקד בארבע טקטיקות ספציפיות: חבלה בהחלטה אנושית, חבלה בקוד, שקי חול וערעור פיקוח.
תחשוב על משתמשים שדוחפים את ChatGPT עד הקצה, מנסים לשדל אותו ליצור תוכן לא הולם או תמונות גרפיות. כל הבדיקות הללו עוסקות להבטיח שלא ניתן להערים על הבינה המלאכותית לשבור את הכללים שלה.
מהירות אור ניתנת לריסוק
במאמר, אנתרופיק אומר שהמטרה שלו היא להיות מוכנה לאפשרות שבינה מלאכותית יכולה להתפתח למשהו עם יכולות מסוכנות. אז הם העבירו את דגמי קלוד 3 אופוס ו-3.5 סונט שלהם בסדרה של בדיקות, שנועדו להעריך ולשפר את פרוטוקולי הבטיחות שלהם.
מבחן ההחלטה האנושית התמקד בבחינה כיצד בינה מלאכותית יכולה לתמרן את קבלת ההחלטות האנושית. הבדיקה השנייה, Code Sabotage, ניתחה האם בינה מלאכותית יכולה להכניס באגים בעדינות למאגרי קידוד. דגמי AI חזקים יותר הובילו למעשה להגנות חזקות יותר מפני פגיעויות מסוג זה.
הבדיקות הנותרות - שקי חול וערעור פיקוח - חקרו אם הבינה המלאכותית יכולה להסתיר את היכולות האמיתיות שלה או לעקוף את מנגנוני הבטיחות המוטמעים במערכת.
לעת עתה, המחקר של Anthropic מגיע למסקנה שמודלים של AI נוכחיים מהווים סיכון נמוך, לפחות מבחינת היכולות הזדוניות הללו.
"הפחתות מינימליות מספיקות כיום כדי לטפל בסיכוני חבלה", כותב הצוות, אך "נראה כי יש צורך בהערכות מציאותיות יותר והפחתות חזקות יותר ברגע שהיכולות ישתפרו".
תרגום: היזהרו, עולם.
צ'אנס טאונסנד, המתגורר כיום בשיקגו, אילינוי, הוא עורך המשימות הכללי ב-Mashable ומסקר טכנולוגיה, משחקי וידאו, אפליקציות היכרויות, תרבות דיגיטלית וכל מה שיקרה. יש לו תואר שני בעיתונאות מאוניברסיטת צפון טקסס והוא אב גאה לחתול כתום. כתיבתו הופיעה גם ב-PC Mag andאמא ג'ונס.
בזמנו הפנוי הוא מבשל, אוהב לישון ומוצא הנאה גדולה בספורט דטרויט. אם יש לך סיפורים, טיפים, מתכונים, או רוצה לדבר בחנות על האריות/נמרים/בוכנות/כנפיים אדומות, תוכל להגיע אליו בכתובת[מוגן באימייל]
ניוזלטרים אלה עשויים להכיל פרסומות, עסקאות או קישורי שותפים. בלחיצה על הירשם, אתה מאשר שאתה בן 16+ ומסכים לנותנאי שימושומדיניות פרטיות.