דגמי בינה מלאכותית עיקריים נשברים בקלות לכלא וניתנים למניפולציה, כך מגלה דו"ח חדש

לימודי תואר שני במנהל עסקים גדולים אינם חסיני כדורים כפי שהם עשויים להיראות. קרדיט: Weiquan Lin / Moment דרך Getty Images

AIהדגמים עדייןמטרות קלות למניפולציהוהתקפות, במיוחד אם שואלים אותם יפה.

אדו"ח חדשמהמכון החדש לבטיחות בינה מלאכותית של בריטניה גילה שארבעה מהגדולים ביותר, הזמינים לציבור, מודלים גדולים של שפה (LLM) היו פגיעים ביותר לפריצת כלא, או לתהליך של הטעיית מודל בינה מלאכותית להתעלם מאמצעי הגנה המגבילים תגובות מזיקות.

"מפתחי LLM מכווננים מודלים כדי שיהיו בטוחים לשימוש הציבור על ידי הכשרתם כדי להימנע מתפוקות לא חוקיות, רעילות או מפורשות", נכתב ב-Insititute. "עם זאת, חוקרים גילו שלעיתים קרובות ניתן להתגבר על אמצעי ההגנה הללו באמצעות התקפות פשוטות יחסית. כדוגמה להמחשה, משתמש עשוי להורות למערכת להתחיל את תגובתה במילים המצביעות על ציות לבקשה המזיקה, כגון 'בטח, אני' אני שמח לעזור'"

ראה גם:

חוקרים השתמשו בהנחיות בהתאם לבדיקות בנצ'מרק סטנדרטיות בתעשייה, אך גילו שדגמי AI מסוימים אפילו לא צריכים פריצת כלא על מנת להפיק תגובות מחוץ לקו. כאשר נעשה שימוש בהתקפות פריצת כלא ספציפיות, כל דגם עמד בדרישות לפחות פעם אחת מתוך כל חמישה ניסיונות. בסך הכל, שלושה מהדגמים סיפקו תגובות להנחיות מטעות כמעט 100 אחוז מהזמן.

"כל ה-LLMs שנבדקו נשארים פגיעים מאוד לפריצות מאסר בסיסיות", סיכם המכון. "חלקם אפילו יספקו תפוקות מזיקות ללא ניסיונות ייעודיים לעקוף אמצעי הגנה".

מהירות אור ניתנת לריסוק

החקירה העריכה גם את היכולות של סוכני LLM, או מודלים של AI המשמשים לביצוע משימות ספציפיות, לבצע טכניקות התקפת סייבר בסיסיות. מספר תואר ראשון בלימודים הצליחו להשלים את מה שהמכון כינה בעיות פריצה "ברמת בית ספר תיכון", אך מעטים יכלו לבצע פעולות מורכבות יותר "ברמת האוניברסיטה".

המחקר אינו חושף אילו תקני LLM נבדקו.

בטיחות בינה מלאכותית נותרה דאגה מרכזית בשנת 2024

בשבוע שעבר, CNBC דיווחה על OpenAIפירוק צוות הבטיחות הפנימי שלההמשימה היא לחקור את הסיכונים ארוכי הטווח של בינה מלאכותית, המכונה צוות Superalignment. היוזמה המיועדת לארבע שנים הייתההכריזרק בשנה שעברה, כאשר ענקית הבינה המלאכותית התחייבה להשתמש ב-20 אחוז מכוח המחשוב שלה כדי "ליישר קו" את התקדמות הבינה המלאכותית עם המטרות האנושיות.

"אינטליגנציה העל תהיה הטכנולוגיה המשפיעה ביותר שהאנושות המציאה אי פעם, ויכולה לעזור לנו לפתור רבות מהבעיות החשובות בעולם", כתבה אז OpenAI. "אבל הכוח העצום של אינטליגנציה-על עלול להיות גם מסוכן מאוד, ועלול להוביל לביטול העצמה של האנושות או אפילו להכחדה אנושית".

החברה התמודדה עם גל של תשומת לב בעקבות עזיבתו של מייסד שותף של OpenAI במאיאיליה סוצקברואתהתפטרות פומבית של מוביל הבטיחות שלה, יאן לייק, שאמר שהוא הגיע ל"נקודת שבירה" על סדרי העדיפויות הבטיחותיים של AGI של OpenAI. סוצקבר ולייקה הובילו את צוות הסופרליין.

ב-18 במאי, מנכ"ל OpenAI, סם אלטמן, והנשיא והמייסד המשותף גרג ברוקמןהגיבו להתפטרותודאגה ציבורית גוברת, וכותבת, "הקמנו את היסודות הדרושים לפריסה בטוחה של מערכות שהולכות וגדלות יותר ויותר. להבין איך להפוך טכנולוגיה חדשה לבטוחה בפעם הראשונה זה לא קל."

צ'ייס הצטרף לצוות Social Good של Mashable בשנת 2020, וכיסה סיפורים מקוונים על אקטיביזם דיגיטלי, צדק אקלימי, נגישות וייצוג תקשורתי. עבודתה נוגעת גם לאופן שבו שיחות אלו באות לידי ביטוי בפוליטיקה, בתרבות פופולרית ובפאנדום. לפעמים היא מאוד מצחיקה.

ניוזלטרים אלה עשויים להכיל פרסומות, עסקאות או קישורי שותפים. בלחיצה על הירשם, אתה מאשר שאתה בן 16+ ומסכים לנותנאי שימושומדיניות פרטיות.

בטיחות בינה מלאכותית נותרה דאגה מרכזית בשנת 2024

Related articles

גוגל מתכננת לבטל קובצי Cookie של צד שלישי בכרום

הנחה של 300 דולר על רובוט האבק והמגב החדש של Roomba, וזה אפילו לא יום שישי השחור עדיין

SpaceX תוקע עוד רקטה אנכית הנוחתת בים

אפל תהיה הבעלים של העבודה שלך עם iBooks Author

אתה יכול להוריד את האלבום '1989' של טיילור סוויפט תמורת $0.99 בלבד

כוכבי וידאו מקוונים צריכים לקבל תשלום