ChatGPT נכשל באבחון מקרים רפואיים בילדים. זה שגוי 83 אחוז מהמקרים.

ChatGPT נכשל באבחנות רפואיות מיוחדות. אל תעזוב את הרופאים האלה עדיין. קרדיט: בוב אל-גרין / Mashable

OpenAIשלChatGPTאינו קרוב יותר להחליף את רופאי המשפחה שלך, כמו הצ'אטבוט המתקדם יותר ויותרלא הצליח לאבחן במדויקהרוב המכריע של מקרים היפותטיים בילדים.

הממצאים היו חלק מאמחקר חדשפורסם ב-JAMA Pediatrics ב-2 בינואר, שנערך על ידי חוקרים מהמרכז הרפואי לילדים כהן בניו יורק. החוקרים ניתחו את תגובות הבוט לבקשות לאבחון רפואי של מחלות ילדים ומצאו שלבוט היה שיעור שגיאות של 83 אחוזים בבדיקות.

ראה גם:

המחקר השתמש במה שמכונה אתגרי מקרי ילדים, או מקרים רפואיים שפורסמו במקור לקבוצות של רופאים כהזדמנויות למידה (או אתגרי אבחון) הכוללים מידע חריג או מוגבל. חוקרים דגמו 100 אתגרים שפורסמו ב-JAMA Pediatrics ו-NEJM בין השנים 2013 ו-2023.

ChatGPT סיפק אבחנות שגויות עבור 72 מתוך 100 מהמקרים הניסויים שסופקו, ויצר 11 תשובות שנחשבו כ"קשורות קלינית" לאבחנה הנכונה אך נחשבו רחבות מכדי להיות נכונות.

מהירות אור ניתנת לריסוק

ייתכן שהציוץ נמחק

החוקרים מייחסים חלק מהכישלון הזה לחוסר היכולת של הבינה המלאכותית הגנרטיבית לזהות קשרים בין מצבים מסוימים לבין נסיבות חיצוניות או קיימות, המשמשות לעתים קרובות כדי לסייע באבחון חולים בסביבה קלינית. לדוגמה, ChatGPT לא חיבר "מצבים נוירו-פסיכיאטריים" (כגון אוטיזם) למקרים נפוצים של מחסור בוויטמין ומצבים מגבילים אחרים המבוססים על תזונה.

מסקנת המחקר היא ש-ChatGPT זקוקה להכשרה מתמשכת ומעורבות של אנשי מקצוע רפואיים שמזינים את הבינה המלאכותית לא מבאר מידע שנוצר באינטרנט, שלעתים קרובות יכול להופיע במידע שגוי, אלא עלספרות רפואית ומומחיות בדוקה.

צ'אטבוטים מבוססי בינה מלאכותית המסתמכים על מודלים של שפה גדולה (LLMs) נחקרו בעבר על יעילותם באבחון מקרים רפואיים ובביצוע המשימות היומיומיות של רופאים. בשנה שעברה, חוקרים בדקו את יכולת הבינה המלאכותית הגנרטיבית לעבור את בחינת הרישוי הרפואי של ארצות הברית בת שלושה חלקים - היא עברה.

אבל למרות שהוא עדיין זוכה לביקורת רבה בגלל מגבלות האימונים והפוטנציאל שלולהחמיר את ההטיה הרפואית,קבוצות רפואיות רבות, כוללאיגוד הרפואה האמריקאי, אל תראה את התקדמות הבינה המלאכותית בתחום רק כאיום של החלפה. במקום זאת, אנשי בינה מלאכותית מאומנים יותר נחשבים בשלים לפוטנציאל הניהולי והתקשורתי שלהם, כמו הפקת טקסט בצד המטופל, הסבר אבחנות במונחים נפוצים או הפקת הוראות. שימושים קליניים, כמו אבחון, נותרו נושא שנוי במחלוקת וקשה למחקר.

עד כדי כך, הדו"ח החדש מייצג את הניתוח הראשון של פוטנציאל האבחון של צ'אט בוט בסביבה ילדים גרידא - תוך הכרה בהכשרה הרפואית המיוחדת של אנשי מקצוע רפואיים. המגבלות הנוכחיות שלו מראות שאפילו הצ'אטבוט המתקדם ביותר בשוק הציבורי עדיין לא יכול להתחרות בכל מגוון המומחיות האנושית.

צ'ייס הצטרף לצוות Social Good של Mashable בשנת 2020, וכיסה סיפורים מקוונים על אקטיביזם דיגיטלי, צדק אקלימי, נגישות וייצוג תקשורתי. עבודתה נוגעת גם לאופן שבו שיחות אלו באות לידי ביטוי בפוליטיקה, בתרבות פופולרית ובפאנדום. לפעמים היא מאוד מצחיקה.

ניוזלטרים אלה עשויים להכיל פרסומות, עסקאות או קישורי שותפים. בלחיצה על הירשם, אתה מאשר שאתה בן 16+ ומסכים לנותנאי שימושומדיניות פרטיות.