קרדיט: רוי רוכלין/Getty Images
חקירה חדשה טוענת שחברות טכנולוגיה השתמשו בכתוביות של יותר מ-48,000יוטיובערוצים - כולל של יוצרים מובילים כמו MrBeast ו-Marques Brownlee ומוסדות להשכלה גבוהה כמו MIT והרווארד - כדי להכשיר אתAIדגמים, למרות ש-YouTube אוסר על קצירת תוכן פלטפורמה ללא רשות.
החקירה, שנערך על ידי הוכחה ניוז ופורסם בשיתוף עםחוטי, גילה שחברות כמו Anthropic, Nvidia, Apple ו-Salesforce השתמשו במערך נתונים של 173,536 סרטוני YouTube, כולל אלו מאקדמיית Khan, MIT, הרווארד, הוול סטריט ג'ורנל, NPR, ה-BBC ותוכניות לילה מאוחרות כמוהמופע המאוחר עם סטיבן קולבר,שבוע שעבר הלילה עם ג'ון אוליבר, וג'ימי קימל לייב.
Marques Brownlee פרסם ריל אינסטגרם וציין שלדעתו, "הסיפור האמיתי הוא אפל וחבורה שלמה של חברות טכנולוגיה אחרות מתאמנות את דגמי הבינה המלאכותית שלהן תוך שימוש בנתונים שהם קונים מחברות גירוד נתונים של צד שלישי שחלקן מקבלות את הנתונים שלהן. דרכים מעט לא חוקיות... אפל יכולה טכנית לומר שהם לא אשמים בכך."
ביום רביעי, 17 ביולי, אפל אפיינה את השימוש שלה בנתוני The Pile כבלעדי למטרות מחקר באימייל אל Mashable. אפל אומרת שהנתונים נכנסו לזהדגם OpenELMשלדבריה אינו מספק את הנתונים עבור תכונות בינה מלאכותיות של אפל, וזה כולל את Apple Intelligence.
חוטיאומר שנציגי מעבדת המחקר בינה מלאכותית ללא מטרות רווח שגירדה והפיצה את מערך הנתונים של YouTube, EleutherAI, לא הגיבו לבקשות הפרסום להגיב. מערך הנתונים הוא חלק מאוסף שהעמותה מכנה The Pile, הכוללת גם חומר מהפרלמנט האירופי, ויקיפדיה האנגלית ומיילים מעובדי תאגיד אנרון שפורסמו במהלך החקירה הפדרלית על החברה בתחילת שנות ה-2000.
מהירות אור ניתנת לריסוק
חוטימדווח כי רוב האוספים המרכיבים את The Pile נגישים "לכל מי באינטרנט שיש לו מספיק מקום וכוח מחשוב כדי לגשת אליהם". אלה כולליםתַפּוּחַ,Nvidia,Salesforce,בלומברגוDatabricks, כולם הכירו בפומבי בשימוש שלהם ב-The Pile כדי להכשיר מודלים של AI.
ג'ניפר מרטינז, דוברת של סטארט-אפ AI Anthropic, אמרה בהצהרה כי בעוד שהחברה השתמשה ב-The Pile כדי להכשיר את עוזר הבינה המלאכותית שלה, "המונחים של YouTube מכסים שימוש ישיר בפלטפורמה שלה, המובדל מהשימוש במערך הנתונים של Pile. ב את הנקודה לגבי הפרות פוטנציאליות של תנאי השירות של YouTube, נצטרך להפנות אותך למחברי ה-Pile."
ב-Instagram Reel שלו, בראונלי הוסיף, "המחאה הכפולה היא שאני למעשה משלם עבור תמלול ידני מדויק יותר על כל סרטון שאנחנו מוציאים... אז זה אומר שהתמלילים הגנובים הם תוכן בתשלום שנגנב יותר מפעם אחת."
החששות שלו מהדהדים את אלה של יוצרים ברחבי העולם שחוששים שהעבודה שלהם תאכל או תנצל על ידי AI ללא פיצוי או רשות.רבים תובעים כיום חברות טכנולוגיהעל שימוש לא מאושר בעבודתם.
חוטימדווח כי The Pile עדיין זמין בשירותי שיתוף קבצים אך הוסר מאתר ההורדות הרשמי שלו. הוכחה ניוז יצרה אכְּלִיכדי לחפש יוצרים במערך ההדרכה של YouTube AI.
עדכון: 18 ביולי 2024, 8:11 בבוקר PDTמאמר זה עודכן כך שיכלול הצהרות של אפל בדואר אלקטרוני אל Mashable.
אליזבת היא כתבת תרבות דיגיטלית שמסקרת את השפעת האינטרנט על ביטוי עצמי, אופנה ופנדום. עבודתה חוקרת כיצד הטכנולוגיה מעצבת את הזהויות, הקהילות והרגשות שלנו. לפני שהצטרפה ל-Mashable, אליזבת בילתה שש שנים בטכנולוגיה. את הדיווח שלה ניתן למצוא ברולינג סטון,הגרדיאן,זְמַן, וווג נוער. עקבו אחריה באינסטגרםכָּאן.
ניוזלטרים אלה עשויים להכיל פרסומות, עסקאות או קישורי שותפים. בלחיצה על הירשם, אתה מאשר שאתה בן 16+ ומסכים לנותנאי שימושומדיניות פרטיות.