ככל שתוכן שנוצר על ידי בינה מלאכותית נהיה נפוץ יותר בחיי היומיום שלנו, ייתכן שאתה תוהה, "כיצד אני מזהה טקסט בינה מלאכותית?"
אין זה מפתיע שהדגמים הללו הופכים קשים יותר לזיהוי ככל שטכנולוגיית AI מתפתחת. לעת עתה, החדשות הטובות הן שתוכן כמו תמונות ווידאו לא כל כך קשה לנתח בעין האנושית.
כיצד לזהות טקסט שנוצר בינה מלאכותית
אם אתה מורה או סתם נוסע ותיק באינטרנט, מה הסוד לזהות טקסט שנוצר בינה מלאכותית? ובכן, זה יותר פשוט ממה שאתה עשוי לחשוב: השתמש בעיניים שלך. למעשה יש דרכים לאמן את העין האנושית להבחין בהצהרות AI. מומחים אוהביםמליסה הייקילה של MIT Technology Reviewכתוב שה"קסם" של המכונות הללו "טמון באשליה של נכונות".
אין שני אנשים כותבים באותה צורה, אבל יש דפוסים משותפים. אם אי פעם עבדת בעבודה ארגונית, אתה יודע איך כולם משתמשים באותו ביטוי גנרי בעת ניסוח תזכירים לבוס שלהם. זו הסיבה שגלאי טקסט בינה מלאכותית מסמנים לעתים קרובות תוכן כ"סביר שנוצר בינה מלאכותית" - מכיוון שההבחנה בין סגנון כתיבה אנושי תפל לקול גנרי שנוצר בינה מלאכותית היא כמעט בלתי אפשרית.
אז הנה כמה טיפים וטריקים כדי לזהות טקסט פוטנציאלי שנוצר בינה מלאכותית:
• חפש שימוש תכוף במילים כמו "ה", "זה" ו"שלו".
• היעדר שגיאות הקלדה - טקסט AI לרוב מושלם מדי.
• הצהרות סיכום המסכמות בצורה מסודרת פסקאות.
• כתיבה מילולית או מרופדת מדי.
• מידע ומקורות כוזבים או מפוברקים.
• טון מתקדם יותר מההגשות הרגילות של הכותב.
• ניסוחים חוזרים על עצמם או דקדוק מלוטש בצורה מוזרה.
ישנם גם גלאי טקסט בינה מלאכותית בשוק שאתה יכול להשתמש בהם, אבל הנה הסיבה, מניסיוני, סביר להניח שהם פחות אמינים מהעיניים שלך.
גלאי טקסט בינה מלאכותית: מדוע הם לא אמינים
זה לא הכל אבדון וקדרות, מכיוון שקיימים כמה פתרונות לאדוני המכונות שלנו. השקת דגמים כמו ChatGPT ומתחרים כמומַזַל תְאוּמִים וקלודדרבן את צמיחתה של תעשיית קוטג'ים המתמקדת בזיהוי טקסט בינה מלאכותית. פלטפורמות כמו ZeroGPT צצו בתגובה למודל השפה של OpenAI, בעוד שכלים כמו Grammarly ו-Copyleaks - שנועדו במקור לתפוס גניבת דעת - פנו להתמודדות גם עם תוכן שנוצר בינה מלאכותית.
תלוי את מי שואלים, זיהוי טקסט בינה מלאכותית הוא, כרגע, הדרך הטובה ביותר לזהות תוכן שנוצר בינה מלאכותית או שמן הנחש הדיגיטלי שלו. במציאות, האחרון עשוי להיות קרוב יותר לאמת. אף גלאי AI אינו מדויק ב-100% (או אפילו 99% כפי שרבים טוענים). אפילו בתנאים אידיאליים, האמינות של הכלים הללו היא לעתים קרובות פגיעה או פגיעה.
"הבעיה כאן היא שהמודלים נעשים יותר ויותר שוטפים, [כתוצאה מכך], הגלאים הישנים יותר, הם מפסיקים לעבוד", אומר ג'ונפנג יאנג, פרופסור ומנהל שותף של מעבדת מערכות התוכנה באוניברסיטת קולומביה. הוא מסביר שככל שטקסט שנוצר בינה מלאכותית נעשה יותר ויותר מתוחכם, הוא "מתחיל להשתמש באוצר מילים ובמבני משפטים המחקים מקרוב את הכתיבה האנושית, מה שמקשה על הזיהוי אפילו עם גלאים מתקדמים".
מהירות אור ניתנת לריסוק
בדיקת דיוק גלאי טקסט בינה מלאכותית
למרות הבטחות גדולות מכלים כמו GPTZero או Hive Moderation, להערים על גלאי בינה מלאכותית לתייג תוכן שנכתב על ידי אדם כמעשה מכונה פשוט להפתיע. מערכות אלו מנתחות בדרך כלל שורות טקסט המסבירות או מסכמות רעיונות, מה שהופך אותן לפגיעות לתוצאות חיוביות שגויות. לדוגמה, בדקתי סיכום בסיסי שלמשחקי הכסכתבתי בחיפזון מהזיכרון על כמה מהכלים האלה, וכמעט בכל מקרה, זה סומן כ"סביר שנוצר בינה מלאכותית".
אז לקחתי את אותו הדברמשחקי הכסתקציר, הזינו אותו ב-ChatGPT, וביקשו ממנו להגביר את הכתיבה - מה שהופך אותו ארוך יותר ופחות פשוט.
הנה מה שכתבתי:
עלילת משחקי הכס עוקבת אחר מספר משפחות ביבשת הבדיונית ווסטרוס. ראשית, יש את הסטארקים ששולטים בצפון. שניים הם הלאניסטרים, השולטים ב-Westerlands. הבת הבכורה של השממות היא סרסיי, שהיא גם מלכת ווסטרוס ונשואה לרוברט בארתאון. רוברט הוא מארצות הסופה וכבש את כס המלכות של בני הזוג טארגאריי - קבוצה של רוכבי דרקונים שהשתלטו על הארץ לפני יותר מ-1000 שנה, אך לאט לאט איבדו את אחיזתם בווסטרוס עקב קרבות פנים. הסדרה נוצרה על ידי ג'ורג' RR מרטין וכיום מתועדת בחמישה ספרים - משחקי הכס, התנגשות מלכים, סערת חרבות, חגיגה לעורבים וריקוד עם דרקונים. לסדרה מתוכננים שני ספרים נוספים, כאשר רוחות החורף אמורים לצאת מתישהו ב-2025.
הנה גרסת ChatGPT "המשופרת":
משחקי הכס זורקים את הצופים ללוח השחמט האכזרי וספוג הדם של וסטרוס, שבו הכוח הוא הפרס והמוסר נתון למשא ומתן. בראש הלהקה עומדים הסטארקים, שמחזיקים בשליטה על הצפון הקפוא. הכבוד הסטואי שלהם מרגיש כמו שריד בארץ שבה דקירת גב היא סוג של מטבע. בניגוד חד הם הלאניסטרים של ווסטרלנד המפוארת, המשפחה שכולם אוהבים לשנוא - עם סרסיי לאניסטר יושב על כס המלכות כמלכת ווסטרוס. נישואיה לרוברט בארת'און, המלך ששותים קשות וציד חזירים מארצות הסופה, הם שידוך פוליטי שנעשה בגיהנום, קשור יחדיו בשקרים ותיעוב הדדי. אבל כס המלכות עצמו נושא היסטוריה עקובה מדם. רוברט לקח את זה לאחר מרד שהדיח את הטארגארינים, שושלת רוכבי הדרקונים ששלטה ארוכת שנים, שפעם בלתי ניתנת לעצירה, התפרצו בסופו של דבר במערבולת של פרנויה ומלחמת אזרחים. החיות נושמות האש שלהם אולי חרכו פעם את השמים, אבל סכסוכים משפחתיים הפילו את האימפריה שלהם, והותירו רק לחישות על תהילתם לשעבר. בינתיים, הסאגה הענפה של ג'ורג' RR מרטין ממשיכה בחמישה ספרים שהם חלקים שווים לקטל בשדה הקרב, תככים פוליטיים ובגידות קורעות לב. בעוד המעריצים זוללים כל עמוד, הם נשארים על הקצה, ממתינים לרוחות החורף שינשבו, מתגרות במה שמרגיש כמו עידנים, עכשיו עם הבטחה זריזה לנחיתה בשנת 2025. אבל בווסטרוס, הבטחות - כמו נאמנות - ניתנות כדי להיות שָׁבוּר.
לתוצאות הבדיקות שלי היו תוצאות מגוונות. אחד הראשונים שבדקתי היה Scribbr, שקבע את הסיכום המקורי שלי כ"100% סבירות ש-AI נוצר." אבל כשהחלפתי אותו לגרסה המשופרת בינה מלאכותית, Scribbr ירד באופן מפתיע את הסבירות ל-48% בלבד.
הסיכום המקורי תפס סבירות של 100% AI שנוצר קרדיט: צילום מסך Scribbr / Mashable
סיכום ChatGPT צבר רק סבירות של 48% להיות בינה מלאכותית קרדיט: Scribbr / צילום מסך של Mashable
כלי נוסף שניסיתי היה Winston AI, שסימן את הטקסט המקורי כ-39% בסבירות שייווצר על ידי GPT-4. למרבה האירוניה, כשזה הגיע לסיכום GPT-4 בפועל, זה נתן לו רק סבירות זעומה של 1%.
תקציר מקורי ב-Winston AI קרדיט: Winston AI / צילום מסך של Mashable
סיכום ערוך בינה מלאכותית ב-Winston AI קרדיט: Winston AI / צילום מסך של Mashable
ניהול כוורת פספס לחלוטין את המטרה בעת ניתוח העבודה שלי, ולא הצליח לסמן אף אחד מהסיכומים ששלחתי. לפי המערכת, שניהם תויגו בביטחון כתוכן שנכתב על ידי אדם.
קרדיט: Hive Moderation / Mashable צילום מסך
עכשיו, אם רק אבקש מ-ChatGPT פסקה אקראית על כל נושא ואעתיק-הדבק אותה לתוך גלאי טקסט שונים, כמעט תמיד היא תסומן כנוצר בינה מלאכותית מיד. אבל זה למעשה מחזק את הנושא: ללא הוראות ספציפיות, סגנון הכתיבה של ChatGPT ברירת המחדל הוא לרוב תפל, נוסחתי ואובייקטיבי פשוט.
הטון המשעמם כצפוי הוא זה שמפעיל את התוצאות השגויות הללו - לא איזו טכנולוגיה פנימית מתקדמת שאתרים אלה טוענים שהם צריכים להבחין בתוכן AI מבני אדם. גם כאשר כלים כמו Originality סימנו בצורה נכונה את שני המקרים של כתיבת בינה מלאכותית, קצת תיקון משפטי יכול לשנות לחלוטין את התוצאה. רק עם קצת ניסוח מחדש, מה שסומן בעבר ב-"100% ביטחון" כנוצר בינה מלאכותית יכול פתאום להיות מתויג "ככל הנראה מקורי".
כל זאת לומר, הנה רשימת הכלים הזמינים באופן חופשי לטקסט AI שבדקתי בשיטה שלעיל. כדי לערבב את הדברים, השתמשתי גם בכמה ביקורות ספרות ממאמרים אקדמיים שכתבתי בבית הספר לתואר ראשון כדי לראות אם הם יסמנו אותי על השימוש בכתיבה פרחונית כדי להגביר את ספירת המילים שלי. הנה הם:
GPTZero
ZeroGPT
מתן כוורת
Scribbr
CopyLeaks
Originality.ai
דקדוקית
גלאי פלט GPT-2
כתוב מלא X
ווינסטון AI
אם הכתיבה שלך נשמעת כמו דוח ספר שטוח בכיתה ח', סביר להניח שגלאי בינה מלאכותית יתחברו אותך כבוט הזקוק למבחן טיורינג בהקדם האפשרי. בדיקה זו מראה שפשוט הימנעות מדפוסים מבניים מסוימים יכולה להטעות בקלות גלאי AI. וזה כאב ראש גדול לחברות שמאחורי הכלים האלה, במיוחד מאחר שרבות מציעות שירותי מנוי ומטרות למכור את ממשקי ה-API שלהן לבתי ספר ועסקים כפתרון B2B.
למרות שהכלים האלה יכולים להיות די יעילים לזיהוי גניבת דעת, ברור שהיכולת שלהם לזהות טקסט שנוצר בינה מלאכותית עדיין זקוקה לשיפור רציני. קשה להתעלם מחוסר העקביות - שלח את אותו טקסט למספר גלאים, ותקבל תוצאות שונות בתכלית. מה שמסומן כנוצר בינה מלאכותית על ידי כלי אחד עלול לחמוק מבלי לשים לב על ידי אחר. בהתחשב בחוסר האמינות הזה, קשה להמליץ בביטחון על כל אחד מהכלים האלה עכשיו.
מדוע כל כך קשה לזהות טקסט שנוצר בינה מלאכותית?
השפה האנושית היא הפכפכה ומורכבת להפליא - אחת הסיבות העיקריות לכך שטקסט שנוצר על ידי AI כל כך מסובך לזיהוי.
במשד מובאשר,חבר ב-IEEEויו"ר תוכנית הבינה המלאכותית באוניברסיטת דפול מפרטת כי "הטקסט הוא מה שהמודלים הללו מאומנים עליו. לכן, קל להם יותר לחקות שיחות אנושיות".
"כלי זיהוי מחפשים דפוסים - ביטויים שחוזרים על עצמם, מבנים דקדוקיים שהם סדירים מדי, דברים כאלה", אמר מובאשר. "לפעמים, קל יותר לאדם לזהות, כמו כשהטקסט 'מושלם מדי', אבל להיות בטוח שהוא נוצר בינה מלאכותית זה מאתגר."
בניגוד למחוללי תמונות, שיכולים לייצר סימנים מעידים כמו אצבעות נוספות או תווי פנים מעוותים, Mobasher הסביר כי LLMs מסתמכים על הסתברויות סטטיסטיות כדי ליצור טקסט - מה שגורם לפלט שלהם להרגיש חלק יותר. כתוצאה מכך, איתור שגיאות בטקסט שנוצר בינה מלאכותית - כמו ניסוח ניואנסים או אי סדרים דקדוקיים עדינים - מאתגר הרבה יותר עבור גלאים וקוראים אנושיים.
זה מה שהופך גם טקסט שנוצר בינה מלאכותית למסוכן כל כך. מובאשר מזהיר כי "קל יותר לייצר וליצור מידע מוטעה בקנה מידה". עם לימודי תואר שני המייצרים טקסט שוטף ומלוטש שיכול לחקות קולות סמכותיים, זה הופך להיות הרבה יותר קשה לאדם הממוצע להבחין בין עובדה לבדיון.
"עם AI, זה למעשה הרבה יותר קל להפעיל את ההתקפות האלה", אומר יאנג. "אתה יכול להפוך את האימייל לקולח מאוד, להעביר את המסר שאתה רוצה, ואפילו לכלול מידע מותאם אישית על תפקידו או המשימה של המטרה בחברה".
בנוסף לשימוש לרעה הפוטנציאלי שלה,טקסט שנוצר בינה מלאכותית יוצר אינטרנט מחורבן. לימודי תואר שני מחברות כמו OpenAI ו-Anthropic מגרדים נתונים זמינים לציבור כדי לאמן את המודלים שלהם. לאחר מכן, המאמרים שנוצרו על ידי AI הנובעים מתהליך זה מתפרסמים באינטרנט, רק כדי להיגרד שוב בלולאה אינסופית.
מחזור זה של מיחזור תוכן מוריד את האיכות הכוללת של המידע באינטרנט, יוצר לולאת משוב של חומר גנרי שהולך וגדל, שמקשה על מציאת תוכן אותנטי וכתוב היטב.
אין הרבה שאנחנו יכולים לעשות בנוגע להאצה המהירה בבזק של AI וההשפעות המזיקות שלו על תוכן אינטרנט, אבל אתה יכול, לכל הפחות, לנצל את מאגר הידע שלך של אוריינות מדיה כדי לעזור לך להבחין מה מעשה ידי אדם ומה נוצר מבוט.
"אם אתה רואה מאמר או דו"ח, אל תאמין בזה באופן עיוור - חפש מקורות מאששים, במיוחד אם משהו נראה לא בסדר", אומר יאנג.