בשנה שעברה, כריס וונג, נרקומן הנתונים בעצמו, השיג 20 גיגה-בייטאוצר של נתוניםשפירט עד 173 מיליון נסיעות בודדות במונית בניו יורק בשנת 2013, פשוט על ידי בקשתו.
כל רשומת נסיעה כללה את התעריף, זמן ומיקום האיסוף וההחזרה ומטא נתונים אחרים. מה שהוא לא כלל, כדי להסתיר את זהות הנהגים, היה מספר לוחית הרישוי או מספר המדליון של המונית, שהוא תעודת הזהות הייחודית בת ארבע הספרות שמוצגת בצד של מוניות צהובות בעיר ניו יורק.
ראה גם:
במילים אחרות, מאגר הנתונים, שהושג באמצעות בקשה לחוק חופש המידע, נראה היה אנונימי לחלוטין. אבל בעולם הביג דאטה, אפילו נתונים אנונימיים לכאורה יכולים לחשוף מידע אישי רב.
בשבוע שעבר, נח דנאו, מהנדס חשמל ורדיטור, נתקל ב-כלי הדמיהשמציג מידע ממאגר הנתונים של המוניות, כמו גםמחקרשחשף כי מוחמד הוא השם הפרטי הנפוץ ביותר בקרב נהגי המוניות והלימוזינה בניו יורק.
הסקרנות עלתה: האם זה אפשרי, שאל את עצמו דנו, לזהות נהגים מוסלמים אדוקים בעיר ניו יורק המתבוננים במאגר הנתונים האנונימי ובוחנים אילו נהגים אינם פעילים במהלך חמש הפעמים ביום שהם אמורים להתפלל? דנאו חיפש במהירות נהגים עם פעילות נמוכה בתוך 30 דקות עד 45 דקות של זמני התפילה המוסלמיים שנקבעו.מסוגל למצואארבע דוגמאות לדרייברים שעשויים להתאים לתבנית.
זה היה רק "פרויקט צדדי קטן שחשבתי שיכול להיות מעניין", אמר דנו ל-Mashable. אבל דנאו אמר שלא מדובר ביציאה לנהגים ספציפיים, אלא להוכיח ש"לטוב ולרע", אמר, מידע אישי מאוד אורב תמיד בתוך מאגרי מידע אנונימיים כביכול.
עם זאת, מסתבר, זו לא הפעם הראשונה שמישהו הוכיח שאפשר לעשות שימוש לרעה במאגר הנתונים המסוים הזה של נהגי המוניות.
זמן קצר לאחר ש-Whong פרסם את המאמר בשנה שעברה, Vijay Pandurangan, מפתח תוכנה,נחשףכי מערך הנתונים היה למעשה אנונימי גרוע וכי ל"כל אחד" היה קל מאוד לגלות את זהות הנהגים, הכנסתם השנתית ברוטו, ואפילו להסיק את מקום מגוריהם.
חודשים לאחר מכן, מתמחה בקיץ בחברת ניתוח נתונים Neustar,הביןשבאמצעות מעקב אחר סלבריטאים בגוגל, שיחזרו ועזבו מוניות בניו יורק, ותיאום דיווחי רכילות למערך הנתונים, אפשר היה למצוא למעשה הכל על הנסיעות במוניות של כוכבים כמו בראדלי קופר וג'סיקה אלבה.
אַשׁרַאי:
המתמחה, אנתוני טוקר, אפילו טען שניתן יהיה לזהות את הלקוחות התכופים של מועדון ההוסטלר של לארי פלינט ב-Hel's Kitchen של מנהטן על ידי ניתוח הנתונים. (אם כילא כולםהיה משוכנע שטוקר צדק.)
גם אם הניסוי של דנאו שגוי, ברור שמערך המוניות העצום של ניו יורק מדליף מידע רב. ועדת המוניות והלימוזינות של ניו יורק סירבה להגיב לסיפור הזה.
שני מומחי ביג דאטה, שסקרו את הניסוי של דנאו עבור Mashable, הסכימו שניתן יהיה להגדיל אותו ולזהות מספר לא מבוטל של נהגים מוסלמים בדרך זו - אם כי לא ברור אם דנו אכן זיהה נהגים מוסלמים.
גרגורי פיאטצקי-שפירא, מומחה לכריית נתונים אמר כי אפשר אפילו לזהות נהגים מוסלמים שאינם שומרי מצוות, או נהגים בעלי שמות בעלי צליל מערבי שהם למעשה מוסלמים אדוקים - דבר שהוא הגדיר כ"אפשרות מפחידה".
"הניסוי הזה מראה את ההשלכות של ביג דאטה", אמרה פיאטצקי-שפירא ל-Mashable. "גם כאשר הנתונים אנונימיים אנו משאירים כל כך הרבה פירורי לחם דיגיטליים שקשה מאוד להישאר אנונימיים - כך שאפשר לזהות דברים בלתי צפויים".