אַשׁרַאי:
הרשת תמשיך לייצר נתונים בקצב נפיץ. זה ייצור עוד יותר כעת, כאשר מכשירים ניידים יצרו עוד נתיב להגיע לנתונים האלה. לדוגמה, תעבורה ניידת בלבד היאחזולעלות על יותר משני אקס-בייט בחודש עד 2013. יש יותר מ-90 מיליון ציוצים ביוםיותר מ-60 מיליארד תמונותבפייסבוק. זה רק קצה הקרחון.
מתוך שפע הנתונים הזה צצו "מדע נתונים” ושפע של כלים חדשים להתמודדות עם גודל ומהירות המידע.Hadoop,Hbase,קסנדרה,MongoDB,NodeJS,כוורת,ר, וחֲזִירהם רק חלק מהכלים והטכניקות שהופיעו כדי להיאבק במגוון ההולך וגדל של נתונים. הפיצוץ בכלים חדשים והביקוש ליישם אותם עלה בהרבה על מספר מדעני הנתונים הזמינים.
כשאנחנו מסתכלים על התובנה והאינטליגנציה שחברות אוהבותלינקדאין,פייסבוקולְצַפְצֵףהצליחו לברר את ההעדפות וההתנהגויות של המשתמשים שלהם, אין זה מפתיע שלמדעני נתונים יש ביקוש גבוה. זה גם לא רק נתוני מדיה חברתית - פיננסיים, CPG, משווקים ואפילו ממשלות פונים למיומנויות ולטכניקות החדשות כדי לענות על שאלות עסקיות חדשות.
העלייה המהירה בביקוש והמחסור במומחים מיומנים הביאו להופעתם של כלים ללעשות דמוקרטיזציהגישה לנתונים גדולים. סטארטאפים חדשניים כמואגם נתוניםועוּבדָתִייש ממשקי גיליון אלקטרוני פשוטים לביצוע חיתוך וחתך לקוביות בסיסיות. שחקנים גדולים יותר אוהביםגוגלהושקוFusionTablesכדי לאפשר חיתוך והדמיה של ערכות נתונים בינוניות (100MB).
האתגרים של ביג דאטה
המסה רחבת הידיים הזו של נתונים מתעוררים מביאה איתה שורה של אתגרים. בזמן שאנו פורסים וחותכים נתונים, כיצד אנו עוקבים אחר התמורות הרבות שהוא יוצר? אילו ביטים הם משמעותיים ומאומתים? כיצד אנו עוברים מעבר לספירת הנתונים וסגירת הנתונים ולענות על שאלות משמעותיות יותר לעסקים?
כקהילה טכנולוגית, עשינו עבודה מבריקה במיקור המונים, מה שהופך את יצירתם ואצירתם למיזם חברתי. אפילו הפכנו את יצירת הקוד לחברתית באמצעות תנועת הקוד הפתוח וכלים כמו Github. עם זאת, למרות כל החדשנות שלנו, עשינו מעט כדי לרתום את קהילת האינטרנט הקולקטיבית לניתוח הנתונים שאנו יוצרים. בעוד שהניתוחים וההדמיות שלנו אלגנטיים ולעתים קרובות יפים, הם בנויים לעתים קרובות מדי בבידוד.
אם היינו מציצים לעתיד הלא רחוק, איך נוכל להשתמש בקולקטיב כדי לנתח נתונים ולארכיון את התפתחותם כדי לאפשר לאחרים לבחון עוד פיסות נתונים מסוימות ולרוץ לכיוונים חדשים? הבה נראה ניתוח מתפתח מבחינה חברתית כאשר ידיים רבות מחפשות דפוסים על פני זרם נתונים גדול.
נתחיל עם נתח נתונים המורכב מכל הציוצים המזכירים את "Walmart" במהלך יום שישי השחור, 26 בנובמבר 2010, תוך שימוש בהיפותטיות. "ג'ון" בוחן את הנתונים ומחלץ את כל הציוצים שהגיעו ממכשירים ניידים ומשרטט אותם על מפה:
אַשׁרַאי:
הוא מפרסם את התוצאות והנתונים בבלוג שלו כדי שאחרים יוכלו להרחיב או לצבוט את הניתוח. "קייט", אחד הקוראים שלו, בודק את הנתונים וחושב שזה נראה מגניב, אבל מתקשה לראות דפוס עם כל כך הרבה נקודות על המפה. לאחר מכן קייט לוקחת את הנתונים של ג'ון ומזלגת אותם בניתוח משלה, סופרת את כל הציוצים על וולמארט בכל מחוז:
אַשׁרַאי:
כשראה את הניתוח של קייט, קורא אחר, "ביל", תוהה מה הקשר בין ציוצים על וולמארט למיקום החנות שלהם. באיזו תדירות נמצאות חנויות Walmart בקרבת מקום כאשר מישהו מצייץ על Walmart? הוא מגלה ש-67% מהשונות של ציוצים מוסברת על ידי מספר ה-Walmarts הממוקמים בכל מחוז.
אַשׁרַאי:
קורא פוטנציאלי אחר, "לורן", סמנכ"ל שיווק של Walmart, מוצא את הדפוס הזה מסקרן מאוד. ניתוח זה מראה שכאשר מבצע נשלח לאנשים שדנים בוולמארט, יש סבירות גבוהה שחנות נמצאת בקרבת מקום כדי לממש אותו. לאחר מכן, המוח שלה רץ למשתנים אחרים שהיא יכולה לחבר למשוואה: אוכלוסיה, דמוגרפיה, תמהיל מתחרים, מזג אוויר, תנועה וכו'. היא יכולה למזג ולסנן את אוסף הנתונים ההקשריים - למשל, אם מישהו מצייץ מנייד מכשיר במרחק של מייל מוולמארט, ולמיקום יש צפיפות של אמהות חד הוריות בנות 30 עד 40, כמו גם גל חום צפוי - כדי למקד פרסומות.
מינוף התוצאות הדינמיות הללו, לורן יכולה להיכנס לניתוחי המלאי ולקדם מיד קידום לבריכות ילדים ורוחי שפריץ. היא יכולה להפוך את האלגוריתם הזה לאוטומטי כדי ליצור מבצעים חדשים על סמך נתוני הסטרימינג ולהתאים את עצמם לרמות המלאי בזמן אמת.
תשובות כלולות
אחת ההנחות המוקדמות של Web 2.0 הייתה שהנתונים יהיו "האינטל הפנימי" וחברות כמו NAVTEQ המספקות נתונים יהיומנצחים גדולים. היום אנו רואים מיקור המונים תופס יותר ויותר נתונים, ופרויקטים כמו OpenStreetMapמחליףNAVTEQs של העולם. ככל שהשוק מתקדם בשרשרת, הערך העתידי יהיה השאלות המשמעותיות שנוכל לענות עליהן באמצעות נתונים. המשמעות היא התמקדות רבה יותר בצד ה"מדע" של "מדעי הנתונים". ככל שנהפוך את המדע לחברתי ושיתופי יותר, כך ניצור תשובות טובות יותר בקנה מידה הדרוש לשוק נפיץ.
משאבי נתונים נוספים מ-Mashable:
-5 תחזיות לנתונים מקוונים ב-2011
-פייסבוק נגד גוגל והקרב על זהות באינטרנט [OP-ED]
-איך אינטרנט מודע פיזית ישנה את העולם
ניוזלטרים אלה עשויים להכיל פרסומות, עסקאות או קישורי שותפים. בלחיצה על הירשם, אתה מאשר שאתה בן 16+ ומסכים לנותנאי שימושומדיניות פרטיות.