אַשׁרַאי:
בעיקרו של דבר, עומס יתר על השרת הניע שרשרת אירועים שהובילה לסערה מושלמת של בעיות ובעיות שהשפיעו על הליבה של רשת ה-P2P שממשיכה את סקייפ לפעול. כתוצאה מכך, השירות הושבת עבור משתמשים רבים למשך עד 24 שעות.
אצלופוסט בבלוג, מתאר הרבי את רצף הנסיבות שהובילו להפסקה. נקודת ההתמוטטות העיקרית - מלבד העומס הראשוני של אשכול שרתי תמיכה - התרכזה סביב לקוח Skype for Windows. במקום לעבד נכון את התגובה המושהית מהשרתים העמוסים יתר על המידה, סקייפ עבור Windows גרסה 5.0.0.152 תקרוס במקום זאת.
הגרסה האחרונה של Skype עבור Windows, גרסה 5.0.0.156, גרסאות 4.0 של Skype עבור Windows, Skype עבור Mac, Skype עבור iPhone, Skype בטלוויזיה שלך ו-Skype Connect/Skype Manager לא הושפעו מהגל הראשון של בעיות.
הבעיה, למרבה הצער, הייתה שכ-50% מכלל משתמשי סקייפ ברחבי העולם השתמשו בגרסת 5.0.0.152 של סקייפ עבור Windows. זה היה המהדורה היציבה הראשונה שלסקייפ 5, שוחרר באוקטובר. הגרסה המעודכנת של Skype for Windows שוחררה בתאריך14 בדצמבר, אבל אלא אם משתמש במקרה בדק את העדכון באופן ידני או הוריד את הגרסה העדכנית ביותר, רוב הסיכויים שהוא או היא הפעילו את לקוח ה-Windows הקריסה. רבי אומר שקריסות תוכניות גרמו לכ-40% מהלקוחות שהריצו את גרסת הבאגי של סקייפ עבור Windows להיכשל - במילים אחרות, 20% מלקוחות סקייפ בשימוש נכשלו בגלל בעיה זו בגרסה הישנה יותר של התוכנה.
זה המקום שבו אלמנטי הסערה המושלמים מתחילים להתאחד. אותם לקוחות כושלים ייצגו 25 עד 30% מה"סופרנודים" הזמינים לציבור. במהותו, סופר-צומת הוא נקודת חיבור שיכולה גם לסייע בהעברת תעבורה עבור משתמשים אחרים. הדרך שבה פועלות רשתות VoIP של עמית לעמית כמו סקייפ היא שלקוח חייב להתחבר לסופרנוד כדי ליצור חיבור, לשלוח נתוני קול או וידאו או להחליף הודעות מיידיות. כברירת מחדל, כל לקוח Skype יכול להיות סופר-צומת, בהתאם להגדרות חומת האש ולקיבולת רוחב הפס שלך. אם לקוח הסקייפ שלך קרס והיית סופר-צומת, מספר נקודות החיבור הזמינות עבור משתמשים אחרים פשוט ירד.
רבי כותב, "הכשל של 25-30% מהסופרנודים ברשת ה-P2P הביא לעומס מוגבר על הצמתים הנותרים. למרות שאנו מצפים לגידול מסוג זה במקרה של תקלה, חלק ניכר מהמשתמשים גם התרסקו. לקוחות Windows בשלב זה הגדילו באופן מסיבי את העומס כשהם התחברו מחדש לענן לעמית.
למזלנו, כל זה התרחש ממש לפני שיא השימוש היומי הרגיל. המשמעות היא שהתנועה לסופר-צמתים הנותרים "היתה בערך פי 100 ממה שהיה צפוי בדרך כלל באותה שעה של היום". כדי לסבך עוד יותר את העניינים, העומס הנוסף הזה הפעיל מנגנוני הגנה מובנים, שבנסיבות רגילות, יכול היה להצביע על משהו מעבר לירידה פתאומית של צמתים-על זמינים. הטריגרים האלה יצרו מה שהסתכם בלולאת משוב חיובית, שבה סופרנודים עמוסים מדי כיבו את עצמם, מה שבתורו העמיסו על צמתים אחרים, מה שגרם להם לכבות את עצמם וכן הלאה. זה היה האירוע שבעצם הוריד את סקייפ עבור רוב המשתמשים - בין אם השתמשת ב-Windows ובין אם לא.
הפקת לקחים
הפסקת הסקייפ הזו וההסבר המפורט של רבי מעניינים בכך שהם מדגישים את מה - לכל דבר ועניין - היה מזל. אילו ללקוח Windows לא הייתה נטייה לקרוס ואלמלא זמן ההפסקה התרחש במהלך שיא השימוש ורק לקראת חג גדול, סביר להניח שהמצב היה שונה בהרבה.
הפתרון הגדול, לפחות מנקודת המבט שלנו, הוא שסקייפ צריכה לבחון לספק מנגנוני עדכון אוטומטי טובים יותר עבור לקוחות שולחן העבודה שלה. אמנם זה נכון שעדכון אוטומטי יכול להיחשב עוין למשתמש, אבל עבור תיקונים קטנים (באופן יחסי) כמו העדכון האחרון של סקייפ, כנראה שעדיף לדחוף את העדכונים האלה ללקוחות באופן אוטומטי ולהגדיר את זה כברירת המחדל. זה מה שגוגל עושה עם דפדפן Google Chrome שלה להצלחה רבה. סקייפ אפילו לא תצטרך להרחיק לכת כמו גוגל - היא עדיין יכולה לדרוש מהמשתמשים לאשר שדרוג לגרסה עיקרית (בתנאי שהגרסה הישנה עדיין נתמכת) ולעדכן אוטומטית רק תיקונים חמים קטנים יותר.