RANCHO PALOS VERDES, קליפורניה - המנכ"ל החדש של מיקרוסופט, Satya Nadella, פשוט כיוון את החברה לטריטוריה מרגשת ולא ידועה יחסית: תרגום דיבור לדיבור כמעט בזמן אמת.
"זה היה חלום של האנושות מאז שהתחלנו לדבר ורצינו לחצות את גבול השפה", אמרה נאדלה.
בוועידת הקוד הפותחת של Re/Code (לשעבר "ועידת D") בדרום קליפורניה, נאדלה וסמנכ"ל התאגיד של Skype, Gurdeep Singh Pall, עשו שיחת סקייפ לחבר גרמני שאינו דובר אנגלית. לאחר מכן שני הצדדים דיברו והבינו זה את זה הודות ליכולות התרגום החיות של הקדם-בטא של מתרגם Skype.
"אף אחד אחר לא עושה את זה," אמר לי פאל והוסיף, "זו הפעם הראשונה שמשהו כזה נוסה." וזה כנראה משהו שאנחנו צריכים.
אנגלית היא לא השפה המדוברת ביותר בעולם. לפי כמה הערכות, זהשלישי אחרי סינית(וכל הגרסאות שלה) והינדי. עם זאת, החברה ההולכת וגוברת שלנו כמעט דורשת מאיתנו למצוא דרך לתקשר על פני מחסומי שפה. סקייפ כבר, לפי המדד של מיקרוסופט, מתגאה ביותר מ-300 מיליון חברים פעילים ומטפלת בערך בשליש מתעבורת השיחות הבינלאומיות. תארו לעצמכם מה זה יכול לעשות עם תרגום קולי מובנה.
מיקרוסופט אינה חדשה במשחק זיהוי דיבור. אתה תמצא את אותה טכנולוגיה בגרסה שהושק לאחרונהקורטנהעוזר אישי ב-Windows Phone 8.1 ובזיהוי דיבור שחי ב-Xbox 360, וכעת Xbox One, כבר למעלה משנה. Skype Translator, שיוצא מ-Microsoft Research, הוא למעשה שלוש טכנולוגיות: זיהוי דיבור, טקסט לדיבור ותרגום מכונה.
"קהילת סקייפ היא גדולה - ממש גדולה", כתב פיטר לי, ראש מחלקת המחקר של מיקרוסופט בדוא"ל ל-Mashable. "כדי להפוך את מתרגם סקייפ למציאות, היה צורך במחקר גדול כדי לעשות את המדע הנכון, והנדסה נהדרת כדי להפוך אותו למציאות. מעשי וניתן להרחבה".
מיקרוסופט מדגימה את Skye Translate בוועידת הקוד. קרדיט: Mashable, Lance Ulanoff
כך פועל מתרגם סקייפ: רמקול A מתחיל לדבר. מתרגם סקייפ מזהה את המילים ולמעשה מתמלל אותן לטקסט. תעתיק הטקסט של דובר א' מתורגם לאחר מכן לשפתו של דובר ב'. לאחר מכן הוא מסונתז בקול לשפתו של דובר ב'.
זה נשמע איטי, ופאל אמר לי שאתה מחכה קצת עד שהתרגום יקרה. עם זאת, הוא מתעקש שלא מדובר ב"בעיית חביון טכנית". התהליך יכול לעבור די מהר, אבל מכיוון שיש כאן רכיב וידאו, המערכת פועלת כדי שהכל ייראה טבעי.
סמנכ"ל חברת Microsoft Skype ו- Lync Gurdeep Sing Pall קרדיט: Mashable, Lance Ulanoff
בזמן שרמקול A מדבר, רמקול B למעשה ישמע את הקול שלהם, בווליום נמוך יותר, אפילו כאשר מתרגם סקייפ מתחיל לעשות את עבודתו ומתחיל להעביר מילים מתורגמות, מדוברות. יתרה מכך, המערכת מחפשת הפסקות טבעיות או, כפי שהסביר זאת פאל, "זיהוי שתיקה", בדיבור כדי להתחיל לתרגם. משך הזמן שלוקח לתרגום תלוי לחלוטין באורך המשפט או הביטוי. האלטרנטיבה הייתה שהדובר יחזיק כפתור תוך כדי דיבור וישחרר אותו כשהם רוצים להעביר משפט או ביטוי. גישה זו צריכה להיות טבעית יותר.
באשר לאופן שבו Skype Translate יודע באילו שפות להשתמש, תגדיר את השפה המועדפת עליך בהעדפות. אין זיהוי שפה תוך כדי תנועה, לעת עתה.