מחשב ניצח אלוף במשחק האסטרטגיה Go בפעם הראשונה

קרדיט: Blue Jean Images, Corbis

מחשב בדיוק גבר על אלוף משחק האסטרטגיה המורכב Go, הישג שעשויה להיות לו השלכות עצומות על מחקר בינה מלאכותית (AI).

Go הוא לא משחק פופולרי או מוכר במיוחד במערב, אבל הוא פופולרי ברחבי העולם, שם משחקים בו כ-40 מיליון. ישנם טורנירים של Go, בהם מוכתרים אלופי אזור ועולם.

שחקן מפורסם כזה, אלוף אירופה Fan Hui, הגיש לו את הכובע שלו (חמישה משחקים ל-zip) על ידי AlphaGo, AI מבוסס מחשב Go-Playing שנבנה על ידי DeepMind של גוגל.

התוצאות של עבודתו של DeepMind והטורניר ללא מעצורים מפורטות במחקר חדש שפורסם ביום רביעי בכתב העת Nature.

"זוהי אבן דרך היסטורית בבינה מלאכותית", אמר העורך הבכיר של Nature, טנגוי צ'וארד, שנכח בטורניר בין Hui לתוכנית AlphaGo.

גו מתואר לעתים קרובות כ"גרסה הסינית לשחמט", אבל התיאור הזה בקושי עושה צדק עם המשחק הפשטני המטעה. מטרת המשחק היא לשלוט ברוב על הלוח. אתה עושה זאת על ידי הנחת הכלים הלבנים (או השחורים) שלך (אבנים) על הלוח ומשתמשים בהם כדי להקיף את הכלים של היריב שלך כך שהם ייאלצו להסיר אותם.

אם זה נשמע פחות מסובך משחמט, זה לא. כדי לשים את הדברים בפרספקטיבה, לכל מהלך בשח יש לך כ-40 אפשרויות. כל מהלך ברשת 19 על 19 Go מקנה לך 200 אפשרויות.

"יש יותר תצורות על הלוח מאשר אטומים ביקום", הסביר חוקר Google DeepMind דיוויד סילבר בסרטון Nature המתאר את ההישג של קבוצתו.

זה, לפי כמה מדדים, רגע משמעותי ב-AI כמו כשהכחול העמוק של יבמ ניצח את אלוף השחמט גארי קספרוב ב-1997. אולי חשוב מכך, פריצת הדרך הזו מגיעה לפני המועד.

לפני שנתיים,דוח Wiredאמר שזה עלול לקחת עוד "10 שנים בערך" עד שמישהו יוכל לבנות תוכנת מחשב שמסוגלת לנצח אלוף גו אנושי.

"גו הוא פסגת המחקר בינה מלאכותית", אמר מנכ"ל Google DeepMind, Demis Hassabis, ל-Mashable, והוסיף כי מדובר ב"אתגר שאי אפשר לעמוד בפניו".

למעשה, כל כך קשה לעמוד בפני האתגר שפייסבוק, אחת מיריבותיה העיקריות של גוגל בעמק הסיליקון, טענה ביום רביעי בבוקר שהחברה שלו התקרבה להישג Go משלה: בינה מלאכותית שמסוגלת לבצע מהלכים חזקים ברמת הטורניר Go תוך 0.1 שניות בלבד. . של פייסבוקהַכרָזָה, שנעשה בעמוד הפייסבוק של המנכ"ל מארק צוקרברג, אולי תועד להקהות את ההשפעה של החדשות הקשורות לגוגל, בהתחשב בכך שהן פורסמו באחד מכתבי העת המדעיים הבולטים בעולם.

כדי לקבל Go-ing

בדיוק כפי שהיו תוכניות שחמט הרבה לפני Deep Blue, היו הרבה תוכניות Go, אבל אף אחת לא הצליחה לנצח שחקנים אנושיים מובילים ללא יישום של כמה מוגבלויות, הנמדדות בכלי משחק.

"המשחק של Go הוא בלתי נסבל לחיפוש כוח גס", הסביר DeepMind's Silver. זאת בניגוד לשחמט שעם הכלים הנקובים, ערכי הכלים והרשת של 64 ריבועים, הוא כמעט מושלם עבור מחשב רב עוצמה שמריץ מיליוני אפשרויות תנועה בשניות.

מאסטרינג Go דרש משהו יותר מהטכניקות שה-Deep Blue השתמש בו כדי לנצח את אלופי השחמט.

לפני שנה, ה-AI של DeepMind למד כיצד לשחק ולנצח במשחק הווידאו הקלאסי Breakout כפי שהקהל צפה. מחקר אחר של Nature גילה ש-DeepMind למעשה שלטה במספרמשחקי Atari Console הקלאסייםכולל דיג דרבי, כביש מהיר וטנק רובוט. הרוטב הלא כל כך סודי לכישורי הגיימינג של DeepMind הוא למידת מכונה.

עבור Go, DeepMind שוב תחיל למידת מכונה, אבל הפעם עם לא אחת, אלא שתי רשתות עצביות הנקראות "מדיניות" ו"ערך". שניהם מסתכלים על שלל אפשרויות המשחק של Go, אבל בשתי דרכים ספציפיות למדי.

מדיניות מצמצמת את תחום המהלכים האפשריים לקומץ של מהלכים מבטיחים, בעוד ש-Value מחפש תוצאות חיוביות מבלי לנסוע כל הדרך לכל מסקנות משחק אפשריות. סילבר אמר שרשת Policy בוחנת כ-30 מיליון משחקים על ידי מומחי Go אנושיים כדי לחזות במדויק מהלכים עד 57% מהמקרים. השיא הקודם עמד על 44%.

AlphaGo בעצם משחקת מיליוני משחקים בין שתי הרשתות העצביות שלה ולומדת איך להיות שחקן Go טוב יותר באמצעות ניסוי וטעייה ולמידת חיזוק, אמר סילבר.

לנצח אלוף גו אנושי "בהתחלה חשבו שזה קשה מדי עבור תוכניות בינה מלאכותית", כתב אורן עציוני, מנכ"ל מכון אלן לבינה מלאכותית, באימייל ל-Mashable. עציוני כינה את הפתרון של DeepMind, שילוב של למידה עמוקה ולמידת חיזוק, "תרומה טכנית חזקה" לתחום חקר הבינה המלאכותית. הוא לא היה מעורב במחקר החדש.

עצוני, שאכן משחק ב-Go, מסכים כי חוקרי בינה מלאכותית מתקדמים במהירות "במשימות צרות (כמו Go) אך [מתנהלים] לאט מאוד במשימות רחבות (כמו הבנת שפה טבעית)."

מנצח ותוהה

בתחילה, DeepMind העמידה את AlphaGo, הפועלת על מחשב רגיל, מול תוכניות Go המובילות, שם היא ניצחה בכל 500 המשחקים מלבד אחד.

אז הגיע הזמן לשחק שלוש פעמים אלוף אירופה Go Fui. AlphaGo ניצחה בכל משחק. עם זאת, עבור המשחק הזה, DeepMind הגדילה משמעותית את קצב החומרה, והכניסה את AlphaGo למערכת מבוזרת עם מאות מעבדים.

חמשת המשחקים של Go European Champ Fan Hui הפסיד ל-AlphaGo. במהלך המשחק Hui כנראה העיר כמה הערות שנשמעות כאילו הוא מקשר בין מאפיינים אנושיים ל-AI. קרדיט: הטבע

"זה היה אחד הרגעים הכי מרגשים בקריירה שלי", אמר Nature's Chouard, שנזכר בתרועות של המתכנתים למעלה והאנשים ליד האלוף המובס Fui. "אי אפשר היה שלא לשרש [אדם] מסכן שהוכה... זה היה מצמרר לראות."

חסאביס אמר כי DeepMind מודע היטב לסוגיות האתיות סביב AI.

"עם כל טכנולוגיה חזקה חדשה... אתה צריך לחשוב היטב כיצד להשתמש בה בצורה אתית ולפרוס אותה בצורה אחראית. אתה צריך לוודא שהיתרונות הללו יגיעו לרבים לעומת מעטים", אמר.

עם זאת, הוא גם אמר ל-Mashable, "אנחנו עדיין מדברים כאן על משחק, משחק מורכב להפליא". ה-AlphaGo AI, בסופו של דבר, מתאים יותר, אמר חסביס, לפתרון בעיות מבוססות מחשב מאשר אלו שבעולם האמיתי.

המהלך הבא

עם זאת, ניצחון בבינה מלאכותית הוא רק לעתים רחוקות רק לנצח במשחק או לנצח יריב אנושי. DeepMind, כמו כל אחד אחר בתחום, צופה במבט ארוך ויש לו חלומות גדולים עבור מערכת כמו AphaGo.

סוג זה של בינה מלאכותית "ישים לכל בעיה שבה יש לך כמות גדולה של נתונים שבה אתה צריך למצוא תובנות ומבנים, תוכניות ארוכות טווח והחלטות כדי להבין מה לעשות הלאה כדי להגיע לאיזשהו יעד", אמר סילבר של DeepMind .

במהלך העתיד הקרוב, החכמים של AlphaGo עלולים להיגמר במשהו כמו עוזר סמארטפון. מכיוון ש-DeepMind נמצאת בבעלות גוגל, אולי בסופו של דבר עלינו לצפות ש-Google Now יהפוך מיומן מאוד בלשחק ב-Go.

בהמשך הדרך, DeepMind מקווה ליישם את הבינה המלאכותית על אבחון רפואי, ובאופן רחב יותר, שאלות מדעיות גדולות כמו שינויי אקלים.

עם זאת, השלב הבא הוא אתגר ה-Go pro האנושי האחרון של AlphaGo. קוראים לו לי סדול, והוא אולי השחקן הגדול ביותר של גו אי פעם (סילבר כינה את הדרום קוריאני "רוג'ר פדרר של עולם הגו"). Sedol תשחק באלפאגו במרץ.

כשם שה-Deep Blue של קספרוב לא סימן את הסוף של בני אדם ששיחקו שחמט ואפילו ניצחו מחשבים, חסאביס לא מצפה שההצלחה של AlphaGo תסמן את תחילת הסוף עבור Go.

"זה עשוי להראות כמה רמות חדשות של Go שניתן להשיג", אמר חסאביס ל-Mashable. יש, הוא ציין, מעט שחקני Western Go חזקים, אבל עם גישה ל-AlphaGo של Google DeepMind, הם עשויים להיות מסוגלים להפוך לשחקנים ברמה עולמית מבלי לעבור לאסיה.

ניוזלטרים אלה עשויים להכיל פרסומות, עסקאות או קישורי שותפים. בלחיצה על הירשם, אתה מאשר שאתה בן 16+ ומסכים לנותנאי שימושומדיניות פרטיות.