首頁 科技 天文新知

AlphaGo成功關鍵 分析:策略結合值網路

黃士傑解說機器學習如何讓AlphaGo自我學習。(記者陳懿勝/攝影)
黃士傑解說機器學習如何讓AlphaGo自我學習。(記者陳懿勝/攝影)

【記者陳懿勝/台北報導】谷歌(Google)旗下DeepMind開發的人工智慧系統「AlphaGo」,日前以4:1大勝韓國九段圍棋高手、世界冠軍李世乭。AlphaGo主要開發者、來自台灣的黃志傑18日返台及分享經驗,他表示,AlphaGo成功的主要關鍵在於策略網路(Policy Network)與值網路(Value Network)的分析方式,讓它能在20~30萬份對戰棋譜中,找出最好的20步,才能夠在此世紀之戰中獲勝。

黃志傑指出,圍棋第一步的下法選擇就高達361種,變化數有10的364次方,對早期人工智慧來說,根本無法計算。但對AlphaGo來說,運用策略網路來減少搜尋廣度,從360步只要找到20步;價值網路則是直接判斷盤面狀況,了解優勢還是劣勢,減少搜索深度,自然會提升勝率。

對於第四局對戰AlphaGo落敗,黃志傑說,當時李世乭下了神之一手,以致值網路發生誤判,接連處在劣勢。由於AlphaGo會在比賽中隨時計算勝率,如果勝率低於20%就會投降,但為何會誤判,目前仍不清楚詳細原因。

黃志傑說,當AlphaGo通知投降時,他自己有笑了一下,因為他很尊敬李世乭,看過李世乭大部分的棋譜與比賽,很榮幸能夠坐在他對面。「我為李世乭高興,因為知道他的壓力很大,4比1是蠻圓滿的結果。」

至於AlphaGo的未來發展,黃志傑表示,未來人工智慧可望運用在醫療及機器人上,並達到預先診斷、找出病徵,協助醫學診斷。◇