【BZ2016】自行研發戰術的AI?《星海爭霸 2》DeepMind合作計畫解析

2016-11-06 | 會打字的兔子

  今年初以圍棋在韓國大敗棋王的超級電腦「AlphaGO」團隊「Deep Mind」現身於 BlizzCon 開幕會場,並表示在挑戰人工智慧學習圍棋之後,將加入《星海爭霸 2》作為超級電腦「AlphaGO」的研討題材,也在今日的 BlizzCon 主舞台為玩家帶來更多的相關資訊。
bandicam 2016-11-06 01-11-28-335 超級電腦「AlphaGO」團隊「Deep Mind」前來 BlizzCon bandicam 2016-11-06 01-12-30-428 Google AI 研究團隊成員 Oriol Vinyals
  Oriol Vinyals 首先在現場向玩家展示 Deep Mind 團隊製作 AI 的過程,Oriol 首先向玩家定義何謂「智能」,他表示「能夠在各種環境下學習且表現傑出的能力」就代表他所定義的智能。而學習的部分,也不是採用預先設計或預載的方式直接給予知識,而是直接給予未經過處理的資訊讓其自主學習,而他們製作 AI 的目標就是讓其具備處理智能的能力。
bandicam 2016-11-06 01-20-48-726 Oriol Vinyals 對於智能的定義
  他舉了專門為西洋棋所設計的「Deep Blue」為例 ,雖然該 AI 在西洋棋的表現相當良好,但要將他挪用到其他的遊戲上是不可能的,因為其整體都是針對西洋棋所設計,無法透過學習的手段適應其他遊戲,他認為這並不是一個合適 AI 設計方式,因為要讓該 AI 適應其他遊戲,你必須再為他進行設計調整來適應其他遊戲的玩法和規則。
bandicam 2016-11-06 01-28-06-988 「Deep Blue」善於面對西洋棋,但不具備學習能力,讓他無法適用於其他遊戲上
  Oriol Vinyals 接著便談到強化學習網路(Reinforcement Learning Framework)的應用,他以自己當下的狀況為例,自己以受測者的位置處在該環境中的目標為與台下的玩家對談跟提供資訊,而身處於環境的玩家會給予資訊讓其進行觀察,而 Oriol 則會依據這些觀察取得資訊,與身處於環境的玩家們產生互動或對談,他表示 Deep Mind AI 測試跟建構都是依靠這樣的網路循環來測試和設計。
bandicam 2016-11-06 01-38-28-311 以自身目前在台上與玩家的應對作為強化學習網路的例子
  因此 Oriol 與團隊便決定用遊戲來做為強化學習網路的應用環境,且遊戲對 AI 測試來說是個最佳的平台,可透過多台電腦同時進行模擬做演算法的測試,加快整體 AI 測試和設計的流程。他以玩家玩遊戲的體驗作為例子,表示玩家會依據遊戲提供的換面和資料,來進行各種操作或是應對策略,而 AI 在遊戲測試中也是採用這樣的概念,接收遊戲給予的資訊,學習並做出應對。
bandicam 2016-11-06 01-53-21-932 遊戲(左側)釋出資訊,玩家(右側)依據資訊做出各種應對
  他們初期給予 Deep Mind AI 的第一個挑戰是在 Atari 2600 主機平台裡 50 多款 80 年代的 8-bit 遊戲中獲取最高分數,Deep Mind AI 沒有任何預設資訊,將依據遊戲給予的資訊來做應對自行學習,嘗試做到透過自主學習來適應該項挑戰中所有的遊戲。
bandicam 2016-11-06 02-00-40-801 初期的嘗試為讓單一 AI 一次挑戰 50 多款遊戲,並在遊戲中獲取最高分紀錄
  他表示 Deep Mind AI 在這項實驗中帶來了相當傑出的表現,做到了相當精準的操控並成功拿下最高分數,轉向 3D 遊戲的環境中也帶來了不錯的成果。之後轉移到圍棋的表現,也在「AlphaGO」擊敗韓國棋王的獲得了認證。
bandicam 2016-11-06 02-05-37-519 棋盤上的空位跟黑白棋就是提供給 AI 的訊息,而 AI 便會依照這些訊息來學習和應對
  而至於為何會選上《星海爭霸 2》作為下個挑戰目標,Oriol Vinyals 表示該款遊戲具備相當多的素材可以讓 Deep Mind AI 學習成長,「戰爭迷霧」可讓 AI 處於資訊不完整的環境,促使 AI 去猜測對手的動向;「經濟」要素可促使 AI 去管理資源,同時在擴張跟防禦上進行抉擇;「即時」的要素讓 AI 學習迅速做出正確的決定,而三個各具特色的種族都有各自的強項和弱點,也會讓 AI 學習並加以利用,這些都是能夠讓 Deep Mind AI 自我學習成長的重要因素,因此他們才會選擇《星海爭霸 2》。
bandicam 2016-11-06 02-18-42-995 Oriol Vinyals 列出了選擇《星海爭霸 2》的原因
  而除了遊戲外,Oriol Vinyals 也表示他們想將 Deep Mind AI 技術應用在現實生活中,而他也在現場展示了 AI 應用到現實中的例子,表示 Google 的伺服器冷卻系統,便是採用該 Deep Mind AI 來進行控管,AI 會依據各個伺服器的溫度作為數據,以不讓伺服器過熱為目標來進行應對和控管,提升控管效力同時降低風險成本。
bandicam 2016-11-06 02-28-40-347 google 的伺服器冷卻系統便是由 AI 管控
  Oriol Vinyals 表示當前《星海爭霸 2》Deep Mind AI 所面臨的問題為缺乏記憶、策畫和想像的能力,這是他們正在努力解決的問題,而為了讓玩家更加明瞭 AI 的概念,他也將舞台交給 Blizzard 軟體工程師 Kevin Calderone,讓玩家以 Blizzard 的角度來探討 AI。
bandicam 2016-11-06 03-14-14-128 Blizzard 軟體工程師 Kevin Calderone
  Kevin Calderone 開場便表示玩家目前所見識到的 AI,大部分都是套入既定資料所製成,按照設計者寫好的腳本去運作,但 Deep Mind 所製作的 AI 是會自主學習應對的。他直接舉了《星海爭霸 2》的 AI 作為例子,表示遊戲中的 AI 表現強度都是依據設計者的腳本來呈現,而非 AI 自身的應變能力。
bandicam 2016-11-06 03-18-46-396 玩家目前所見識到的 AI,大部分都是套入既定資料所製成,按照設計者寫好的腳本去運作
  而 Deep Mind 所設計的 AI 是會根據遊戲提供的資訊來自主學習和應對,自行找出一套戰術或策略來面對環境和挑戰。而為了讓玩家更加了解 AI 的運作,他們也展示了一小段影片,讓玩家看看在《星海爭霸 2》中,Deep Mind AI 是怎麼去接收遊戲所給予的資訊。 <


  Kevin Calderone 表示現在強化學習網路的狀態,就是 Deep Mind AI 擔任受測者的位置,環境則是《星海爭霸 2》,而幫助 Deep Mind AI 的方法,便是讓其觀看其他玩家的遊戲紀錄,來自行分析和學習。
bandicam 2016-11-06 03-34-51-542 Deep Mind AI 透過分析遊戲紀錄來自我學習
  而為了讓 Deep Mind AI 更加完善,Blizzard 也打算與社群合作,結合研究者、玩家與分析師,讓 AI 的學習和構成更加完善。玩家在天梯上的對戰紀錄便會成為 Deep Mind AI 的學習教材,讓 AI 自行學習如何玩《星海爭霸 2》,Blizzard 也預定在 2017 年初推出官方版《星海爭霸 2》API,讓一般玩家與科學家來參與。
bandicam 2016-11-06 03-56-18-766 Blizzard 預定於 2017 年推出官方版《星海爭霸 2》API
  Kevin Calderone 在最後表示 Deep Mind AI 的合作可以為《星海爭霸 2》帶來更多的可能性,像是讓一個專家等級的 AI 在遊戲中擔任玩家的教練,或是讓 AI 協助官方進行遊戲平衡測試,他接著表示與 Deep Mind AI 合作會將遊戲發展帶向何處依然是個未知數,但他們很高興能夠讓《星海爭霸 2》參與該項合作計畫,並希望各界的科學家和玩家能夠一同協助,讓該項計畫得以成功。   Blizzard 預計在 2017 年第一季推出官方版《星海爭霸 2》API,讓對此計畫有興趣的科學家與一般玩家皆能參與。對於玩家來說,具體方式是透過參與對戰產出 Replay,進而讓 DeepMind 有更多資料可以進行學習。

留言回應