技術專區 2019年

創14.深度增強式學習技術

可使用類別: A.創意發想類

可應用範圍:

機器人、金融理財、棋類對弈(圍棋、西洋棋等)、遊戲(如星海爭霸等)

技術項目簡介:

深度增強式學習(Deep Reinforcement Learning,簡稱DRL)技術能夠讓Agent(如電腦、機器人等)透過與未知、待探索的環境互動,獲得經驗及獎賞(reward),知道動作(action)好壞的區別,讓Agent自主地探索未知環境並逐漸學習能夠獲得最大獎賞的策略(policy)。在棋類領域非常有名的AlphaGo即是以DRL為基礎,讓Agent從零開始,透過與自己對弈,學習圍棋技巧及策略,已戰勝許多世界頂尖棋士。

應用開發說明:

要讓DRL技術成功於應用中運行,需仔細考量以下幾點:1)在與Agent互動的環境中,其Reward的定義是否夠明確,與任務目標是否一致;以圍棋為例,其reward很明確,不是輸就是贏,而學習目標是希望贏越多越好。2)每當做決策時,Agent接收的資料是否包含足夠的訊息;以圍棋為例,每次下棋的根據就是當下的盤面。請發揮創意,創造適合DRL技術的應用。