AWS 在 2018 年推出迷你賽車 DeepRacer ,用意推廣加強學習 (Reinforcement Learning, RL ) ,同時開辦自動駕駛比賽 DeepRacer League ,讓開發人員從趣味中學習技術。 今年, AWS 香港 Summit 大會重回現場舉辦,期間所設的《 AWS 香港 DeepRacer 冠軍盃》更首次開放予企業隊伍參加。
自 AWS 推出 DeepRacer 以來,曾辦過本地賽事,只限學生和個人參與。今次《 AWS 香港 DeepRacer 冠軍盃》邀請企業組隊參賽,其中羅兵咸永道 (PwC) 和 GreenTomato 都派隊參加,目的為提升團隊的好奇心,也趁機了解加強學習技術,日後用於解決企業客戶的挑戰。
從比賽認識加強學習
加強學習是機械學習 (Machine Learning) 的技術之一,基本原理嘗試從錯誤中學習 (try and error) ,尤其用於電腦自行作決策的智能推薦。 DeepRacer 將技術問題聚焦在自動駕駛,開發人員設計模型讓賽車行駛,每個決定給予評分機制,做對加分、做錯減分。 AWS 提供虛擬環境測試模型,並在現場採用第一代 DeepRacer 賽車比賽。
AWS 香港解決方案架構部主管余廸遜稱,現時全球有超過 10 萬開發人員參與 DeepRacer 項目,當中包括逾 700 間企業。香港在過去以學校和個人比賽項目為主,因同時有不少企業感興趣,於是今年加入企業組隊,與學生同場較勁。 DeepRacer 比賽既較量技術,亦挑戰參賽者的解難技巧。學生有技術優勢,但缺臨場的解難經驗;企業團隊則大多不熟悉 RL 技術,希望透過比賽讓更多開發人員了解 RL,在商業項目內運用。
派隊參加當技術訓練
羅兵咸永道派出 3 隊共 9 人參賽。羅兵咸永道香港網絡安全及雲端服務 DarkLab 合夥人李志昇表示,當中有同事在工餘時間研究 RL,並早已用個人身分參加及贏得佳績;亦有同事在學時以學生身分參賽,現時加入 PwC 當全職顧問。他強調,招聘時已不再視大學學位為基本,更著重解難和樂於接受不同挑戰。這亦是派出多人參加今次比賽的原因,參賽同事分別來自雲端和網絡安全團隊,讓同事用輕鬆的方式接受技術訓練。
李志昇補充,參加比賽當然想贏,即使空手而回也贏了學習 RL 技術的技能,有望日後解決企業客戶難題的基礎。至於比賽策略,他透露團隊設計不同模型,由保守至進取都有。保守策略旨在完成一圈,而進取模型講求速度。團隊中的其中一位參賽者表示,之前雖然未接觸過 RL,卻在開發過程深入了解此技術。因為 DeepRacer 的自動駕駛模型雖然在 GitHub 不乏資源,但他人的開源模型大多不能讓賽車完成一圈,需要按策略自行開發模型。
GreenTomato 派出 1 隊 3 人團隊參賽。 GreenTomato 科技總監黃首源表示,參加的同事都是具資歷的開發人員但未認識 RL 技術。今次參賽僅花兩星期時間備賽,但 RL 技術和 DeepRacer 訓練都有雲端資源支援,相信都團隊都擁有一定實力出戰。但相比賽果,他認為更著重團隊的成長,透過接受挑戰學習新技術。
DeepRacer 虛擬現實比賽有差異
DeepRacer 比賽先在虛擬環境測試模型,再套用至賽車上執行。黃首源稱,兩者略有分別,正是團隊需要解決的挑戰。如虛擬測試屬完美環境,與現場的賽道不一樣,所擷取的影像沒有光暗差異,更沒有反光。「甚至有人站在賽道上, DeepRacer 鏡頭擷取的影像截然不同。虛擬環境執行時未能計算在內。」
李志昇補充,由於真實環境還需要計算啟動車輛、轉向角度的時間差距,甚至車重亦是計算模型控制車輛移動的因素,但虛擬環境卻沒有加入這些實際情況。