透過演示加速視覺强化學習

一直以來研究人員使用演示(demonstration)來初始化使用視覺作爲環境參數的强化學習(reinforcement learning)。然而,當環境參數很複雜時,如模擬下的現實環境下訓練時,由於視覺的多樣化以及獎勵的稀缺,如meta task里的轉動門把測試(圖1),機械手臂必須要精確地轉動門把才能得分,但每個機械部件的可轉動角度很大,可以執行的行動很多但能得到獎勵的步驟很少,以至於大部分傳統的强化學習機制失效。
圖1. 一些訓練及測試的環境。圖中顯示的全部爲meta task當中的測試。

來自加利福尼亞大學的研究團隊使用了一套新的機制,和其他訓練相比較,他們的訓練效果顯著地較好(圖2)。首先,他們在虛擬環境中向模型演示某些環境下該怎麽執行動作才能得分。接著,他們將演示放到虛擬環境中,並添加一些隨機訊號讓演算更多元,能夠涵蓋更多的環境參數(模型需根據環境參數做出正確行動才能得分)。接下來模型會模仿這些演示,並和之前的演示比較,以衡量對於先前演示的學習效率,以及機械自我訓練的結果是否比之前的演示表現得更好。最後,將這個訓練結果,聯合演示的結果放入模擬的環境下開始正式的訓練,最後得出良好的訓練結果。
圖2. 訓練成功率。最右側為該團隊的模型,在進行21個visuo-motor測試下與其他模型表現的對比。

相對於一般的訓練方式,直接用演示來訓練,改模型多了兩個先導步驟,分別爲讓模型模仿演示的動作,以及比較演示以及自我訓練的結果來調整初始訓練下演示數據及自我訓練數據的比例,因爲主要的强化學習訓練得到了良好的先導數據,所以成功率大大提升了。主要成功因素在於第一次的演示并不能涵蓋大部分的環境參數,因此讓模型事先生成足夠多的與演示的動作相搭配的環境參數。
圖3. 訓練步驟。第一步為使用演示預先訓練一些結果。第二部為透過模仿之前的演示自動生成一些結果,並和演示對比觀察優略。第三步為將調整過比例的先導訓練結果放入正式的訓練當中。



撰文:陳怡亨


原始論文:
Hansen N, Lin Y, Su H, et al. MoDem: Accelerating Visual Model-Based Reinforcement Learning with Demonstrations[J]. arXiv preprint arXiv:2212.05698, 2022.

留言