機器學步

動物與昆蟲之所以能順暢移動肢體,而達成往不同方向行走,中樞模式發生器(central pattern generator, CPG)扮演決定性的角色,CPG可說是肢體的節拍器,指揮肢體的移動順序,也因此CPG的概念也被應用到多足機器人的領域。這邊要介紹的是利用R-STDP(reward-modulated spike-timing-dependent plasticity)來訓練六足機器人的CPG。R-STDP是訓練SNN常用一項技巧,運作原理啟發於生物多巴胺神經元(dopaminergic neuron)調控目標神經突觸增強或減弱的現象。機器人上裝有陀螺儀與相機,可用以判斷當下的移動姿態,當機器人順利往前走時給予獎勵,即增強神經元連結;若在原地不動或是運動不協調則沒有獎勵,甚至是給予懲罰。展示影片如下:https://www.youtube.com/watch?v=1HqeISAkAs4&feature=youtu.be

這篇研究即將發表在IEEE AICAS 2020,它簡單展示給予一個CPG連結模式,其神經網路權重可以由增強式學習(reinforcement learning)習得,其中不需人為介入,一般來說約可在200個實驗週期後得到可前進的六足機器人。然而這邊只呈現單純往前走的情境,若要達到更複雜的行為,勢必要在網路與演算法上加以改良。


撰文:姚皇宇


參考文獻:A. S. Lele, Y. Fang, J. Ting, and A. Raychowdhury, “Learning to Walk: Spike Based Reinforcement Learning for Hexapod Robot Central Pattern Generation,” arXiv:2003.10026 [cs, eess], Mar. 2020, Accessed: Apr. 06, 2020. [Online].

留言