非線性決策模型大大加速無人機的決策效率

果蠅的決策牽涉到線性(linear)以及非線性(non-linear)決策思維。對於簡單的決策果蠅先使用線性路徑,而對於存在複雜因素影響的決策,果蠅使用非線性決策路徑。本篇論文敘述了研究團隊使用snn(spiking neural network)模型DrosDecMa(圖一,非線性模型為一個循環神經網路),模擬果蠅的線性以及非線性決策思維路徑,並使用無人機模擬果蠅行爲。
圖一:DrosDecMa模型,左側為線性決策模型。當決策無法做出就會激發conflict monitor,進而激發右側的MB而激活右側的非線性決策模型。從圖中可以看到右側為一循環神經網絡,因爲這個特性因此能夠放大細微的輸入變化

當在訓練階段,模擬的無人機飛到標志(cues)為藍色的倒T區域時,實驗團隊給予懲罰,而飛到綠色正T標志的區域時不會給予任何刺激。因此當測試階段時,無人機偏向飛去綠色正T的區域。然而。當測試階段的標志是藍色正T及綠色倒T的標志時,訓練與測試的標志其中一個參數顛倒(即顔色),這時決策因素就從單純的符號不一樣(見圖二),變成了兩個因素,即形狀及顔色。當顔色及形狀的決策因素一致時,果蠅或決策的無人機不會對任何一個區域產生偏好。但因爲藍色符號與懲罰相關,當藍色顔色越深的時候,這個因素的影響就越大,因此顔色越深果蠅就會傾向于往不與懲罰顔色(即藍色)相關的區域。
圖二,當無人機進入右側倒T藍色符號區域時,給與懲罰刺激。因此在測試階段無人機不會飛到懲罰符號區域。這與强化學習的機制符合。

線性模型與非線性模型最大的區別在於,非線性決策模型能夠在即使是最微小的顔色變化,即對於兩個決策因素的任何一個因素變化更爲敏感。這個區別展現在圖三,S型曲線代表該決策模型能夠在最細微的顔色變化(x軸),也能得到最好的表現(y軸為對於任何一個區域的偏好,越往上或下為表現最好)。這些研究進一步説明了循環神經網路(recurrent loop)能夠有效放大最細微的環境區別,加速無人機的決策效率。
圖三,x軸為顔色深度,深淺會影響其中一個決策因素,y軸代表在兩個區域中的比例,極端值代表符合强化學習的機制,因此紅色線條所代表的非線性決策模型的效果最好。



撰文:陳怡亨


原始論文:Zhao, F., Zeng, Y., Guo, A. et al. A neural algorithm for Drosophila linear and nonlinear decision-making. Sci Rep 10, 18660 (2020). https://doi.org/10.1038/s41598-020-75628-y

留言