老鼠腦中的策略轉換


想像一個你在好市多採買完一車的東西準備去排隊結帳的場景,你面前有好幾條隊伍,此時你會怎麼選擇要排哪一條隊伍才能最快結完帳呢?有的策略可能是考慮每一條排隊的人數,有的策略可能會粗略地針對購物車中的物品數量進行加權,有的可能還會考慮店員刷條碼的手速。無論如何,你採取了某種策略,你腦中的策略會將環境中的這些變數,轉換成屬於此策略的決策變數(Decision varaibles),而不同的策略會產生不同的決策變數,最終產生了不同的結果(排哪一條)。 

在小鼠的行為實驗中,小鼠在跑步機上,他可以透過停下來在採集點舔供給器來得到獎勵,他也可以選擇向前跑離開這個採點,當小鼠在舔供給器時,有 0.9 的機率會得到獎勵,而每次得到獎勵後有 0.3 的機率採集點會轉移到另一側,當前的採集點就失效,此時小鼠最好的決策就是往前換下一個採集點 (圖一,a)。實驗人員設想了兩種小鼠可能採用的策略以及他們的決策變數(DV), Consecutive failures(連續失敗)在計算連續失敗的次數,達到某個閾值時轉移地點,得到獎勵時歸零。
圖一

Negative value (負值)則是將某個採集點視為一個可以被耗盡的資源,當得到的獎勵愈多時, DV 就會下降,到某個足夠低的值時就會轉移地點。雖然 Consecutive failures 對於這個實驗設置來說是比較合理的策略,但在小鼠的視角他並不知道實驗設置是怎麼樣的,所以他會試著將已經得到的獎勵納入到他的決策中,這是兩種策略最大的區別。

實驗結果中可以發現,有一些小鼠能夠忍受的連續失敗次數 (Consecutive failures)是與得到的獎勵相關的(圖二中藍色組),有一些小鼠能狗忍受的連續失敗次數與得到的獎勵無關(圖二粉色組),近一步展示了小鼠所採用的不同的決策變數。
圖二

經過中間一些細節的討論之後,這篇論文提出來的有趣結論是,雖然小鼠只會採用某一種策略(consecutive failure 或是 negative value) 但實際上這兩種策略的 decision variables 是同時展現在 Secondary motor cortex (M2) 的 activity 中的。
圖三

這引發我們的討論就是,當我們意識到自己在進行策略轉換的時候,實際上這個備選的方案可能是早已經在我們大腦中進行運算過的結果,這是很有趣的。


撰稿人:周品汝


Reference: Cazettes, F., Mazzucato, L., Murakami, M. et al. A reservoir of foraging decision variables in the mouse brain. Nat Neurosci 26, 840–849 (2023). https://doi.org/10.1038/s41593-023-01305-8

留言