大腦如何面對潛在的落空?

在經典心理學實驗中,帕夫洛夫的狗學會了將「鈴聲」與「肉的出現」連結在一起;然而現實世界錯綜複雜,期待中要出現的結果,來的時間可能不固定,也可能最終等待落空。近日哈佛大學腦科學中心發現,面對這種情況,大腦也會把「潛在的落空」算進來。

在實驗中,小鼠學習將特定氣味與獎勵連結在一起,獎勵的時間隨機分佈在氣味出現後1.2-2.8秒,並在10%的實驗中省略獎勵。也就是說對小鼠而言,太久沒出現的獎勵,可能只是來得比較遲,也有可能就不出現了。此時測量小鼠腦中反應實際獎勵與期待落差(Reward prediction errors, RPE)的神經元,發現隨著等待時間的增長,神經元在得到獎勵時反應逐漸增加,也就是說小鼠開始認知到獎勵可能不會出現,因此在得到獎勵時逐漸出現可視作「驚喜」的反應。

與上述結果相對地,在傳統實驗程序中,獎勵肯定都會出現,神經元所反應的「驚喜」就會隨著等待而降低。能解釋這個結果的學習機制,可以透過機器學習的一種演算法——Temperal difference learning (TD) 來瞭解。在這個研究中,科學家也修正了傳統的TD-learning,加上潛在狀態(hidden-state / belief state),使理論模型可以解釋實驗結果。TD learning 將實驗程序中的每個時間點視為一個個不同的狀態,由不同狀態的輸出加權加總,可得到「對獎勵期待程度」的數值。而在修正過後的模型中,當獎勵遲遲沒有出現,接下來的時間點就會以一定的機率,由「等待獎勵出現」轉變成「認為獎勵不會出現」的狀態,這種狀態的輸出為零,因此「期待程度」的數值逐漸降低,獎勵出現時神經元反應的「驚喜」程度也就隨之提高。

-

撰文者:李宛儒

-

原始論文:


Gershman, S.J. et al. (2017). Dopamine reward prediction errors reflect hidden-state inference across time. Nat. Neurosci.

留言