多巴胺の究極學習模型

10/18/2021 08:00:00 上午

多巴胺の究極學習模型

https://www.notion.so/acc31d803b7141bfa120d22dc6078a76

經過上一篇我寫的妙算[1]，大家應該都對多巴胺這個酷東西多了一點了解，多巴胺不是像嗑藥一樣放越多越爽。我們今天這篇 paper [5]是在經典的 Classical conditional learning (就是帕夫洛夫的那條狗) 還有 Operant learning (放一個按鈕，看你要不要按) 情境下，研究多巴胺的釋放與學習的關係，當然還有最後的究極模型。

前情提要

*如果你不知道 conditional learning 跟 operant learning 可以先去看看這篇文章 ✨[2]

首先繞不開的是經典的學習模型: Prediction error theory(圖一)。圖中是紀錄 dopamine neurons output 的情形。在沒有額外刺激的清況下，Reward造成 dopamine neuron反應上升 (上圖) 。再加入Conditioned Stimulus之後，根據 Prediction error theory，CS 會漸漸因為對Reward 的 Prediction error而學習，最終學習完成後CS會 take on the emotional property of reward，多巴胺高峰也從 Reward處轉移到CS (中圖) 。如果拿走了 Reward，本來預期會有 Reward 的時候會出現 Dopamine dip，產生新的 Prediction error (下圖) 。(原始 Paper [3])

圖一

今天我要講的 paper 用了一個比這些傳統的 conditional learning, operant learning 要複雜的 Multidimensional cue outcome action task (MCOAT)，初步理解是把 Conditional learning 跟 operant learning 結合在一起，然後再 training 前後看小鼠大腦 Nucleus accumbens 中 Dopamine 釋放的情形。來看看第一個例子(圖二)。首先這個場景中會有 Operant stimulus (OS) ，也就是會有一個裝置讓小鼠可以觸發，在一般狀態觸發裝置不會有任何反應，但當有 $S^{d,sucrose}$ 這個聲音響起時，觸發 OS 會發放 Sucrose，長此以往讓小鼠產生 Positive reinforcement。這個 $S^{d,sucrose}$音效其實就相當於 Conditional learning 中的 Conditional Stimulus，只是後面又搭配上了 Operant learning。

圖二

來看看結果(圖三)。此圖是在 training 完成後做的檢驗。Active/Inactive 指的是 $S^{d,sucrose}$ 這個聲音有無響起。結果呈現有 $S^{d,sucrose}$ 的時候小鼠會有更多 Operant response，學習成功!

圖三

(圖四)此圖呈現的是在學習前後 Nucleus accumbens 中 Dopamine Response (使用的技術叫做 dLight1 [4]) 。

結果顯示對 $S^{d,sucrose}$ 的反應在學習完後上升，對 Head entry (接收 Sucrose) 卻在學習完後下降。這個結果就符合我們對 Predction error theory 的影響。$S^{d,sucrose}$ 會漸漸能夠完整地預估 Reward 的結果，原本釋放 Dopamine 的時機就不再釋放。

圖四

負面刺激有不一樣的學習機制?

接下來的情況就不太一樣了(圖五)。這個情況使用一個負面的刺激: 電擊。有$S^{d,shock}$ 的情況下，觸及 OS 裝置能夠結束電擊，這時會出現燈光，代表小鼠安全了 (安全訊號)。

圖五

來看看結果。(圖六)此圖是在 training 完成後做的檢驗。Active/Inactive 指的是 $S^{d,shock}$ 這個聲音有無響起。跟第一個實驗一樣，小鼠有學習到$S^{d,shock}$ 出現代表對 OS 做反應會有躲避電擊的效果。

圖六

(圖七)此圖呈現的是在學習前後 Nucleus accumbens 中 Dopamine Response (使用的技術叫做 dLight1 [4]) 。此處的結果就不能像前一個實驗用 Prediction error theory 解釋了。首先(左) $S^{d,shock}$ 在學習前後的 Dopamine 反應沒有顯著差異，再來(中)學習前後對電擊的 Dopamine 反應增加了! 最後(右)對安全訊號的反應在最開始的時候最高，學習完比較低，作者在這裡提出說人們本以為對安全訊號的 Dopamine 反應是把它當作一種逃離危險的 Reward，然而事實可能並非如此，因為在小鼠的大腦內還沒建立電擊與這個燈光 (安全訊號) 的聯繫之前，對這個燈光訊號的反應反而是比較高的。

圖七

Dopamine Response 能反應刺激強度

(圖八)實驗測試了三種不同性質的刺激( 電擊、Sucrose、Quinine) 都會隨著刺激強度增加相對的Dopamine 反應。這點隨後會納入本作提出的新 model 當中。

圖八

關於強度還有另一個實驗。是一個單純的 conditional learning ，讓小鼠學會一個中性刺激跟電擊之間的關係。學習完之後增加一輪測試，次輪測試中有 80% 的刺激會伴隨著電擊，就跟學習時一樣。但有 20% 的刺激完後不會有電擊。讓小鼠意料之外。

來看看結果。(圖九)小鼠本來在電擊時會有 Dopamine 反應(看藍色)，當出現意料之外沒有電擊的時候，Dopamine 反應會顯著下降(橘色)。

圖九

比較有趣的點是：(圖十)80% 會出現電擊的測試比 100% 時的Dopamine 反應來得多(在該次都有電擊的情況下)。文章中的推論是 80% 那輪測試對小鼠來說的不確定性比較高，使得相對電擊的感受強度更大。

圖十

小鼠對新奇的酷東西有反應

跟前面的前提一樣，小鼠已經被訓練好一個中性刺激 $+$ 電擊。此時在中性刺激的同時加入新的燈光刺激，會發生什麼事?(圖十一)本來中性刺激已經足夠預測電擊即將到來，但多了燈光刺激後竟會使小鼠降低對原本中性刺激的 Freezing 反應(左)。多了燈光刺激小鼠的 Dopamine 反應顯著增加 (中﹐右)。

圖十一

結果來說，小鼠的 Nucleus accumbens 會對一個跟他學習過的東西無關、中性的燈光刺激產生 Dopamine 反應，還影響前面的學習結果，單純只因為它是一個很新的酷東東。(refer to 複習考試時的我。)

地方的小鼠需要新的刺激

來看下面這個實驗。(圖十二)小鼠待在一個有 Operant stimulus (一個可以處發的按鈕機關) 的空間，但只有在有聲音 $S^d$ 響起時，觸發機關才會有東西跑出來，一開始會跑出 Sucrose，小鼠表示開心，所以有 $S^d$ 的時候小鼠就會狂按按鈕，但過一陣子這個按紐改成觸發電擊，小鼠將面臨什麼樣的命運 ......?!

圖十二

來看一下結果。(圖十三)小鼠對 OS 的反應，從一開始的按爆，到改成電擊 (Positive punishment) 之後銳減。

圖十三

圖十四: 第一次改成電擊的時候小鼠的 Dopamine 反應。

跟據本作的觀點，如果 Dopamine 的運作機制是 Prediction error theory 的話，本來小鼠覺得會出現 Sucrose ，卻突然給他電擊，牠的 Dopamine 反應應該要銳減才是。然而結果卻不是這樣。再套入本作前面提出的， Dopamine 反應會受到 1. 強度 2. 新奇度影響，所以第一次出現電擊的時候小鼠 Dopamine 有強烈反應。

圖十四

(圖十五)然而不只是電擊的當下，小鼠 Dopamine 反應激烈。本來很熟悉的 $S^d$ 也因為後面出現了跟預期不一樣的結果 (提供了新的資訊)，造成 $S^d$ 的 Dopamine 反應也上升。

圖十五

差不多可以放出模型了

(圖十六)文章中提出的新模型—KCS model—由 4 個部分組成:

1. 原本的 Prediction error theory 的部分 (是基於這個原本的 model 作改良)。

2. 注意力: 之前有提到這個刺激的不確定性會造成小鼠的多巴胺反應提升，因為不確定性會使小鼠的注意力增加，相對刺激強度 up up。

3. 刺激強度: 注意力、刺激本身的物化強度、以及新奇度，決定了刺激強度。

4. 結果(包括多巴胺反應與行為反應): 受 Prediction error theory 跟刺激強度影響。

接下來文章用這個新模型去預測前面實驗的行為反應與多巴胺反應，那各位有興趣可以去看看啦~自己判斷一下你覺得它 describe 的如何囉。

圖十六

結語

這篇文章真的很長。

文章中其實有一段用 machine learning 的方式來做分析，雖然我不確定這段對整個內容有什麼突出的幫助以及它這個說明充不充分，所以沒有納進我的介紹裡面，但我覺得這個方式確實還挺新穎的 👍。

再來這個模型是描述了外在世界的刺激跟多巴胺反應的關係，看完之後我們其實還是不了解這之中的生物機制是怎樣。不過我覺得它還是提供給我這種不做行為的人一個大腦對訊息理解的一個觀點。

撰文：周品汝

Reference

[1] https://neuroinfo-cclolab.blogspot.com/2021/03/blog-post_15.html

[2] https://www.verywellmind.com/classical-vs-operant-conditioning-2794861

[3] Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275(5306), 1593-1599.

[4] Patriarchi, T., Cho, J. R., Merten, K., Howe, M. W., Marley, A., Xiong, W. H., ... & Tian, L. (2018). Ultrafast neuronal imaging of dopamine dynamics with designed genetically encoded sensors. Science, 360(6396).

[5] Kutlu, M. G., Zachry, J. E., Melugin, P. R., Cajigas, S. A., Chevee, M. F., Kelley, S. J., ... & Calipari, E. S. (2021). Dopamine release in the nucleus accumbens core signals perceived saliency. Current Biology.

搜尋此網誌

神經妙算

多巴胺の究極學習模型

留言

張貼留言

熱門文章

The Urgency Gating Model

DeepSORT : 一種簡單且有效的物體追蹤方法

透過蜜蜂避障學習自然界中的仿生導航策略