沒有硬碟的大腦,如何倒帶記憶?R2N2 用「神經時光機」學會一次經驗
https://www.notion.so/R2N2-351256561ff8804ca018da9a60f08263 傳統觀念認為,人工神經網路若要學習複雜的時空序列記憶,必須依賴所謂的「沿時間反向傳播」(BPTT)演算法。在這種機制下,網路需要像擁有一顆外接硬碟一樣,把過去每一步的活動狀態完整儲存下來,並且需要不符生物學神經傳導邏輯的「權重傳輸」來逆向傳遞誤差。 但實際上,大腦在形成情節記憶(Episodic memories)時,必須遵守「局部性限制」(Locality constraint),也就是突觸只能依賴當下且局部的資訊來改變強度,根本不存在外掛的記憶體或完美的雙向突觸。 那麼,大腦明明沒有外部記憶體,怎麼可能在短短幾次經驗中,就能記住一長串的行為序列與空間軌跡,並且不會掉回原狀?答案藏在一個名為 **R2N2(可逆循環神經網路)** 的強大雙網路動態與離線重播迴路中。 Figure 1 :傳統 BPTT 需展開時間軸的運算,與大腦中 Consolidator-Cache 雙網路交替運作的架構對比圖 大腦能透過 R2N2 模型實現快速單次學習與長期統計記憶儲存的根本秘密,是以下三個機制彼此合作: **快取網路 (Cache Network) —— 單次學習與逆向重播的「記憶隨身碟」** 當動物在探索環境並獲得獎勵時,大腦需要迅速記住這段經歷。快取網路是一個輔助型的循環神經網路,它採用了類似霍普菲爾網路(Hopfield network)的原理,能夠對感覺輸入序列進行極快速的 **「單次學習」(One-shot learning)**。 它會在狀態空間中建立吸引子,將連續的狀態鎖定連結。當動物進入離線休息狀態時,這個快取網路就會啟動它的特殊功能:將剛剛經歷的事件序列 **「逆向重播」(Reverse replay)** 給主要的記憶庫,提供訓練所需的目標與指引訊號。 **鞏固器網路 (Consolidator Network) —— 具備時光倒流能力的「長期資料庫」** 這是大腦中負責長期儲存記憶的主力網路。為了在不依賴外部儲存設備的情況下回溯過去的狀態,鞏固器網路發展出了強大的「可逆性」。 它內部包含了兩組互相競爭的突觸投影:向前的投影 (f∗) 與向後的投影 (g∗)。在學習過程中,向後的投影會透過局部學習法則,將強度調整為與向前投影數值相等但影響力...







