認知圖譜與行為尺度突觸可塑性(BTSP):一種基於繼承關係的強化學習實現
人們常以為大腦進行規劃與路徑搜索需要複雜的深度網絡與大量資料,但實驗證據顯示,短短幾次經驗就能在海馬迴(hippocampus)中形成與目標導向導航相關的認知圖譜(cognitive map)。該認知圖譜不僅幫助動物在空間環境中快速規劃,還可延伸至抽象概念空間。本篇論文(Yang et al., 2025)提出,一種簡化的 BTSP 模型不僅能重現人類海馬迴中對自然影像序列的編碼過程(John et al., 2025; Tacikowski et al., 2024),更能依此學習產生「繼承關係」(successor relation)基礎的強化學習(SR-based RL)網絡結構,從而實現高效的目標導向規劃。這種方法,稱為相關性認知圖譜學習者(Correlation-based Cognitive Map Learner, CCML),不需深度學習或大量資料,只需局部突觸可塑性與少量探索,就能在線上即時產生最短路徑,並可在低能耗的神經形態芯片中實現。
在 CCML 中,觀察(observation)o 透過嵌入矩陣 Q 映射到高維空間,形成稀疏二元向量 Q(o)。這裏的每個「狀態神經元」(state neuron)對一組序列(sequence)中的所有觀察都保持響應,因此 Q 中第 i 列對應第 i 條序列,若某觀察 oj 屬於該序列,則 Qi,j=1。這種一對一對應關係恰與 BTSP 的 6 秒長期增強時窗(LTP window)相契合:當不同影像在幾秒內相繼出現,BTSP 會將它們的編碼神經元連結在一起,生成共激勵的稀疏向量。結果,任兩觀察 o、o′ 在高維空間的內積 Q(o)⋅Q(o′)即等於它們共同出現在多少條探索序列中,這恰能粗略估算「可達性」(reachability),因而與 SR 基礎強化學習中對未來狀態的期望訪問次數(successor representation)高度相關。
在 CCML 中,狀態嵌入與動作對應之學習過程僅需動物在環境中進行隨機遊走(random walk),收集短時間軌跡(trajectories。以下以 32 節點隨機圖為例:節點之間隨機連邊,代理從某節點出發,連續走 L 步,形成一條長度為 L 的序列;每移動一步,便將過去 L-1 步與當前節點合併為一條新的序列,將包含該節點的所有序列傳遞給狀態神經元,完成 Q 的更新。經過 Ns 條序列後,Q 對所有常見路徑形成完整編碼。動作權重矩陣 W 則在學習完 Q 後,對每次行為 a,將對應下一狀態 s′ 傳給動作神經元 nₐ 作為訓練信號,一次 Hebbian 更新即可。
如此產生的認知圖譜不僅可在無向圖中完成高效路徑規劃,還能在有向圖(directed graph)中處理方向性約束。關鍵在於,在有向情境下,必須額外考慮序列中先後次序(time stamp),即僅計算那些在探索序列中「先於」目標的下游狀態。為此,CCML 擴展了嵌入矩陣 Q 旁加入一個時序矩陣 T,其結構與 Q 相同,記錄每條序列中每個觀察首次出現的位置排序。
在處理有向圖時,CCML 需考慮序列方向性。實驗構造隨機強連通有向圖(strongly connected),以確保任兩節點間皆存可行路徑。對嵌入矩陣 Q 新增時序矩陣 T,記錄每條序列中各觀察首次出現的時間序號。此舉相當於 Gi(s*) 門控函數,確保僅統計那些符合方向約束的序列部分。最終結果可見,經此「時序篩選」後的內積熱圖幾乎與有向圖的 SR 矩陣一一對應,並輕鬆複製出 Dijkstra 的最短路徑性能。
總而言之,本研究說明, BTSP 將多個影像序列整合為稀疏二元編碼時,海馬迴便可無須深度網絡訓練,僅憑短暫數次經驗便構建出內插式的認知圖譜;結合 BTSP 的 1-shot 可塑性,CCML 以類似鏡像神經元(mirror neuron)的方式,將動作與其結果綁定,形成一種極度節能的線上規劃機制。無論在無向還是有向圖環境中,CCML 均以相對 Dijkstra 僅低 1–5% 的性能差距,達到接近最優的導航效果,完美演繹了「模型即推理」(model-based planning)的神經生物基礎。此外,該機制僅需少量的局部突觸更新與隨機探索,即可在神經形態硬體上高效實現,為邊緣計算與自動導航開辟了新思路。
聲明:本文經由 ChatGPT 協助撰寫,人工整編與確認。
撰文:周峻廷
原始論文:Yang, Yukun, Christoph Stöckl, and Wolfgang Maass. "A surprising link between cognitive maps, successor-relation based reinforcement learning, and BTSP." bioRxiv (2025): 2025-04.
留言
張貼留言