認知圖譜與行為尺度突觸可塑性(BTSP):一種基於繼承關係的強化學習實現

人們常以為大腦進行規劃與路徑搜索需要複雜的深度網絡與大量資料,但實驗證據顯示,短短幾次經驗就能在海馬迴(hippocampus)中形成與目標導向導航相關的認知圖譜(cognitive map)。該認知圖譜不僅幫助動物在空間環境中快速規劃,還可延伸至抽象概念空間。本篇論文(Yang et al., 2025)提出,一種簡化的 BTSP 模型不僅能重現人類海馬迴中對自然影像序列的編碼過程(John et al., 2025; Tacikowski et al., 2024),更能依此學習產生「繼承關係」(successor relation)基礎的強化學習(SR-based RL)網絡結構,從而實現高效的目標導向規劃。這種方法,稱為相關性認知圖譜學習者(Correlation-based Cognitive Map Learner, CCML),不需深度學習或大量資料,只需局部突觸可塑性與少量探索,就能在線上即時產生最短路徑,並可在低能耗的神經形態芯片中實現。

在 CCML 中,觀察(observation)o 透過嵌入矩陣 Q 映射到高維空間,形成稀疏二元向量 Q(o)。這裏的每個「狀態神經元」(state neuron)對一組序列(sequence)中的所有觀察都保持響應,因此 Q 中第 i 列對應第 i 條序列,若某觀察 oj 屬於該序列,則 Qi,j​=1。這種一對一對應關係恰與 BTSP 的 6 秒長期增強時窗(LTP window)相契合:當不同影像在幾秒內相繼出現,BTSP 會將它們的編碼神經元連結在一起,生成共激勵的稀疏向量。結果,任兩觀察 o、o′ 在高維空間的內積 Q(o)⋅Q(o′)即等於它們共同出現在多少條探索序列中,這恰能粗略估算「可達性」(reachability),因而與 SR 基礎強化學習中對未來狀態的期望訪問次數(successor representation)高度相關。
圖 1:CCML 架構與 BTSP 驅動的嵌入學習
(A)觀察 o 透過嵌入矩陣 Q 映射到高維狀態空間。每條探索序列對應一個神經元(編碼維度),該神經元對序列中所有觀察保持響應。舉例:三條序列下,若影像 o₃ 同時出現在序列 1 與序列 3,則其嵌入向量 s3​ 在第 1、3 維為 1,其餘維為 0。
(B)BTSP 驅動的 1-shot 學習示意:當一次行為(action)a 導致觀察 o′ 時,對應動作神經元 nₐ 的輸入權重直接設為下游觀察的嵌入向量 s,完成 Hebbian 可塑性更新。這一步只需一次突觸整合,便可將動作與其結果狀態綁定。
(C)在線規劃:給定目標觀察 o∗,首先計算目標嵌入 s∗=Q(o∗)。所有動作神經元 nₐ 分別接收 s 作為輸入,輸出即等於該動作對應下游狀態 s′ 與目標之內積 s′⋅s∗,代表從候選狀態到目標的可達性估計值(utility)。同時,抑制當前狀態下不可執行的動作,使僅剩可行動作參與「勝者全得」(Winner-Take-All)競爭,選出具有最大 utility 的那個動作,並執行之。
(D)若當前狀態正好是目標,則 s=s∗,此時計算結果即為自我回報,算法終止。若不在同一路徑,則此過程會重複,逐步指引代理向目標移動。

在 CCML 中,狀態嵌入與動作對應之學習過程僅需動物在環境中進行隨機遊走(random walk),收集短時間軌跡(trajectories。以下以 32 節點隨機圖為例:節點之間隨機連邊,代理從某節點出發,連續走 L 步,形成一條長度為 L 的序列;每移動一步,便將過去 L-1 步與當前節點合併為一條新的序列,將包含該節點的所有序列傳遞給狀態神經元,完成 Q 的更新。經過 Ns 條序列後,Q 對所有常見路徑形成完整編碼。動作權重矩陣 W 則在學習完 Q 後,對每次行為 a,將對應下一狀態 s′ 傳給動作神經元 nₐ 作為訓練信號,一次 Hebbian 更新即可。

如此產生的認知圖譜不僅可在無向圖中完成高效路徑規劃,還能在有向圖(directed graph)中處理方向性約束。關鍵在於,在有向情境下,必須額外考慮序列中先後次序(time stamp),即僅計算那些在探索序列中「先於」目標的下游狀態。為此,CCML 擴展了嵌入矩陣 Q 旁加入一個時序矩陣 T,其結構與 Q 相同,記錄每條序列中每個觀察首次出現的位置排序。
圖 2:CCML 在圖形結構上的規劃性能(無向圖)
(A)隨機圖 3D 投影(t-SNE):訓練前,各節點嵌入為高維向量但分佈無明顯結構。
(B)訓練後投影:相鄰或相互可達的節點向量在 3D 空間中呈聚集態勢,形成近似環形或群簇。
(C)圖的鄰接矩陣示意:無向邊用對稱二元矩陣表示。
(D)高維嵌入向量之兩兩內積熱圖:愈大值(紅色)代表兩節點有更多共同序列,表示彼此在探索中頻繁同現。
(E)隨機遊走下的繼承關係矩陣(Successor Representation, SR)。SR 中的高值(深色)表示從狀態 i 隨機行走時,較常進入狀態 j。
(F)規劃性能:CCML 規劃路徑長度與 Dijkstra 最短路徑比較差異,橫軸為軌跡長度 L,縱軸為平均多花百分比。可見 L 越大,訓練信息越充分,CCML 與 Dijkstra 差距迅速收斂。
(G)不同探索序列數 Ns(固定 L=10)下的性能:當 Ns ≥1000 時,CCML 平均僅比 Dijkstra 慢 4–5% 左右;隨 Ns 增加,性能趨於穩定。

在處理有向圖時,CCML 需考慮序列方向性。實驗構造隨機強連通有向圖(strongly connected),以確保任兩節點間皆存可行路徑。對嵌入矩陣 Q 新增時序矩陣 T,記錄每條序列中各觀察首次出現的時間序號。此舉相當於 Gi(s*) 門控函數,確保僅統計那些符合方向約束的序列部分。最終結果可見,經此「時序篩選」後的內積熱圖幾乎與有向圖的 SR 矩陣一一對應,並輕鬆複製出 Dijkstra 的最短路徑性能。
圖 3:CCML 在有向圖上的規劃性能
(A)隨機強連通有向圖示例:32 節點,以連接概率 p=0.15 生成,並重複檢查直到圖為強連通。
(B)圖的有向鄰接矩陣熱圖:非對稱結構表明不同方向間的可達性差異。
(C)經時序門控後的兩兩內積熱圖:僅保留那些下游狀態在探索序列中先於目標的維度,使得內積不再對稱,但能準確反映從當前節點沿有向邊到目標的可達性。
(D)有向圖 SR 矩陣:折扣因子 γ=0.8 下的解析計算結果。可見 (C) 與 (D) 幾乎高度吻合,證實 CCML 的時序門控版本能在線上即時構造出 SR,並以此指引動作選擇,僅比 Dijkstra 慢約 1.92%。

總而言之,本研究說明, BTSP 將多個影像序列整合為稀疏二元編碼時,海馬迴便可無須深度網絡訓練,僅憑短暫數次經驗便構建出內插式的認知圖譜;結合 BTSP 的 1-shot 可塑性,CCML 以類似鏡像神經元(mirror neuron)的方式,將動作與其結果綁定,形成一種極度節能的線上規劃機制。無論在無向還是有向圖環境中,CCML 均以相對 Dijkstra 僅低 1–5% 的性能差距,達到接近最優的導航效果,完美演繹了「模型即推理」(model-based planning)的神經生物基礎。此外,該機制僅需少量的局部突觸更新與隨機探索,即可在神經形態硬體上高效實現,為邊緣計算與自動導航開辟了新思路。

聲明:本文經由 ChatGPT 協助撰寫,人工整編與確認。


撰文:周峻廷


原始論文:Yang, Yukun, Christoph Stöckl, and Wolfgang Maass. "A surprising link between cognitive maps, successor-relation based reinforcement learning, and BTSP." bioRxiv (2025): 2025-04.

留言