認知圖譜與行為尺度突觸可塑性(BTSP):一種基於繼承關係的強化學習實現
人們常以為大腦進行規劃與路徑搜索需要複雜的深度網絡與大量資料,但實驗證據顯示,短短幾次經驗就能在海馬迴(hippocampus)中形成與目標導向導航相關的認知圖譜(cognitive map)。該認知圖譜不僅幫助動物在空間環境中快速規劃,還可延伸至抽象概念空間。本篇論文(Yang et al., 2025)提出,一種簡化的 BTSP 模型不僅能重現人類海馬迴中對自然影像序列的編碼過程(John et al., 2025; Tacikowski et al., 2024),更能依此學習產生「繼承關係」(successor relation)基礎的強化學習(SR-based RL)網絡結構,從而實現高效的目標導向規劃。這種方法,稱為相關性認知圖譜學習者(Correlation-based Cognitive Map Learner, CCML),不需深度學習或大量資料,只需局部突觸可塑性與少量探索,就能在線上即時產生最短路徑,並可在低能耗的神經形態芯片中實現。 在 CCML 中,觀察(observation)o 透過嵌入矩陣 Q 映射到高維空間,形成稀疏二元向量 Q(o)。這裏的每個「狀態神經元」(state neuron)對一組序列(sequence)中的所有觀察都保持響應,因此 Q 中第 i 列對應第 i 條序列,若某觀察 oj 屬於該序列,則 Qi,j=1。這種一對一對應關係恰與 BTSP 的 6 秒長期增強時窗(LTP window)相契合:當不同影像在幾秒內相繼出現,BTSP 會將它們的編碼神經元連結在一起,生成共激勵的稀疏向量。結果,任兩觀察 o、o′ 在高維空間的內積 Q(o)⋅Q(o′)即等於它們共同出現在多少條探索序列中,這恰能粗略估算「可達性」(reachability),因而與 SR 基礎強化學習中對未來狀態的期望訪問次數(successor representation)高度相關。 圖 1:CCML 架構與 BTSP 驅動的嵌入學習 (A)觀察 o 透過嵌入矩陣 Q 映射到高維狀態空間。每條探索序列對應一個神經元(編碼維度),該神經元對序列中所有觀察保持響應。舉例:三條序列下,若影像 o₃ 同時出現在序列 1 與序列 3,則其嵌入向量 s3 在第 1、3 維為 1,其餘維為 0。 (B)BTSP 驅動的 1-shot 學習示意:當一次行為(a...