液體狀態機左右互打越練越強?(液體狀態機與強化式學習)

前言:
大家好,今日要介紹的文章為 2025 由 Krenzer 與 Bogdan 等人,刊登於 Frontiers 期刊的文章【Reinforced liquid state machines—new training strategies for spiking neural networks based on reinforcements】,主要是在探討回饋機制對於類神經網路的影響,作者提出了一個有趣的框架把 Liquid State Machine(液體狀態機)搭配 Reinforcement Learning(強化式學習) 觀察在各種回饋情形下,RLSM(Reinforced liquid state machines)架構是否可以優於無監督式學習的 LSM?我們開門見山先講結論, 在把語音數字(0–9,英/德文)轉成脈衝事件的聽覺資料集 Spiking Heidelberg Digits(SHD)上是可以優於無監督式學習的 LSM!接下來就來一起看看強化式的液體狀態機是如何處理這些任務的吧!我會先簡單講解一些強化式學習的概念讓大家比較好帶入與了解,液體狀態機的部分可以去觀看我上一篇的《脈衝神經網路可以自己分類?--液體狀態機與無監督式學習》的 LSM 背景處。
-----------------------------------------------------------------------------------------------
強化式學習:
提到強化式學習(RL)時,我們可以用一種簡單的方式理解,相信大家都有玩電腦遊戲的經驗吧,我們把強化學習(RL)想成「玩遊戲的練功系統」:電腦(代理人)在環境裡嘗試各種動作,拿到分數(回饋),慢慢摸索出能「長期拿高分」的做法(策略)。它不告訴你正解,只告訴你做得「好不好」,所以特別適合需要連串決策、結果常延遲的問題,例如機器人控制、推薦系統或自動駕駛,架構觀念如(圖一:RL基礎架構源)。

然而這種看似沒有固定答案的學習模式為什麼會被大家使用呢?原因很好理解,其實是因為現實世界很少有完整標籤資料,但仍可以觀察到行為後果;就如同研究神經科學時,透過行為模式去回推背後的生理機制。RL 同樣在互動中一邊探索一邊學,學到做什麼會更好,也強調模式選擇後的長期報酬,避免只為眼前利益而做出短視決策。

RL 發展史很簡潔,從早期行為心理學(獎懲學習)→ 動態規劃與時差學習(Bellman、Sutton)→ Q-learning 等基礎算法 → 深度學習加持下的重大突破(DQN 玩 Atari、AlphaGo),再到工程界常用且穩定的 PPO、SAC 等方法,一步步把 RL 推向實務。
但作者為何選用 RL?它為何有潛力結合 SNN 與 LSM?我們知道 SNN 用 Spiking 傳遞訊息,事件驅動、省電,天然適合真實世界的即時訊號;而 RL 的回饋可以當作神經調質(像多巴胺)去調整突觸強度,形成 RSTDP(reward-modulated STDP)。LSM 作為濾波器,將時間序列攪動成豐富動態,在此基礎上用 RL 訓練讀出層就能把時序特徵轉成好的決策。總之:互動式學習 + 事件驅動計算,在效率、能耗與即時性上正好互補,也成為一個訓練 LSM 架構的一個新選擇。
圖一:RL基礎架構源自Sutton & Barto
Agent(代理人):做決策者。內部至少有策略  𝜋(a|s)(給定狀態選動作的機率),很多方法還會學價值函數 V(s)/Q(s,a) 或世界模型。
Environment(環境):除了代理人以外的一切;接收動作、根據動態規則產生下一個狀態與回饋。
St(state at time t):時間 t 的狀態,描述此刻世界的完整資訊(在 MDP 中滿足馬可夫性)。實作上常是向量(位置、速度、感測值…)。
At(action at time t):代理人在狀態 St 依策略選出的動作。可以是離散(左/右/跳)或連續(力矩、油門)。
Rt、Rt+1(reward):即時回饋,量化剛發生行為的好壞。注意索引慣例:在時間 t 選了At後,環境回傳的是Rt+1(以及St+1

-----------------------------------------------------------------------------------------------
RLSM架構:
接下來提到本文的重點 RLSM 運算框架,簡單來說他是 D-LSM + WTA + R-STDP(with reward)這幾個組件所構成,以資格跡(eligibility traces)把局部 STDP 與延遲全域獎勵接起來(圖二:RLSM的網路架構)。他的工作原理為:系統對即將到來的感官輸入生成預測,並持續將這些預測與實際感官資料比較。當預測與輸入不相符時,便會產生預測誤差,並沿階層向上傳遞,用以調整與修正預測。透過反覆最小化預測誤差的過程,此架構得以隨時間更新其內部模型並改進對感官的詮釋。
圖二:RLSM的網路架構

此研究的聚焦在 RLSM 的兩種回饋機制比較:
1.僅正向獎勵訊號(Forgiving Feedback):只透過正向的獎勵來調節突觸可塑性,強化正確的預測。
2.嚴格回饋(Strict Feedback):同時結合獎勵與懲罰,預測正確時強化突觸,錯誤時削弱突觸,提供更精緻的突觸調整機制。
本文在口說數字辨識任務上,使用 SHD(Spiking Heidelberg Digits)資料集進行一系列實驗,並以統計分析評估這些回饋系統的表現(後面會提到),突顯各種方法對學習與準確度的影響。講完 RLSM 的兩種回饋機制後我們接著分析其架構本身。

1. D-LSM
然而,在 RC(reservoir computing)中,單一水庫可能難以捕捉階層式資料結構中的分層相依性。以 Heidelberg 資料集的語音資料為例,聲音會組合成音素,進而構成詞、片語與句子,各層級都有其時間相依性。此種階層式組織意味著關鍵模式存在於多個層面,從微觀的聲學特徵到宏觀的語意結構。採用多個水庫能讓模型分別處理這些層級,既能捕捉細緻的聲學特徵,也能掌握較高層的語言模式,進而提升語音辨識任務的準確性與魯棒性。

2. R-STDP
接著是 R-STDP ,神經調質(增強式)脈衝時序相依可塑性,它擴展了經典的 STDP概念(用來描述根據前、後突觸神經元之間脈衝的精確時序來調整突觸強度)。傳統STDP 由這些脈衝的相對時序所支配,導致突觸產生長時程增強(LTP)或長時程抑制(LTD)而 R-STDP 則將神經調質物(例如多巴胺、血清素或乙醯膽鹼等)的影響納入可塑性過程之中。在 R-STDP 中,神經調質物的存在充當第三因子,調制突觸變化的強度與方向。這一額外的調制層使學習能更具情境敏感性與任務特異性,使突觸更新不僅取決於脈衝時序,也取決於全域或區域的神經調質訊號。

3. WTA
WTA(winner-takes-all)同時納入了興奮性與抑制性的 LIF 神經元,為神經元之間建立競爭環境上扮演關鍵角色。這種競爭機制對於稀疏活動(sparse activity)至關重要,是高效率神經處理的一個關鍵面向。在 WTA 層中,興奮性神經元的主要任務,是透過全對全(all-to-all)連接自前一個液體層接收輸入,並根據其輸入,選擇性地放大最相關的樣式。相對地,抑制性神經元旨在抑制那些較不活躍或不相關之興奮性神經元的活動,確保只有一小部分最為活躍、且最優的興奮性神經元被允許在競爭中勝出。接著,這個勝出的子集便在塑造輸出方面發揮顯著作用,而這些輸出將貢獻於後續的下游處理。液體層與 WTA 層之間的突觸連結受 R-STDP 突觸所支配。在這種學習機制中,液體層與 WTA 層內興奮性神經元之間的突觸權重會被動態更新,受液體層中之前突觸神經元與 WTA 層內之後突觸興奮性神經元的脈衝活動相關性所影響。此外,還有一個獎勵訊號在此過程中扮演重要的角色,提供反映網路在指定任務上整體表現的回饋。
-----------------------------------------------------------------------------------------------
實驗與結果:
作者採用 SHD 資料集,他是一個以音訊分類任務評估脈衝類神經網路效能而專門設計的,包含英、德語的口說數字錄音,範圍從 0 到 9。總類別數為 20。具有 8,156 筆訓練樣本與 2,264 筆測試樣本,而為了評估研究方法效果,作者降低SHD採樣的,將原本的 700 個輸入神經元,透過每取第 10 個神經元的方式縮減為 70 個。他們進行了 100 次獨立實驗,以捕捉變異性並評估該方法的穩健性。結果發現,與無回饋相比(見圖三),使用回饋機制時系統的分類準確率有明顯提升。而寬容式回饋機制最高帶來 2.7% 的表現提升。經 Mann–Whitney U 檢定統計驗證,p 值低於 0.01%,確認平均值存在顯著差異,並突顯寬容式回饋的效用。嚴格回饋機制展現與寬容式相當的表現,其 p 值為 0.8%。統計分析顯示,寬容式與嚴格回饋機制之間沒有顯著差異。
圖三:各種機制比較結果

-----------------------------------------------------------------------------------------------
總結 :
本篇論文以D-LSM 探討回饋於 SNN 的效益。在特有的 RLSM 架構下,於液體層、WTA、讀出架構結合 R-STDP 與 eligibility trace,提出嚴格回饋(獎懲並用),並與寬容回饋(僅獎勵)兩種獎勵方式比較。於 SHD 語音資料,兩者皆顯著優於無回饋,統計成立而兩者間無顯著差異。所以我們可以得到一個結論,就是回饋驅動學習能強化 LSM 表徵與適應性。與在地可塑性之結合,能在不仰賴反向傳播的前提下,持續加強液體狀態的可分性,提升 D-LSM 的效率與魯棒性,也具備部署於低功耗、即時語音與邊緣智慧應用的潛力,未來若能夠延伸架構或是提出更好的 RL 學習模式,對真實世界數據的學習與應用任務有前瞻性,很值得鑽研與嘗試,這篇結合強化學習與 LSM 的論文推薦大家閱讀。

AI使用聲明:本文有透過 AI 翻譯與摘要,但內容與架構皆透過本人審視與編排


撰文:林祥吉 


原始論文:Krenzer D and Bogdan M (2025) Reinforced liquid state machines—new training strategies for spiking neural networks based on reinforcements. Front. Comput. Neurosci. 19:1569374.

留言