脈衝神經網路可以自己分類?(液體狀態機與無監督式學習)

前言:
大家好,今日要介紹的文章為2025由 Zhang 等人,刊登於 Neurocomputing 期刊的文章【Unsupervised spiking neural network based on liquid state machine and self-organizing map】,主要是在講述「液態狀態機 (Liquid State Machine, LSM)」 與「 自組織映射(Self-Organizing Map, SOM)」,如何讓尖峰神經網路自己學會分類,打造一個「完全無監督」的 SNN。我會先簡單講述 LSM 的一些背景知識,以便後續直接切入使用。
------------------------------------------------------------------------------
LSM背景:
在AI規模日益龐大的今日,能耗一直是科學家極力解決的問題,傳統深度學習模型在訓練與推論過程中需要海量算力,導致能耗攀升,既造成碳排放壓力,也限制了 AI 的可持續發展極限。於是在追求更精細、算力更好的晶片的同時,也不忘了另批蹊徑回首尋找另一個解方。在此背景下──液態狀態機(Liquid State Machine, LSM)成為了一個學者口中的新關鍵字。
液體狀態機(後續簡稱為LSM),由Maass、Natschläger 與 Markram 在 2002 年提出,是一種 SNN(Spiking Neural Network)屬於 Reservoir Computing 架構的一種(RNN 的一個分支),因其仿神經元脈衝(spiking)運作機制而受到重視,其架構被廣泛定義為三層(圖一:LSM基礎架構):1.輸入信號層(脈衝串)⭢ 2.液態層(隨機連接的神經元迴路)⭢ 3.讀出層(學習特徵的 readout neurons)。透過事件驅動的 spiking 傳遞,在訊號出現時才進行計算,相較於密集矩陣運算的大型深度網路(CNN、RNN、Transformer等),其計算更為稀疏且能耗顯著降低,搭配其天生擅長處理時序數據與即時資料,使之能在低功耗硬體(如類腦晶片)上運行,為 AI 在能源受限環境下的應用提供了新的可能。
圖一:LSM基礎架構
輸入 𝑢(⋅):隨時間變化的輸入訊號(time series 或 spike train),可以是聲音、感測器資料、影像序列等。
液態濾波器$L^M$:一群隨機連接的 spiking neurons 組成。當 𝑢(⋅) 進入後,會在這個池子裡產生複雜的瞬時動態反應(transient dynamics),就像把石子丟進水裡激起漣漪。(在時間 t,這個池子的狀態被稱作 「液態狀態$x^M(t)$」)
液態狀態$x^M(t)$:是一個高維特徵表示,包含了當下輸入以及部分過去輸入的記憶(fading memory)。這裡不需要像傳統電腦一樣有「穩定內部狀態」,因為動態軌跡本身已攜帶了資訊。
讀出映射$f^M$:一個記憶無關(memoryless)的讀出層,不再保存歷史,而是直接把當前液態狀態$x^M(t)$轉換成輸出$y(t)$(常見實作:線性分類器、回歸器或單層感知器)。
輸出$y(t)$:LSM 在時間 t 的最終結果,如:分類標籤、連續數值預測、控制訊號。
------------------------------------------------------------------------------
LSM-SOM架構:
簡單介紹完LSM的發展原由與架構,我們再回到文章本身,本文透過將「液態狀態機LSM」與「自組織映射SOM」整合產生一個LSM-SOM的網路架構。(圖二:LSM-SOM的網路架構,以音訊訊號為例)1.Feature Extraction ⭢ 2.Spiking Sequence Encoding ⭢ 3.LSM Processing ⭢ 4.Unsupervised Clustering(特點就在於它不同於上面所描述的線性讀出層)。
圖二:LSM-SOM的網路架構

然而,什麼是SOM?它的作用又是什麼?接下來用一個簡單例子跟你解釋,SOM(Self-Organizing Map)像是一個「自動整理的收納櫃」。假如你把一堆書丟進去,它會根據內容相似度自動分門別類。在這篇研究裡,SOM 收到的是來自 LSM 的動態-spiking 特徵,最後會把它們「投影」到一個低維空間,形成整齊的分類結果。這一步完全不需要標籤,就像一個房間裡的學生,會自動按照興趣分組聊天,很神奇吧。

大概了解 Spike SOM 後。就可以再深入探討其兩個核心過程分別為:
1.競爭 (Competition):
每次輸入一組 spike 序列,所有神經元會「比賽」誰最符合這個輸入。在傳統 SOM 中,是「誰的權重向量最接近輸入」,而在 Spike SOM 中,則是「誰收到的 spike 數最多,誰就贏」。
2.合作 (Cooperation):
勝利的神經元不會獨享榮耀,而是會影響鄰近神經元。在生物大腦裡,這就像「局部興奮」,贏家激發周圍的朋友一起學習。具體做法是把鄰近神經元的權重也更新,而更新量隨距離遞減。
最後再加上側向抑制 (Lateral Inhibition),使非鄰近的神經元會被壓制,降低它們發放尖峰的可能性。這樣一來,SOM 能在網格上形成一種「有序的分類地圖」。(圖三)是 SOM 權重更新規則:
圖三:SOM 權重更新規則
i 與 j:神經元的索引。
xᵢ、xⱼ:神經元在網格中的位置座標。
dₘₐₓ:任意兩個神經元之間的最大歐幾里得距離。
cₘᵢₙ、cₘₐₓ:分別代表側向抑制(lateral inhibition)的最小與最大權重。
也就是說,一個被激活的神經元對周圍鄰居的影響程度,可以透過調整 cₘₐₓ 與 cₘᵢₙ 來控制。對每個樣本,計算在該樣本中,各標籤對應的神經元群體總共發放多少次spike。然後選擇 firing rate 最高的標籤作為最終的預測結果。
------------------------------------------------------------------------------
實驗與結果:
這篇論文,使用 BindsNET(SNN 開源模擬器)作為模擬環境。分別對兩個測試資料集:MNIST 手寫數字(60,000 訓練 / 10,000 測試,28×28 影像)與 FSDD 語音數字(3000 個語音樣本,6 位說話者,各數字 50 次),進行測試。
MNIST 
● 方法:Poisson 編碼 ⭢ LSM ⭢ SOM 無監督學習。
● 創新點:液態層連結權重不是用標準常態分佈,而是 Gamma 分佈,模擬大腦「功能柱」的連結特性。(圖四)
● 結果:
LSM-SOM-N (0,1)(常態分布):90.0%
LSM-SOM-Γ(2,1)(Gamma 分布):85.75%
● 比較:雖然不如部分監督式方法(97–98%),但在無監督模型裡表現穩定,且網路規模更小。
圖四:標準常態分布與伽瑪分布的機率分布
此圖比較兩種不同權重初始化方式:
常態分布 (N(0,1)):大多數連結權重集中在平均值附近,分布對稱。
Gamma 分布 (Γ(2,1)):分布偏斜,多數權重偏小,少數較大,模擬大腦中「非局部連結」的特性。

常態分布的資料分布比較平均,網路比較「隨機均勻」,Gamma 分布的更接近生物腦神經連結,少數強連結主導,大部分是弱連結。再來看不同 SOM 神經元數量下的分類準確率如下圖(圖五)。
圖五:不同 SOM 神經元數量下 MNIST 的分類準確率
此圖顯示隨著 SOM 神經元數量增加,模型在 MNIST 測試集上的分類準確率變化:
LSM-SOM-N(0,1) :使用常態分布權重。表現較佳,最高約 90%
LSM-SOM-Γ(2,1) :使用 Gamma 分布權重。分布版本稍低,最高約 85.75%

並觀察到當 SOM 神經元數量增加時,分類準確率先上升,後趨於平穩。所以我們知道 SOM 規模越大,表現通常越好,但提升幅度有限有邊界效應。另外常態分布比 Gamma 分布穩定,表示 Gamma 雖更生物合理,但在 MNIST 上未必最佳。

FSDD
● 方法:改進的 MFCC 特徵(去掉 DCT,保留語音局部特性)⭢ Poisson 編碼 ⭢ LSM ⭢ SOM。
● 結果:SOM 神經元數量不同下,準確率介於 76%–88%(圖六)。最佳結果:LSM-SOM-Γ(2,1),1600 神經元 → 88%。
● 比較:優於 ionic liquid (72.2%) 與 NAS liquid (84.5%)。雖低於 3D NoC LSM (93%) 與 HP-LSM (89.36%),但結構更簡單、學習方式完全無監督。
圖六:不同 SOM 神經元數量下的 FSDD 準確率比較
此圖中比較了兩種液態層連結權重初始化方式:
LSM-SOM-N(0,1):權重來自標準常態分布。N(0,1) 在相同規模下僅約 83–84%。
LSM-SOM-Γ(2,1):權重來自 Gamma 分布。Γ(2,1) + 1600 SOM 神經元 ⭢ 88% 準確率。

當 SOM 神經元數量由 400 → 900 → 1600 增加時,模型準確率逐步提升。相比於剛剛的MNIST圖像分類訓練,在語音任務(動態時序訊號)中,Gamma 分布更能模擬大腦連結的隨機性與局部強連結特性(符合大腦功能柱特性),具有生物可解釋性的意義。
------------------------------------------------------------------------------
總結 :
最後來看到LSM-SOM架構具有的優勢,根據實驗結果神經元數量少的情況下,仍能達到接近或優於其他方法的準確率,也就是在小型網路具有高效能。另外,不依賴標籤,適合應用於標籤資料稀缺的場景,具有無監督特性。
與目前一些監督式 LSM (NALSM, ELSM) 相比,雖然精度稍低,但計算資源需求與結構複雜度大幅降低。而與其他無監督模型 (SpiLinC, LM-SNN) 相比,表現相近,但網路規模更小,效率更高。
再分類任務上,利用LSM 的動態特徵提取使資料在高維空間中形成更清晰界線。加上SOM 能更容易將其分群,兩者具有互補優勢。MNIST 最高約 90%,小網路下依然穩定。FSDD 最高約 88%,優於部分現有方法。
這種簡單且有效的全無監督 SNN 展現「 LSM 高維映射能力 + SOM 聚類能力 」的結合價值,擁有高效處理 spike 訊號、無監督學習、系統化處理(特徵提取 ⭢  編碼 ⭢  高維映射 ⭢  聚類)、完全 SNN(輸入至讀出層皆由 LIF 神經元構成,可直接部署在類腦晶片上)。
所以此架構是一個小巧、穩定且無需標籤的 SNN 架構,在影像與語音任務上表現良好,特別適合低資源環境與類腦硬體應用。若能進一步優化能耗與擴展至多樣化資料集,未來有望成為邊緣裝置或新一代類腦計算的重要方案,確實讓人興奮。


撰文:林祥吉


原始論文:Zhang, Y., Mo, L., He, X., & Meng, X. (2025). Unsupervised spiking neural network based on liquid state machine and self-organizing map. Neurocomputing, 620, 129120. 

留言