為硬體量身打造的 AI 大腦：液態神經網路在聲音辨識上的新突破

9/25/2025 07:30:00 上午

為硬體量身打造的 AI 大腦：液態神經網路在聲音辨識上的新突破

你能想像一個模仿大腦的「液態神經網路」能夠學會分辨人說的話嗎？更酷的是，它不需要大費周章存一堆資料，也不需要複雜數學運算就能「即時學習」！今天我們就來聊聊一個充滿生物靈感的人工智慧研究：來自 Texas A&M 的《Digital Liquid State Machine》。

一、什麼是液態神經網路 Liquid State Machine (LSM)？

想像一個水池，每滴水滴進去都會引發一連串漣漪。如果觀察這些漣漪，我們或許能夠猜出是哪一滴水造成的，而這正是液態神經網路 Liquid State Machine (LSM) 背後的概念。范逸臣說最美的愛情像湖泊，雖然我們不知道這是不是真的，但至少LSM形成的記憶的原理真的就像湖泊水上的漣漪，而愛情又是諸多回憶的堆疊淬鍊，或許以後他的這段歌詞可以放上個reference，像是「最美的愛情像湖泊[1]」這樣，有了理論的背書，從此情比金堅，不怕再也無法相信愛情了！

好我們不離題，焦點再次回到主角LSM。LSM 是一種模仿大腦運作的 Spiking Neural Network (SNN)，它的「水池」叫做 reservoir (水庫、水池、貯水槽的意思)，能記住輸入訊號的時間順序，就像是短期記憶。再由輸出層 (readout neurons) 根據這些回應來做分類，例如：這段聲音是「愛」還是「bye」？

二、LSM vs LSTM：誰比較像「會記憶」的大腦？

前面我們提到短期記憶，你或許聽說過 Recurrent Neural Network (RNN) 中的 LSTM (Long Short-Term Memory，長短期記憶) 網路是「記憶力」很強的神經網路，是一種常見的 AI 記憶結構。但今天我們提到 LSM 作為生物啟發的對手，也有一套不同的思維方式。那麼問題來了：LSM 和 LSTM 都聲稱「仿生」並且擁有「短期記憶」功能，它們之間有什麼不同？以下我們進入至尊對決的環節，幫大家整理兩者的主要差異：

1. 記憶形式

• LSTM：利用 input gate、forget gate、output gate 等 gate 來 gate 去聽起來很難 gate 到他背後到底想要表達什麼的「gate 機制」，來主動管理記憶單元內容，像是一個精密設計的「記憶開關系統」。

• LSM：記憶來自於神經元的「液體狀態動態」，輸入訊號會在神經元間激起持續變化的活動，天然保留時間順序，就像大腦皮質中電訊號活動的「餘波」。

2. 仿生程度

• LSTM：靈感來自大腦的記憶結構，但其運作仍偏向數學模型，並非直接模仿神經元生理機制。

• LSM：深度模仿生物神經元放電 (spiking)、還可以額外加入突觸可塑性 (如 STDP)、與局部學習法則 (Hebbian learning)機制，使之與生物神經網路在邏輯與結構上更為接近。

3. 實作特性

• LSTM：主要透過 GPU 平台 (如 TensorFlow、PyTorch) 進行數值訓練與推論，軟體導向。

• LSM：適合數位硬體實作 (如 FPGA、VLSI、邊緣裝置)，尤其在不需除法、用右移取代後 (本研究後續會提到)，能大幅度降低功耗。

4. 即時學習能力

• LSTM：通常需要預先訓練 (offline training)，不擅長即時學習；訓練需透過反向傳播 (back propagation) 與梯度計算。

• LSM：可在輸入來的同時進行局部突觸更新，具備「即時同步學習」能力，不需整批訓練資料。

5. 與大腦的相似程度

• LSTM：雖然有「長短期記憶」設計概念，但整體仍屬工程取向，與大腦結構略有距離，例如其中的 forget gate 類比於電影 MIB 星際戰警中那柄銀色的洗腦器，或是結構更為簡單的棒球棍之類的。

• LSM：不僅神經元是放電型 (spiking)，連學習規則、網路拓樸都更加貼近神經生理學，是真正「向大腦學習」的系統。

簡單來說，LSTM 較像是「設計出來」的無情記憶機器，而 LSM 則更像是「自然形成」的動態記憶池。LSTM 透過 gate 機制控制資料進出記憶單元，但還是依賴傳統反向傳播訓練。而 LSM 是靠神經元之間的 spiking 傳遞與動態連結更新，在訊號中「自然留下痕跡」。

很多研究都指出這種天然的時間記憶性，讓 LSM 適合處理聲音、語言、運動訊號這類具有時間連續性的「時間序列訊號」。

三、它真的能聽懂說話？

這篇研究讓 LSM 接收人聲語音資料 (TI46 語音資料集)，並透過模仿人耳的處理方式 (像是耳蝸頻帶濾波、突觸的脈衝響應) 將語音轉換成 77 條對應由高頻到低頻聲音訊號的神經脈衝輸入 (請見圖1與圖2)。這些脈衝就像大腦接收到「聽覺刺激」的電訊號。

結果呢這個系統不僅表現出色，辨識單字的準確率高達 99.7%，甚至贏過傳統的語音辨識方法 (如 HMM、MLP) ！

圖1. 將輸入的聲音訊號以77條由高至低頻率的路徑輸入，經過一連串的訊號前處理後，形成77條 spike train 準備輸入 LSM 網路。

圖2. 77條 spike train 出入 LSM 中的 reservoir 層，就像將資料由較低維度映射至更高維度中，以便後面的 readout 神經元進行學習與分類的工作。

四、它怎麼學習的？重點在「像生物那樣」

這篇研究最有趣的亮點，就是設計出一種完全「生物啟發式」的學習法則。傳統神經網路需靠「反向傳播」訓練，但這方式不但與大腦運作方式相去甚遠，而且難以即時處理。

LSM 使用的是突觸可塑性的「局部學習法則」：每個神經突觸只根據自己與鄰近神經元的活動來更新連接強度，這就是所謂 Hebbian Learning：「一起活動就連結更強」(fire together, wire together)。

這讓系統不只能學習，還可以「邊聽邊學」，不需要整批訓練資料就能立即反應、即時更新，就像我們學校聽完的課，當天或甚至當場直接就給他複習記住，而不是等到明年七月才在考場的座位上，努力探尋前世的記憶和細數自己的罪惡。

五、為什麼要「去除除法」？這其實是超級重要的設計巧思！

如果我們不是做硬體設計的，可能不太會意識到：在晶片上，「除法」其實是一件又慢又耗電的事。

在程式語言中，「/」符號不過就是國小四則運算中的一員、看起來跟「+」感覺沒有什麼差別、都很簡單；但在硬體電路上，除法其實需要大量邏輯閘、迴圈與額外的時脈週期來運算。尤其在像神經網路這種每個突觸要重複計算成千上萬次的情境，這將會造成極大的功耗與延遲。

而這篇研究中，作者做了一個超聰明的處理方式：

先把需要放在被除數的參數選為2的次方的近似值 (例如：原本我們自己設定某個參數為30→改用32；15→改用16；10→改用8)，接著再把所有涉及除法的公式，改寫成「除以 2 的次方」的形式。

這麼一來，在硬體上就能用最簡單的運算方式實現：

右移 1 位元 → 等於除以 2

右移 2 位元 → 等於除以 4

右移 3 位元 → 等於除以 8

…依此類推

這種位元移位 (bit-shift) 幾乎不耗任何邏輯資源，透過線路繞接實現，在數位電路、VLSI、FPGA 或邊緣裝置都能輕鬆實現，特別適合需要低功耗、高效率的運算環境。所以說，這篇研究提出的模型不只是會「學習」，還會「精打細算」，把每一個位元都利用到最有效率！

六、多條突觸訊號太麻煩？聰明的「訊號合併術」來了！

在真實大腦中，每個神經元可能接收到成千上萬個突觸輸入；在人工神經網路裡也一樣，尤其是像 LSM 這樣的神經網路，每個神經元會在短時間內從不同方向來的 spike 接收到大量的訊號。如果每一條突觸，都需要記憶體來儲存它的權重與狀態，那麼在硬體實作上，這會迅速變得又「肥」又「耗電」。

為了解決這個問題，這篇研究提出了一個很有意思的方法：

將來自多個神經元的輸入「合併」成一個共用突觸輸入 (shared synaptic input)。

怎麼合併呢？就像圖3中的例子一樣：假設網路上游本來有3個神經元，每個都各自用一條線連到我們的目標神經元，每條線也都有自己的突觸權重與學習參數。現在則改成：這3個神經元的 spikes 先全部送到同一條線上，接著改用一個「合成突觸」統一處理所有的輸入事件，所以現在硬體只需要儲存「一組權重 + 一組突觸模型」即可！

因為 LSM 的神經元在設計上，本來就不強調精確的權重控制，而是靠整體活動的「動態混合」效果來完成訊號轉換與記憶。因此，即使不同輸入被合併，資訊仍然可以透過神經元之間的時間序列變化被有效傳遞與處理。合併的原理，則是基於event-based的spiking模擬，加上前面第五點提到的位移器取代除法後，利用突觸為線性微分方程組的模型特性，將數個突觸的模型疊加起來，實際上就等於計算數個線性微分方程系統的疊加，改用一組新的等效線性微分方程組表示合成後的突觸模型。由於本文屬科普性質故不在此展開細講，數學推導使用到等同於電機系大三訊號與系統課程、或是數學系大三微分方程課程所學之範圍，不會太難、大概是早餐店奶茶封膜上的益智問答等級，有拿過菲爾茲獎的同學可以當成 take home exercise。

這樣的改良，好處自然是可以大幅減少記憶體需求、還可以降低晶片上的佈線數 (routing) 與運算功耗，因此也更適合實作在 VLSI、FPGA、微控制器等邊緣裝置上。

這種合併技術，就好像如果全班30個同學想要訂飲料，30人爭先恐後擠在櫃檯大家嘰哩呱啦講了半天，結果點單的店員要馬直接進入零的領域什麼都聽不出來，要馬當場學會念 rap。但現在全班若改成推派一位訂飲料專員，拿出早就登記完全班同學有幾杯珍奶、幾杯多多綠，一目了然的統計清單交給櫃檯店員，相信對店員點單來說負擔少超多！

圖3. 利用 event-based 的 spike 特性，將三個微分方程系統做疊加，就可以整合成單一個突觸輸入給下游神經元，節省硬體成本。

結語：讓我們的大腦成為 AI 的靈感泉源

這篇研究不只是提出一種語音辨識的硬體實作方法，更展現出設計 AI 的另一種思維方式：模仿生物系統的智慧與效率，而不只是疊加算力。

下次當我們喊出「嘿 Siri」或「OK Google」時，除了像以往一樣擔心慘遭偷聽，之後打開YouTube或是IG時的廣告，恐怕又要鋪天蓋地推送我們剛提到的商品之外，也許我們可以想到，不管用途好與壞，這背後藏著一個正在「漣漪中思考」、想要搞懂我們到底說了什麼的液體神經網路！

(題外話：奇怪的是，無論我們怎麼聲嘶力竭，在手機平板旁邊呼天喊地說想要買蜥蜴飼養套組、或蜥蜴人連身道具服，IG怎麼都不會推送相關購物廣告呢？)

AI 使用聲明：部分內文由 ChatGPT 4o協助編輯

撰文：鄭主佑

原始論文：Zhang Y, Li P, Jin Y, and Choe Y. (2015) A Digital Liquid State Machine with Biologically Inspired Learning and Its Application to Speech Recognition. 2015 IEEE Transactions on Neural Networks and Learning Systems, 26(11), 2635-2649.

https://doi.org/10.1109/TNNLS.2015.2388544

搜尋此網誌

神經妙算

為硬體量身打造的 AI 大腦：液態神經網路在聲音辨識上的新突破

留言

張貼留言

熱門文章

看見像素的運動：單眼無人機如何靠「光流」穿越障礙叢林？

DeepSORT : 一種簡單且有效的物體追蹤方法