為硬體量身打造的 AI 大腦:液態神經網路在聲音辨識上的新突破

你能想像一個模仿大腦的「液態神經網路」能夠學會分辨人說的話嗎?更酷的是,它不需要大費周章存一堆資料,也不需要複雜數學運算就能「即時學習」!今天我們就來聊聊一個充滿生物靈感的人工智慧研究:來自 Texas A&M 的《Digital Liquid State Machine》。

一、什麼是液態神經網路 Liquid State Machine (LSM)?
想像一個水池,每滴水滴進去都會引發一連串漣漪。如果觀察這些漣漪,我們或許能夠猜出是哪一滴水造成的,而這正是液態神經網路 Liquid State Machine (LSM) 背後的概念。范逸臣說最美的愛情像湖泊,雖然我們不知道這是不是真的,但至少LSM形成的記憶的原理真的就像湖泊水上的漣漪,而愛情又是諸多回憶的堆疊淬鍊,或許以後他的這段歌詞可以放上個reference,像是「最美的愛情像湖泊[1]」這樣,有了理論的背書,從此情比金堅,不怕再也無法相信愛情了!
好我們不離題,焦點再次回到主角LSM。LSM 是一種模仿大腦運作的 Spiking Neural Network (SNN),它的「水池」叫做 reservoir (水庫、水池、貯水槽的意思),能記住輸入訊號的時間順序,就像是短期記憶。再由輸出層 (readout neurons) 根據這些回應來做分類,例如:這段聲音是「愛」還是「bye」?

二、LSM vs LSTM:誰比較像「會記憶」的大腦?
前面我們提到短期記憶,你或許聽說過 Recurrent Neural Network (RNN) 中的 LSTM (Long Short-Term Memory,長短期記憶) 網路是「記憶力」很強的神經網路,是一種常見的 AI 記憶結構。但今天我們提到 LSM 作為生物啟發的對手,也有一套不同的思維方式。那麼問題來了:LSM 和 LSTM 都聲稱「仿生」並且擁有「短期記憶」功能,它們之間有什麼不同?以下我們進入至尊對決的環節,幫大家整理兩者的主要差異:
1. 記憶形式
• LSTM:利用 input gate、forget gate、output gate 等 gate 來 gate 去聽起來很難 gate 到他背後到底想要表達什麼的「gate 機制」,來主動管理記憶單元內容,像是一個精密設計的「記憶開關系統」。
• LSM:記憶來自於神經元的「液體狀態動態」,輸入訊號會在神經元間激起持續變化的活動,天然保留時間順序,就像大腦皮質中電訊號活動的「餘波」。
2. 仿生程度
• LSTM:靈感來自大腦的記憶結構,但其運作仍偏向數學模型,並非直接模仿神經元生理機制。
• LSM:深度模仿生物神經元放電 (spiking)、還可以額外加入突觸可塑性 (如 STDP)、與局部學習法則 (Hebbian learning)機制,使之與生物神經網路在邏輯與結構上更為接近。
3. 實作特性
• LSTM:主要透過 GPU 平台 (如 TensorFlow、PyTorch) 進行數值訓練與推論,軟體導向。
• LSM:適合數位硬體實作 (如 FPGA、VLSI、邊緣裝置),尤其在不需除法、用右移取代後 (本研究後續會提到),能大幅度降低功耗。
4. 即時學習能力
• LSTM:通常需要預先訓練 (offline training),不擅長即時學習;訓練需透過反向傳播 (back propagation) 與梯度計算。
• LSM:可在輸入來的同時進行局部突觸更新,具備「即時同步學習」能力,不需整批訓練資料。
5. 與大腦的相似程度
• LSTM:雖然有「長短期記憶」設計概念,但整體仍屬工程取向,與大腦結構略有距離,例如其中的 forget gate 類比於電影 MIB 星際戰警中那柄銀色的洗腦器,或是結構更為簡單的棒球棍之類的。
• LSM:不僅神經元是放電型 (spiking),連學習規則、網路拓樸都更加貼近神經生理學,是真正「向大腦學習」的系統。

簡單來說,LSTM 較像是「設計出來」的無情記憶機器,而 LSM 則更像是「自然形成」的動態記憶池。LSTM 透過 gate 機制控制資料進出記憶單元,但還是依賴傳統反向傳播訓練。而 LSM 是靠神經元之間的 spiking 傳遞與動態連結更新,在訊號中「自然留下痕跡」。
很多研究都指出這種天然的時間記憶性,讓 LSM 適合處理聲音、語言、運動訊號這類具有時間連續性的「時間序列訊號」。

三、它真的能聽懂說話?
這篇研究讓 LSM 接收人聲語音資料 (TI46 語音資料集),並透過模仿人耳的處理方式 (像是耳蝸頻帶濾波、突觸的脈衝響應) 將語音轉換成 77 條對應由高頻到低頻聲音訊號的神經脈衝輸入 (請見圖1與圖2)。這些脈衝就像大腦接收到「聽覺刺激」的電訊號。
結果呢這個系統不僅表現出色,辨識單字的準確率高達 99.7%,甚至贏過傳統的語音辨識方法 (如 HMM、MLP) !
圖1. 將輸入的聲音訊號以77條由高至低頻率的路徑輸入,經過一連串的訊號前處理後,形成77條 spike train 準備輸入 LSM 網路。

圖2. 77條 spike train 出入 LSM 中的 reservoir 層,就像將資料由較低維度映射至更高維度中,以便後面的 readout 神經元進行學習與分類的工作。

四、它怎麼學習的?重點在「像生物那樣」
這篇研究最有趣的亮點,就是設計出一種完全「生物啟發式」的學習法則。傳統神經網路需靠「反向傳播」訓練,但這方式不但與大腦運作方式相去甚遠,而且難以即時處理。
LSM 使用的是突觸可塑性的「局部學習法則」:每個神經突觸只根據自己與鄰近神經元的活動來更新連接強度,這就是所謂 Hebbian Learning:「一起活動就連結更強」(fire together, wire together)。
這讓系統不只能學習,還可以「邊聽邊學」,不需要整批訓練資料就能立即反應、即時更新,就像我們學校聽完的課,當天或甚至當場直接就給他複習記住,而不是等到明年七月才在考場的座位上,努力探尋前世的記憶和細數自己的罪惡。

五、為什麼要「去除除法」?這其實是超級重要的設計巧思!
如果我們不是做硬體設計的,可能不太會意識到:在晶片上,「除法」其實是一件又慢又耗電的事。
在程式語言中,「/」符號不過就是國小四則運算中的一員、看起來跟「+」感覺沒有什麼差別、都很簡單;但在硬體電路上,除法其實需要大量邏輯閘、迴圈與額外的時脈週期來運算。尤其在像神經網路這種每個突觸要重複計算成千上萬次的情境,這將會造成極大的功耗與延遲。
而這篇研究中,作者做了一個超聰明的處理方式:
先把需要放在被除數的參數選為2的次方的近似值 (例如:原本我們自己設定某個參數為30→改用32;15→改用16;10→改用8),接著再把所有涉及除法的公式,改寫成「除以 2 的次方」的形式。
這麼一來,在硬體上就能用最簡單的運算方式實現:
右移 1 位元 → 等於 除以 2
右移 2 位元 → 等於 除以 4
右移 3 位元 → 等於 除以 8
…依此類推
這種位元移位 (bit-shift) 幾乎不耗任何邏輯資源,透過線路繞接實現,在數位電路、VLSI、FPGA 或邊緣裝置都能輕鬆實現,特別適合需要低功耗、高效率的運算環境。所以說,這篇研究提出的模型不只是會「學習」,還會「精打細算」,把每一個位元都利用到最有效率!

六、多條突觸訊號太麻煩?聰明的「訊號合併術」來了!
在真實大腦中,每個神經元可能接收到成千上萬個突觸輸入;在人工神經網路裡也一樣,尤其是像 LSM 這樣的神經網路,每個神經元會在短時間內從不同方向來的 spike 接收到大量的訊號。如果每一條突觸,都需要記憶體來儲存它的權重與狀態,那麼在硬體實作上,這會迅速變得又「肥」又「耗電」。
為了解決這個問題,這篇研究提出了一個很有意思的方法:
將來自多個神經元的輸入「合併」成一個共用突觸輸入 (shared synaptic input)。
怎麼合併呢?就像圖3中的例子一樣:假設網路上游本來有3個神經元,每個都各自用一條線連到我們的目標神經元,每條線也都有自己的突觸權重與學習參數。現在則改成:這3個神經元的 spikes 先全部送到同一條線上,接著改用一個「合成突觸」統一處理所有的輸入事件,所以現在硬體只需要儲存「一組權重 + 一組突觸模型」即可!
因為 LSM 的神經元在設計上,本來就不強調精確的權重控制,而是靠整體活動的「動態混合」效果來完成訊號轉換與記憶。因此,即使不同輸入被合併,資訊仍然可以透過神經元之間的時間序列變化被有效傳遞與處理。合併的原理,則是基於event-based的spiking模擬,加上前面第五點提到的位移器取代除法後,利用突觸為線性微分方程組的模型特性,將數個突觸的模型疊加起來,實際上就等於計算數個線性微分方程系統的疊加,改用一組新的等效線性微分方程組表示合成後的突觸模型。由於本文屬科普性質故不在此展開細講,數學推導使用到等同於電機系大三訊號與系統課程、或是數學系大三微分方程課程所學之範圍,不會太難、大概是早餐店奶茶封膜上的益智問答等級,有拿過菲爾茲獎的同學可以當成 take home exercise。

這樣的改良,好處自然是可以大幅減少記憶體需求、還可以降低晶片上的佈線數 (routing) 與運算功耗,因此也更適合實作在 VLSI、FPGA、微控制器等邊緣裝置上。

這種合併技術,就好像如果全班30個同學想要訂飲料,30人爭先恐後擠在櫃檯大家嘰哩呱啦講了半天,結果點單的店員要馬直接進入零的領域什麼都聽不出來,要馬當場學會念 rap。但現在全班若改成推派一位訂飲料專員,拿出早就登記完全班同學有幾杯珍奶、幾杯多多綠,一目了然的統計清單交給櫃檯店員,相信對店員點單來說負擔少超多!
圖3. 利用 event-based 的 spike 特性,將三個微分方程系統做疊加,就可以整合成單一個突觸輸入給下游神經元,節省硬體成本。

結語:讓我們的大腦成為 AI 的靈感泉源
這篇研究不只是提出一種語音辨識的硬體實作方法,更展現出設計 AI 的另一種思維方式:模仿生物系統的智慧與效率,而不只是疊加算力。
下次當我們喊出「嘿 Siri」或「OK Google」時,除了像以往一樣擔心慘遭偷聽,之後打開YouTube或是IG時的廣告,恐怕又要鋪天蓋地推送我們剛提到的商品之外,也許我們可以想到,不管用途好與壞,這背後藏著一個正在「漣漪中思考」、想要搞懂我們到底說了什麼的液體神經網路!
(題外話:奇怪的是,無論我們怎麼聲嘶力竭,在手機平板旁邊呼天喊地說想要買蜥蜴飼養套組、或蜥蜴人連身道具服,IG怎麼都不會推送相關購物廣告呢?)

AI 使用聲明:部分內文由 ChatGPT 4o協助編輯


撰文:鄭主佑


原始論文:Zhang Y, Li P, Jin Y, and Choe Y. (2015) A Digital Liquid State Machine with Biologically Inspired Learning and Its Application to Speech Recognition. 2015 IEEE Transactions on Neural Networks and Learning Systems, 26(11), 2635-2649.

留言