卷積脈衝神經網路 (CSNN) 透過 STDP 學習的非監督語音辨識

人工神經網路(ANN)已經在語音辨識上達到非常高精確度的成效,但 ANN 的短處在於過度消耗能量,而且在生物上找不到 ANN 使用的非局部誤差與權重回傳機制 (backpropagation)。相對的脈衝神經網路 (Spiking Neural Network, SNN) 是模仿實際生物神經元建構出的神經網路同時利用生物上一種神經元學習機制,時間差引導突觸可塑性(STDP),因為權重的學習是局部性更新學習,所以相比非局部性的回傳機制來得節省能量。

作者提出的 SNN 結構有三層:輸入層 (input layer)、卷積層 (convolutional layer) 和池化層 (pooling layer)。輸入層利用 time-to-first-spike,一種生物上聽覺、視覺和體感編碼的方式把語音訊號轉成脈衝。卷積層利用 STDP 和利用側抑制 (lateral inhibition) 學習輸入層訊號的不同特徵,這裡的結構特性是有區域性的連結和權重分享。池化層則是降低輸入端數據的維度,使處理之後的數據維度與卷積層相同,再輸出成為訓練分類器的數據。

訓練分類器的階段分成三個:第一階段用訓練數據讓 SNN 的 STDP 學習,第二階段把 STDP 學習功能關閉,訓練分類器,第三階段用測試數據推測出預測結果。結果顯示這樣的 CSNN 準確度高達 97.5% 與 ANN 中目前精確度最高的相同。結果雖然是好的,但當中 time-to-first-spike 的機制太過於簡化,只讀取第一個脈衝而忽略那之後的所有訊號,在某些層面上導致很多資訊的流失,而且這樣的機制也對噪音非常敏感。為了再加強精確性,作者提出回饋的系統讓被監督的數據傳出的訊號可以回傳達到良好的權重學習。


撰稿:薛又齊

原文:Unsupervised speech recognition through spike-timing-dependent plasticity in a convolutional spiking neural network (2018). Meng Dong, Xuhui Huang ,Bo Xu.
連結:https://doi.org/10.1371/journal.pone.0204596

留言