基於向量符架構的仿神經最佳化方法

基於CNN的視覺辨識常需要大量訓練,而基於大腦的「生成模型推論」(inference in generative models, 或 analysis by synthesis)成為另一種選項(Yuille and Kersten 2006)。這種分析問題可以用向量符架構(Vector Symbolic Architecture, VSA)(TUCproaut 2020)來表達/建構(註1.),而VSA分散式呈現的特性在CPU上適合SNN來實現。

基於這樣的想法,ETH Zurich, Accenture Labs, UCB, Intel共同研發出一種仿神經的視覺場景辨識(Renner, Supic, Danielescu, Indiveri, Olshausen, et al. 2022);此方式將圖片透過FHRR(Fourier Holographic Reduced Representations, 跟傅立葉變換很像)作為VSA的呈現後,VSA的binding運算可視為圖片模板在圖片(2D)空間的平移,而這樣的架構可以很有效率地用諧振網路(resonator network)來實現。

不過諧振網路並不能處理旋轉與平移之間的變換;為了應對這個問題,HRN(Hierarchical Resonator Network)被設計出來,將binding運算擴充: 笛卡兒座標(平移) & 對數-極座標(旋轉/縮放),之間透過線性變換溝通。HRN會在不斷的binding與cleanup(類似Hopfield的自動關聯記憶功能(註2.)(Frady and Sommer 2019))後收斂至最佳解(註3.)
圖一:設計HRN的SNN實現,使用膜電位的相位偏移來實現binding運算以及cleanup

圖二:與CPU比較,雖然較慢,但Loihi的能源效率仍高出約兩個數量級

這樣的VSA也在之後被進一步應用到事件導向視覺里程計(Renner, Supic, Danielescu, Indiveri, Frady, et al. 2022)。此方法將第一張圖做為工作記憶儲存,在更新相機姿態的同時,針對整張圖片的旋轉與平移進行地圖更新。在純旋轉的情況下,也可擴充與IMU的融合,使用角速度預測旋轉,整體穩健性得以提昇。不過,因為只能針對圖片空間進行更新,相機姿態只能擁有旋轉的三個自由度,或者X/Y方向+Z軸旋轉的三個自由度,且地標須位於同一平面。未來希望利用光達或雙目視覺,將深度擴充至地圖,並將HRN從3自由度擴充到6個,以建構完整的視覺里程計。
圖三:事件導向視覺里程計示意圖

圖四:視覺里程計的HRN實現。s為從相機輸出的事件,h、v為水平/垂直方向的表達,r為旋轉的表達,p、l為笛卡兒/對數-極座標轉換模組。

註釋:
1. VSA的概念基本上就是把任何資料都用非常長的向量來呈現,並定義良好的運算子e.g. bundling, binding, 來建立兩個向量間的關係;因為非常長的關係,VSA是一種冗餘的表達,一般的CPU處理起來比起其他資料結構相對不便
2. 雖同屬於單樣本赫布學習的定點吸引子家族,與Hopfield網路的不同之處在於此處是以複數、連續、稀疏的方式來表示神經狀態(詳見參考文獻)
3. 在下面的視覺里程計的版本中,因為影像隨著相機移動不斷變化,HRN並不會收斂,而是跟隨著影像輸入更新姿態與地圖(見圖四)


撰文|葉宸甫


參考文章&影片:
Frady, E. Paxon, and Friedrich T. Sommer. 2019. “Robust Computation with Rhythmic Spike Patterns.” arXiv. https://doi.org/10.48550/arXiv.1901.07718.
 
Renner, Alpha, Lazar Supic, Andreea Danielescu, Giacomo Indiveri, E. Paxon Frady, Friedrich T. Sommer, and Yulia Sandamirskaya. 2022. “Neuromorphic Visual Odometry with Resonator Networks.” arXiv. https://doi.org/10.48550/arXiv.2209.02000.
 
Renner, Alpha, Lazar Supic, Andreea Danielescu, Giacomo Indiveri, Bruno A. Olshausen, Yulia Sandamirskaya, Friedrich T. Sommer, and E. Paxon Frady. 2022. “Neuromorphic Visual Scene Understanding with Resonator Networks.” arXiv. https://doi.org/10.48550/arXiv.2208.12880.
 
TUCproaut. 2020. “An Introduction to Vector Symbolic Architectures (VSA) and Hyperdimensional Computing (HDC).” https://www.youtube.com/watch?v=8Lonl-jSqUw.
 
Yuille, Alan, and Daniel Kersten. 2006. “Vision as Bayesian Inference: Analysis by Synthesis?” Trends in Cognitive Sciences 10 (7): 301–8. https://doi.org/10.1016/j.tics.2006.05.002.

留言