替大腦打造數位孿生,人工智慧如何破解視覺神經的運作之謎?
如果我們能將大腦的運作模式完全複製到電腦裡,打造一個完美的數位孿生(Digital twin),是不是就能提早預測我們看到某個畫面時,腦袋裡的神經元會作何反應? 過去幾年,神經科學家已經嘗試利用深度學習模型來模擬大腦神經元活動,也取得了不錯的成績 。然而,這些傳統的任務導向或小規模模型面臨著一個致命的缺點,它們的泛化能力(Generalization)不佳,往往只能在已經看過的數據分佈內表現良好。這就像是一個只會死背特定考古題的學生,一遇到沒看過的全新題型就瞬間當機。為了解開大腦的奧秘,我們需要一個真正能舉一反三的模型。 為了突破這個困境,研究團隊將目光轉向了近年來在人工智慧領域大放異彩的基礎模型(Foundation models)。就像我們熟知的大型語言模型ChatGPT,透過閱讀大量文本掌握了人類語言的通用邏輯一樣,他們想知道,能不能也餵給AI海量的神經數據,讓它學會大腦處理視覺的通用法則? 研究人員讓14隻清醒、可以在跑步機上活動的小鼠觀看各種動態的自然生態影片,同時利用高解析度的雙光子顯微鏡,記錄下牠們視覺皮層中高達135,000個神經元的活躍反應 。他們設計了一個包含四個關鍵模組的人工神經網路:負責追蹤眼球視角並進行光線追蹤的「視角模組」、處理瞳孔大小與跑步速度等內在狀態的「行為調節模組」、負責運算核心時空特徵的「基礎核心模組(Foundation core)」,這個核心融合了3D卷積層與卷積長短期記憶網路(Conv-LSTM)來處理複雜的時序動態,最後則是將這些特徵對接到單一神經元空間位置的「讀取模組」。 圖一、大腦數位分身架構圖:研究團隊設計的AI模型,透過四大關鍵模組將視覺影像與小鼠行為數據結合,精準預測大腦神經元的動態反應 研究團隊把來自其中8隻小鼠、長達900多分鐘的龐大影像與神經活動數據,全部餵給了這個基礎核心進行預先訓練,期望它能萃取出跨越不同個體與大腦皮層區域的共通視覺表徵。 當這個核心模型遇到一隻從未見過的新小鼠時,只需要固定基礎核心的參數,並用極少量的資料稍微微調外圍的視角與讀取模組,它就能迅速摸清這隻新小鼠的神經運作模式。相比於過去必須為每隻小鼠重新訓練的獨立模型,這個基礎模型只需要不到30分鐘的新數據,就能達到極高的預測準確率,大大節省了活體實驗收集資料的時間。 而這項研究最驚人的突破在於模型的泛化能力。在訓練階段,這個...






