替大腦打造數位孿生,人工智慧如何破解視覺神經的運作之謎?
如果我們能將大腦的運作模式完全複製到電腦裡,打造一個完美的數位孿生(Digital twin),是不是就能提早預測我們看到某個畫面時,腦袋裡的神經元會作何反應?
過去幾年,神經科學家已經嘗試利用深度學習模型來模擬大腦神經元活動,也取得了不錯的成績 。然而,這些傳統的任務導向或小規模模型面臨著一個致命的缺點,它們的泛化能力(Generalization)不佳,往往只能在已經看過的數據分佈內表現良好。這就像是一個只會死背特定考古題的學生,一遇到沒看過的全新題型就瞬間當機。為了解開大腦的奧秘,我們需要一個真正能舉一反三的模型。
為了突破這個困境,研究團隊將目光轉向了近年來在人工智慧領域大放異彩的基礎模型(Foundation models)。就像我們熟知的大型語言模型ChatGPT,透過閱讀大量文本掌握了人類語言的通用邏輯一樣,他們想知道,能不能也餵給AI海量的神經數據,讓它學會大腦處理視覺的通用法則?
研究人員讓14隻清醒、可以在跑步機上活動的小鼠觀看各種動態的自然生態影片,同時利用高解析度的雙光子顯微鏡,記錄下牠們視覺皮層中高達135,000個神經元的活躍反應 。他們設計了一個包含四個關鍵模組的人工神經網路:負責追蹤眼球視角並進行光線追蹤的「視角模組」、處理瞳孔大小與跑步速度等內在狀態的「行為調節模組」、負責運算核心時空特徵的「基礎核心模組(Foundation core)」,這個核心融合了3D卷積層與卷積長短期記憶網路(Conv-LSTM)來處理複雜的時序動態,最後則是將這些特徵對接到單一神經元空間位置的「讀取模組」。
![]() |
| 圖一、大腦數位分身架構圖:研究團隊設計的AI模型,透過四大關鍵模組將視覺影像與小鼠行為數據結合,精準預測大腦神經元的動態反應 |
研究團隊把來自其中8隻小鼠、長達900多分鐘的龐大影像與神經活動數據,全部餵給了這個基礎核心進行預先訓練,期望它能萃取出跨越不同個體與大腦皮層區域的共通視覺表徵。
當這個核心模型遇到一隻從未見過的新小鼠時,只需要固定基礎核心的參數,並用極少量的資料稍微微調外圍的視角與讀取模組,它就能迅速摸清這隻新小鼠的神經運作模式。相比於過去必須為每隻小鼠重新訓練的獨立模型,這個基礎模型只需要不到30分鐘的新數據,就能達到極高的預測準確率,大大節省了活體實驗收集資料的時間。
而這項研究最驚人的突破在於模型的泛化能力。在訓練階段,這個模型的基礎核心僅接觸過小鼠觀看自然影片時的神經活動數據。但到了測試階段,研究團隊給出了模型從未見過的全新刺激,包括:飄動的條紋、隨機閃爍的點點、帶有方向性的噪音。結果發現,即便模型在訓練時完全沒有接觸過這些人造參數刺激,它依然能精準預測神經元會如何放電。這項結果有力地證明了這套運算架構已經捕捉到神經元處理視覺特徵的內在演算法,成功跨越了不同刺激領域(自然與合成)之間的鴻溝,展現出極高的資料效率與穩健性。
![]() |
| 圖二、基礎模型預測能力對比圖:本圖證明基礎模型(藍線)在面對陌生視覺刺激時,展現出遠優於傳統模型(灰線)的預測準確度與泛化能力 |
除了精準預測神經放電的時間點,這篇研究還在模型的讀取模組中,每一個神經元都會獲得一組專屬的高維度的數值權重,用來描述該神經元如何對視覺特徵做出反應 。明明模型在訓練時完全沒有接觸過任何關於腦部解剖的實體結構數據,研究團隊卻能單純透過這些純粹由運算活動算出的數值反過來精準預測該神經元在真實大腦裡的解剖細胞類型以及所在的視覺皮層區域。
這項研究成功為小鼠的視覺系統建立了一個數位的分身。在計算神經科學的領域,我們不論是重建神經元行為,還是利用AI捕捉特徵,都是為了用數據與運算力來解開大腦的複雜演算法。未來,或許我們將能在電腦裡進行無限次的虛擬實驗(in silico experiments),快速測試各種科學假設,真正深入神經編碼的神祕核心。
*聲明:本文使用AI輔助編輯*
撰稿人:呂菁菁
Reference:
Wang, E. Y., Fahey, P. G., Ding, Z., Papadopoulos, S., Ponder, K., Weis, M. A., ... & Tolias, A. S. (2025). Foundation model of neural activity predicts response to new stimulus types. Nature, 640(8058), 470-477.





留言
張貼留言