從非侵入性大腦記錄中重建連續語言的語義

之前我們有分享過文章是講述透過解碼器來分析大腦的想法來代替失語者或是身障人士來表達心裡話,但這方面的研究往往都是依賴侵入性腦機接口來完成的,但本次分享的研究是今年5/1發表的新技術,文章中討論了使用功能性核磁共振造影(fMRI)非侵入性的記錄並解碼連續語言的腦機介面最後透過語言模型(LM)來完善預測的語意與詞句。

此研究通過功能磁共振成像(fMRI)記錄腦皮層語義的表達,從而重建連續語言。為了比較單詞序列與受試者的腦電反應,研究人員使用了編碼模型,該模型能預測受試者的大腦如何對自然語言產生反應。他們在受試者聽取16小時自然口語的敘事故事時同時記錄腦電反應,並通過提取刺激短語意義的語義特徵,再利用線性回歸來類比語義特徵如何影響腦電反應來訓練編碼模型。最後給定任何單詞序列,編碼模型就能預測當聽到該序列時受試者的大腦將如何回應,並具有相當高的準確性。然後,編碼模型可以通過測量記錄的腦電反應與預測的腦電反應之間的匹配程度來評估單詞序列引發記錄的腦電反應的可能性。最終當檢測到新單詞時,語言模型(LM)會為每個序列提出延續,並且編碼模型會評估每個延續下所記錄的腦電反應的可能性,而最有可能的延續則會被保留,並以此來預測出使用者的語意。

但目前研究結果雖然創新並成果斐然,但準確度據研究者表示,約僅有50%且此研究展示的功能並不是準確給出參與者講的每一字每一句,而是給出他們所想描述的事情的語意,例如參與者在實驗中聽到“我還沒有駕照”這句話時,這些想法可能被翻譯成“她甚至還沒有開始學習開車”。但這樣精準的描述其實已經非常卓越了,且此研究是建立在非侵入式的基礎之上,那更是飛躍性的,不過目前研究仍無法走出實驗室,因其高度仰賴fMRI,所以研究者也表明若要能便攜,還需要更多的研究,但透過便攜的大腦成像系統的加入,可以說是可見的成功未來。
圖(一)模型的概念以及一圖覽

圖一描述了語言解碼器的工作原理。在三名受試者聽取16小時敘事故事時記錄了BOLD fMRI反應。為每個受試者估計了一個編碼模型,以根據刺激詞的語義特徵預測大腦反應。為了從新的腦電記錄中重建語言,解碼器準備一組候選的單詞序列。當檢測到新單詞時,語言模型(LM)為每個序列提出延續,並且編  碼模型評估每個延續下記錄的腦電反應的可能性。最有可能的延續將被保留。

解碼器在未用於模型訓練的測試敘事上記錄的單次腦電反應上進行評估。四個測試敘事的片段與一個受試者的解碼器預測顯示在一起。手動選擇並注釋了示例以演示典型的解碼器行為。解碼器精確地複製了一些單詞和短語,並捕獲了許多更多的要點。

圖(二)展示研究中受試者的嘗試與結果:左側為受試者描述一段故事後,模型所展示的猜測以及描述。右側為展示故事影像(圖片)給受試者後,模型針對腦電的變化猜測受試者的描述



撰文:徐楷昕


參考資料:Tang, J., LeBel, A., Jain, S., & Huth, A. G. (2023). Semantic reconstruction of continuous language from non-invasive brain recordings. Nature Neuroscience, 1-9.  https://www.nature.com/articles/s41593-023-01304-9.epdf

留言