Tranformer對於醫學之應用(手術分析)

本研究提出了一種基於視覺變換器(Vision Transformer, ViT)和監督對比學習的機器學習系統,能夠從機器輔助手術影片中解碼術中活動。研究發現,手術過程中的動作對術後結果有顯著影響,但目前對這些活動的細節理解仍有限。該系統旨在準確識別手術步驟、外科醫生執行的動作、這些動作的品質,以及影響行為解碼的關鍵影片幀。

通過對來自三家不同醫院的數據進行測試,研究證明該系統能夠在不同的影片、外科醫生、醫院及手術類型之間泛化。該系統能自動識別術中手勢和技能,無需人工標註,從而為外科醫生提供有關其操作技巧的回饋,並有助於識別最佳手術行為模式。此外,該技術還可用於研究術中因素與術後結果之間的關係,從而提升外科訓練和患者預後。

該研究驗證了該AI系統(SAIS)在術中活動解碼方面的可靠性,並顯示其優於現有的AI模型,如Inception3D(I3D)。SAIS可用於外科手勢分類、術中技能評估及手術動作分析,為外科醫生提供客觀、可擴展的評估工具,有望改變現有的外科訓練與評估方式。

圖一 SAIS(Surgical AI System)如何從手術影片中解碼術中活動。(a) SAIS處理來自機器輔助手術的影片,並將其轉換為可分析的術中活動資訊。

圖二 SAIS(Surgical AI System) 的視覺變換器(ViT)架構,如何從手術影片中提取並分類外科活動。
•  輸入數據:左側--手術影片幀(RGB)。右側--對應的光流(Optical Flow)圖,用於捕捉運動信息。
•  步驟 1:提取空間特徵--使用預訓練的 ViT(Vision Transformer)從手術影片和光流數據中提取空間特徵。
•  步驟 2:學習時間關係--透過 Transformer 編碼器捕捉連續幀之間的時序依賴關係。
•  步驟 3:融合模態特徵--將 RGB 和光流的時間特徵融合,以獲取完整的影片表示。
•  步驟 4:分類手術活動--投影頭(Projection Head) 進一步處理特徵,並透過 吸引(Attraction)與排斥(Repulsion)機制,將影片特徵映射到最接近的手術行為類別(Category 1 or 2)。



撰文:陳怡亨


原始論文:Kiyasseh, D., Ma, R., Haque, T.F. et al. A vision transformer for decoding surgeon activity from surgical videos. Nat. Biomed. Eng 7, 780–796 (2023).

留言