SAM-Med2D:醫學影像分割的新突破

在醫學影像分析的領域中,精準的影像分割技術對於診斷和治療有著至關重要的作用。最近,一篇名為《SAM-Med2D》的論文引起了廣泛關注,因為它將原本用於自然影像分割的Segment Anything Model(SAM)成功應用於醫學影像,並且取得了顯著的成果。這篇文章將帶你了解SAM-Med2D的創新之處以及它如何改變醫學影像分析的未來。

跨越領域差距:自然影像到醫學影像
SAM-Med2D最重要的貢獻之一在於解決了自然影像與醫學影像之間的領域差距。自然影像和醫學影像在視覺特徵和上下文上有很大不同,這使得專門為自然影像訓練的模型在醫學影像中表現不佳。SAM-Med2D通過專門的調整,成功地彌合了這一差距,使模型能夠更好地理解和處理醫學影像。

巨型數據集的構建
為了訓練和微調模型,研究團隊收集並構建了一個龐大的數據集,包含約460萬張影像和1970萬個掩膜(masks),來自於公共和私人的數據來源。這些數據涵蓋了多種醫學影像模態和對象,為模型提供了豐富且多樣的訓練素材,確保模型能在多樣的醫學應用中表現出色。 (Fig 1.)
Fig 1. Meta提出的SA-1B自然影像數據集和本研究提出的醫學影像數據集

全面的微調過程
SAM-Med2D不僅僅是直接應用SAM於醫學影像,而是進行了全面的微調,特別是在編碼器(encoder)和解碼器(decoder)部分。這個過程使用了多種分割提示(prompts),包括邊界框、點和掩膜,比起一般只使用簡單提示的方法更加細緻和全面。(Fig 2.)
Fig 2. 相較其他論文,他們對Encoder、Decoder和 全部Prompts mode都進行微調

為了降低encoder的大量運算成本(因為Transformer需要大量計算),所以在每一個Transformer block凍結大部分的Layer,加入Adapter Layer。Adapter Layer 採用Global Average Pooling,將Feature map經過GAP後不會保存影像尺寸資訊,所以輸入的圖片長寬可以不固定。加入一個卷積層對Feature map進行Downsample,在up sampling之前提取特徵。其他encoder decoder的架構不變,完成全面微調。(Fig 3.)
Fig 3. 全面微調架構圖。添加新的Adapter Layer在Image Encoder,凍結大部分的Layers。

優越的泛化能力
該研究還強調了模型的泛化能力,SAM-Med2D在多個數據集(包括MICCAI 2023挑戰賽的數據集)中進行測試,結果顯示它能夠穩定地在不同數據集中表現優異。這意味著該模型可以廣泛應用於各種醫學影像任務,無需為每個新數據集進行大量重新訓練或定制。

最終,研究顯示SAM-Med2D在醫學影像分割的準確性和有效性方面顯著超越了原始的SAM。這種性能提升對於實際應用至關重要,因為更高的準確性可以直接轉化為更好的臨床結果。(Fig 4.)
Fig 4. 比較SAM模型和 SAM-Med2D模型在測試集上的表現,FT-SAM是沒有新增Adapter Layer的版本,速度維持51 FPS,但準確度提升超過10%,SAM-Med2D 因為新增Adapter Layer速度略有下降,但準確度更進一步提升。

P.S.特別感謝 #ChatGPT 潤飾此篇文章。 🤖


撰文:許楷翊


參考文獻:
Cheng, Junlong, et al. "Sam-med2d." arXiv preprint arXiv:2308.16184 (2023).

留言