SkinGPT-4 – 一個皮膚專用大語言模型
SkinGPT-4 是一個皮膚科 AI 助手。一般民眾可以上傳皮膚照片,它會先辨識病灶的外觀特徵(如紅斑、鱗屑、丘疹等),再用自然語言說明可能的診斷與照護建議,並支援互動式追問。研究團隊為了彌補皮膚科醫師人力不足、遠距諮詢等待久等問題,蒐集了約 5 萬張皮膚疾病影像與醫師標註與說明,打造出這個 24/7 的輔助工具。 爲了達到效果,團隊先用 ViT(Vision Transformer)把照片切成小片並抽出影像特徵,接著由 Q-Former 把這些特徵壓成一段精煉的「影像嵌入」(embedding)。關鍵在中間的「對齊層」(alignment layer):它是一個可訓練的線性投影,負責把影像嵌入轉成語言模型(這裡是 Llama-2-13B-chat)能讀懂的向量格式,等同於把圖片變成幾個「特殊影像標記」插進提示詞(prompt)的〈Image〉位置,之後就交由 LLM用自然語言生成描述、原因與建議。這個對齊層讓影像語意與文字語意接上線,成為多模態對話的橋樑。 而訓練分兩步:第 1 步先讓模型學會「醫學語彙」,用臨床概念標註的圖片(例如紅斑、結痂、臍凹等)去對齊影像特徵與醫學用語;第 2 步再用更大量、含醫師說明的病例資料微調,專心學「疾病分類與解釋」。消融實驗顯示,只有第 1 步會會描述但較難下正確診斷;只有第 2 步則較難抓到關鍵形態學特徵;兩步合在一起才能同時把特徵說清楚、診斷也更可靠。研究亦強調此系統可在本機部署以保護隱私,定位為輔助與分診工具,非取代醫師。 撰文:陳怡亨 原始論文:Zhou, J., He, X., Sun, L. et al. Pre-trained multimodal large language model enhances dermatological diagnosis using SkinGPT-4. Nat Commun 15 , 5649 (2024). https://doi.org/10.1038/s41467-024-50043-3








