RAG降低醫學問答AI的幻覺

大型語言模型在醫學問答中雖具備良好的語言生成能力,但由於其知識主要來自參數化訓練,無法即時更新或驗證外部事實,容易產生與真實醫學知識不符的“幻覺”問題,在醫療情境下尤其可能帶來風險。本文針對此一核心問題,提出並實證使用 Retrieval-Augmented Generation(RAG)的方法,透過引入外部可檢索的醫師–病患對話資料作為依據,顯著提升醫學問答的準確性,可信度與一致性,證明 RAG 能有效降低幻覺並改善醫療 QA 的可靠性。

研究以中文線上醫療問診對話資料為核心,建立向量化檢索資料庫,並比較不同資料表示與檢索策略。技術上採用語意向量嵌入(m3e-base)建立向量資料庫,設計兩種資料結構(以醫師回答為主的 D1,以及以問題標題為核心、搭配精簡 metadata 的 D2),再結合密集檢索、Cross-Encoder reranking、Reciprocal Rank Fusion(RRF)等方法,將檢索到的相關對話內容以結構化方式注入 LLM(ChatGPT-3.5、GPT-4o、GPT-5)進行生成,形成完整的 RAG 問答流程。

研究員使用三類 benchmark:第一為自動化文字指標(ROUGE、BLEU、BERTScore)衡量詞彙重疊、流暢度與語意相似度;第二為不同檢索流程的對照實驗(Vector-only、Rerank-only、RRF、RRF→Rerank),比較準確率與延遲;第三為醫療專家人工評分,從可讀性、正確性與真實性進行主觀評估。結果顯示,引入 RAG 後在多數指標上皆有顯著提升,尤其以「標題為核心的 D2 + Rerank-only」表現最佳,在維持低延遲的同時大幅改善 ROUGE-L F1 與人工評分;相對地,過度複雜的級聯檢索(RRF→Rerank)反而可能引入雜訊,顯示資料表示品質與精簡檢索設計比複雜演算法更關鍵。

這張圖展示了直接問 LLM vs. 先檢索醫師–病患對話再生成(RAG) 的完整對照流程,用來驗證 RAG 是否能降低幻覺、提升醫學問答品質。

這張圖從分佈層級比較了「直接生成(Direct)」與「加入 RAG(Retrieval-Augmented Generation)」在醫學問答任務中的整體表現差異,而不只是平均值。(a) 顯示 ROUGE-1/2/L 在 recall、precision 與 F1 上的分佈變化,RAG 的分佈整體明顯向右位移,且高分區間的樣本比例增加,代表模型在關鍵資訊覆蓋與內容對齊上更穩定、不是少數案例拉高平均。(b) 的 BERTScore(Precision、Recall、F1)同樣呈現整體右移與變異縮小,說明 RAG 讓生成內容在語意層級與真實醫師回答更一致。(c) BLEU 分佈也顯示 RAG 在流暢度與局部用語匹配上有顯著但幅度較小的提升。整體而言,這些分佈結果證明 RAG 帶來的是系統性、全資料集層級的品質改善,而非僅限於少數樣本的偶發性提升,支持其在醫學 QA 中降低幻覺並提升可靠性的有效性。



撰文:陳怡亨


原始論文:Muhetaer, M., Yusupu, A., Yifan, W. et al. Medical QA dialogue datasets in RAG systems performance evaluation and ChatGPT optimization. Sci Rep 15, 44467 (2025). https://doi.org/10.1038/s41598-025-28015-4

留言