RAG降低醫學問答AI的幻覺
大型語言模型在醫學問答中雖具備良好的語言生成能力,但由於其知識主要來自參數化訓練,無法即時更新或驗證外部事實,容易產生與真實醫學知識不符的“幻覺”問題,在醫療情境下尤其可能帶來風險。本文針對此一核心問題,提出並實證使用 Retrieval-Augmented Generation(RAG)的方法,透過引入外部可檢索的醫師–病患對話資料作為依據,顯著提升醫學問答的準確性,可信度與一致性,證明 RAG 能有效降低幻覺並改善醫療 QA 的可靠性。 研究以中文線上醫療問診對話資料為核心,建立向量化檢索資料庫,並比較不同資料表示與檢索策略。技術上採用語意向量嵌入(m3e-base)建立向量資料庫,設計兩種資料結構(以醫師回答為主的 D1,以及以問題標題為核心、搭配精簡 metadata 的 D2),再結合密集檢索、Cross-Encoder reranking、Reciprocal Rank Fusion(RRF)等方法,將檢索到的相關對話內容以結構化方式注入 LLM(ChatGPT-3.5、GPT-4o、GPT-5)進行生成,形成完整的 RAG 問答流程。 研究員使用三類 benchmark:第一為自動化文字指標(ROUGE、BLEU、BERTScore)衡量詞彙重疊、流暢度與語意相似度;第二為不同檢索流程的對照實驗(Vector-only、Rerank-only、RRF、RRF→Rerank),比較準確率與延遲;第三為醫療專家人工評分,從可讀性、正確性與真實性進行主觀評估。結果顯示,引入 RAG 後在多數指標上皆有顯著提升,尤其以「標題為核心的 D2 + Rerank-only」表現最佳,在維持低延遲的同時大幅改善 ROUGE-L F1 與人工評分;相對地,過度複雜的級聯檢索(RRF→Rerank)反而可能引入雜訊,顯示資料表示品質與精簡檢索設計比複雜演算法更關鍵。 這張圖展示了直接問 LLM vs. 先檢索醫師–病患對話再生成(RAG) 的完整對照流程,用來驗證 RAG 是否能降低幻覺、提升醫學問答品質。 這張圖從分佈層級比較了「直接生成(Direct)」與「加入 RAG(Retrieval-Augmented Generation)」在醫學問答任務中的整體表現差異,而不只是平均值。(a) 顯示 ROUGE-1/2/L 在 recall、precision 與 F1 上...








