RAG降低醫學問答AI的幻覺

2/23/2026 08:00:00 上午

RAG降低醫學問答AI的幻覺

大型語言模型在醫學問答中雖具備良好的語言生成能力，但由於其知識主要來自參數化訓練，無法即時更新或驗證外部事實，容易產生與真實醫學知識不符的“幻覺”問題，在醫療情境下尤其可能帶來風險。本文針對此一核心問題，提出並實證使用 Retrieval-Augmented Generation（RAG）的方法，透過引入外部可檢索的醫師–病患對話資料作為依據，顯著提升醫學問答的準確性，可信度與一致性，證明 RAG 能有效降低幻覺並改善醫療 QA 的可靠性。

研究以中文線上醫療問診對話資料為核心，建立向量化檢索資料庫，並比較不同資料表示與檢索策略。技術上採用語意向量嵌入（m3e-base）建立向量資料庫，設計兩種資料結構（以醫師回答為主的 D1，以及以問題標題為核心、搭配精簡 metadata 的 D2），再結合密集檢索、Cross-Encoder reranking、Reciprocal Rank Fusion（RRF）等方法，將檢索到的相關對話內容以結構化方式注入 LLM（ChatGPT-3.5、GPT-4o、GPT-5）進行生成，形成完整的 RAG 問答流程。

研究員使用三類 benchmark：第一為自動化文字指標（ROUGE、BLEU、BERTScore）衡量詞彙重疊、流暢度與語意相似度；第二為不同檢索流程的對照實驗（Vector-only、Rerank-only、RRF、RRF→Rerank），比較準確率與延遲；第三為醫療專家人工評分，從可讀性、正確性與真實性進行主觀評估。結果顯示，引入 RAG 後在多數指標上皆有顯著提升，尤其以「標題為核心的 D2 + Rerank-only」表現最佳，在維持低延遲的同時大幅改善 ROUGE-L F1 與人工評分；相對地，過度複雜的級聯檢索（RRF→Rerank）反而可能引入雜訊，顯示資料表示品質與精簡檢索設計比複雜演算法更關鍵。

這張圖展示了直接問 LLM vs. 先檢索醫師–病患對話再生成（RAG）的完整對照流程，用來驗證 RAG 是否能降低幻覺、提升醫學問答品質。

這張圖從分佈層級比較了「直接生成（Direct）」與「加入 RAG（Retrieval-Augmented Generation）」在醫學問答任務中的整體表現差異，而不只是平均值。(a) 顯示 ROUGE-1/2/L 在 recall、precision 與 F1 上的分佈變化，RAG 的分佈整體明顯向右位移，且高分區間的樣本比例增加，代表模型在關鍵資訊覆蓋與內容對齊上更穩定、不是少數案例拉高平均。(b) 的 BERTScore（Precision、Recall、F1）同樣呈現整體右移與變異縮小，說明 RAG 讓生成內容在語意層級與真實醫師回答更一致。(c) BLEU 分佈也顯示 RAG 在流暢度與局部用語匹配上有顯著但幅度較小的提升。整體而言，這些分佈結果證明 RAG 帶來的是系統性、全資料集層級的品質改善，而非僅限於少數樣本的偶發性提升，支持其在醫學 QA 中降低幻覺並提升可靠性的有效性。

撰文：陳怡亨

原始論文：Muhetaer, M., Yusupu, A., Yifan, W. et al. Medical QA dialogue datasets in RAG systems performance evaluation and ChatGPT optimization. Sci Rep 15, 44467 (2025). https://doi.org/10.1038/s41598-025-28015-4

搜尋此網誌

神經妙算

RAG降低醫學問答AI的幻覺

留言

張貼留言

熱門文章

理解意識：比較兩大領先理論的突破性研究

果蠅大腦模擬轟動社群，意識上傳似乎近在眼前，但…真的嗎?

Part 3 Izhikevich's simple neurons: Resonators and Integrators.