研究：用AI輔助看診效果不如預期

越來越多的人轉向AI和聊天機器人尋求醫療建議但目前缺少證據顯示AI是一種更好和更安全的方法

更新： 2026年03月15日

一項新研究表明，人工智慧（AI）在看診上表現平平，用AI幫助患者做健康決策，並不比其他方法更有效。示意圖。（STR/AFP/Getty Images）

【記者林燕／編譯】發表在《自然醫學》（Nature Medicine）雜誌上的一項新研究表明，人工智慧（AI）在看診上表現平平，用AI幫助患者做健康決策，並不比其他方法（例如上網搜尋）更有效。

這項研究由牛津大學網路研究所與一組醫生合作完成，他們設計了10種不同的醫療情景，涵蓋從普通感冒到危及生命的腦出血等各種情況。

研究人員表示，這項研究意義重大，因為越來越多的人轉向AI和聊天機器人尋求醫療建議，但目前缺少證據顯示AI是一種更好和更安全的方法。

研究人員選定三個大型語言模型——OpenAI的GPT-4o、Meta的LLaMA 3，和Cohere的Command R+進行測試，結果顯示這些AI工具識別出了94.9%的病情；此外還在56.3%的案例中選擇了正確的行動方案，例如呼叫救護車或建議患者看醫。

但在實地測試環節，AI的表現則遠遠不如理論。研究人員在英國招募了1‚298名參與者，讓他們分別使用AI、常用資源（例如網路搜索、自身經驗或英國國家醫療服務體系網站）來調查症狀並決定下一步行動。結果顯示，參與者使用AI識別相關疾病的比率不足34.5%，而給出正確行動方案的比率也不足44.2%。這一表現與使用傳統工具的對照組相比並無優勢。

該論文的合著者、牛津大學副教授馬赫迪（Adam Mahdi）表示，這項研究表明AI的理論與人類實際使用之間存在著「巨大差距」。「這些機器人可能擁有豐富的知識；然而，這些知識在與人類互動時並不總是能夠有效轉化。」他說，這意味著還需要開展更多研究來探究造成這種情況的原因。

研究團隊詳細分析了約30次互動，並得出結論：雖然人類常常提供不完整或錯誤的訊息，但AI也會產生誤導性或不正確的回覆。

研究團隊計畫在不同國家、使用不同語言，並隨著時間的推移開展類似研究，以測試這是否會影響AI的性能。

該研究得到了數據公司Prolific、德國非營利組織迪特‧施瓦茨基金會（Dieter Schwarz Stiftung）以及英國和美國政府的支持。◇

大紀元時報 - 台灣(The Epoch Times - Taiwan)

訂閱大紀元電子報