首頁 要聞 綜合

研究:用AI輔助看診效果不如預期

越來越多的人轉向AI和聊天機器人尋求醫療建議 但目前缺少證據顯示AI是一種更好和更安全的方法

一項新研究表明,人工智慧(AI)在看診上表現平平,用AI幫助患者做健康決策,並不比其他方法更有效。示意圖。(STR/AFP/Getty Images)
一項新研究表明,人工智慧(AI)在看診上表現平平,用AI幫助患者做健康決策,並不比其他方法更有效。示意圖。(STR/AFP/Getty Images)

【記者林燕/編譯】發表在《自然醫學》(Nature Medicine)雜誌上的一項新研究表明,人工智慧(AI)在看診上表現平平,用AI幫助患者做健康決策,並不比其他方法(例如上網搜尋)更有效。

這項研究由牛津大學網路研究所與一組醫生合作完成,他們設計了10種不同的醫療情景,涵蓋從普通感冒到危及生命的腦出血等各種情況。

研究人員表示,這項研究意義重大,因為越來越多的人轉向AI和聊天機器人尋求醫療建議,但目前缺少證據顯示AI是一種更好和更安全的方法。

研究人員選定三個大型語言模型——OpenAI的GPT-4o、Meta的LLaMA 3,和Cohere的Command R+進行測試,結果顯示這些AI工具識別出了94.9%的病情;此外還在56.3%的案例中選擇了正確的行動方案,例如呼叫救護車或建議患者看醫。

但在實地測試環節,AI的表現則遠遠不如理論。研究人員在英國招募了1‚298名參與者,讓他們分別使用AI、常用資源(例如網路搜索、自身經驗或英國國家醫療服務體系網站)來調查症狀並決定下一步行動。結果顯示,參與者使用AI識別相關疾病的比率不足34.5%,而給出正確行動方案的比率也不足44.2%。這一表現與使用傳統工具的對照組相比並無優勢。

該論文的合著者、牛津大學副教授馬赫迪(Adam Mahdi)表示,這項研究表明AI的理論與人類實際使用之間存在著「巨大差距」。「這些機器人可能擁有豐富的知識;然而,這些知識在與人類互動時並不總是能夠有效轉化。」他說,這意味著還需要開展更多研究來探究造成這種情況的原因。

研究團隊詳細分析了約30次互動,並得出結論:雖然人類常常提供不完整或錯誤的訊息,但AI也會產生誤導性或不正確的回覆。

研究團隊計畫在不同國家、使用不同語言,並隨著時間的推移開展類似研究,以測試這是否會影響AI的性能。

該研究得到了數據公司Prolific、德國非營利組織迪特‧施瓦茨基金會(Dieter Schwarz Stiftung)以及英國和美國政府的支持。◇