首頁 科技 教育科普

中國AI寫程式 研究:漏洞增多

美國企業研究使用中國大型語言模型寫程式的風險。示意圖。(記者Oleksii Pydsosonnii/攝影)
美國企業研究使用中國大型語言模型寫程式的風險。示意圖。(記者Oleksii Pydsosonnii/攝影)

【記者李思齊/綜合報導】美國的研究發現,中國大型語言模型(LLM)知道使用者為美國政府員工時,生成程式碼的漏洞顯著增加,且這些漏洞具有高度隱蔽性。

大型語言模型是人工智慧(AI)系統的一種,核心能力包括撰寫程式、回答問題、理解和生成文字、一定程度的推理,以及翻譯和摘要等。

美國國安與國防承包商博思艾倫諮詢公司(BAH)6月5日發布報告〈美國程式碼中藏著什麼?〉(What’s In America’s Code)。

博思艾倫總部位於美國維吉尼亞州,長期為美國國防部、情報機構及聯邦政府提供網路安全、AI、數據分析和國防科技服務,是美國最大的政府承包商之一。

博思艾倫利用其測試平台測試四款被廣泛使用的中國LLM,分別是DeepSeek(深度求索)、Qwen(通義千問)、MiniMax和Kimi。博思艾倫也測試了美國Anthropic公司的大型語言模型「Claude」作為對照組,比對分析模型生成程式的品質、安全及模型行為。

經過超過2,800次測試,及近45萬行程式碼的比較測試與情境分析後,博思艾倫發現,中國模型產生的程式碼安全性較低;四個中國模型中有三個獲得「美國政府使用者」的提示後,生成程式碼的漏洞增多,且這些漏洞具有高度的隱蔽性。

其中,Qwen認為自己是在替美國政府的員工工作時,生成程式碼的漏洞數量暴增130%。Qwen的開發商是阿里雲,隸屬於阿里巴巴集團。MiniMax和DeepSeek在此情形下生成程式碼的漏洞數量分別增加20%和5%;只有Kimi產出的程式碼則大致相同。

報告認為:「軟體供應鏈的第一個環節不再是程式碼,而是背後的AI模型。隨著美國開發者愈來愈依賴AI來生成、除錯及保護程式碼,我們必須面對一個根本問題:負責編寫和驅動國家程式碼的AI模型是否值得信任?」

避免中國AI模型汙染軟體

目前在美國關鍵基礎設施和國家安全任務的軟體供應鏈中,使用「非美國」開發AI模型的狀況很普遍。新研究的發現引發人們的疑慮,因為現有安全流程可能無法檢測出使用中國模型的風險。

中國的AI模型不是第一次被發現這些問題。去年11月19日,美國網路安全公司CrowdStrike發布技術討論影片指出,當DeepSeek-R1收到包含中共認為敏感的詞彙,如「法輪功」、「維吾爾」、「西藏」時,其生成含有嚴重安全漏洞程式碼機率的提高幅度最多可達到50%。

博思艾倫的測試還發現,來自中國的大型語言模型表現出與中共一致的政治立場——拒絕處理涉某些政治敏感問題的請求,並在生成內容中嵌入與中共一致的觀點。

博思艾倫認為,應該禁止不可信的AI模型進入美國政府和關鍵基礎設施環境,即凡是無法證明其行為可信且可靠的模型,都不應部署在支援美國國家安全或關鍵功能的系統中。

博思艾倫呼籲,美國應加大投入,讓可信的美國AI模型成為全球預設選擇;為推動普及化,美國AI公司應與美國政府合作,確保美國模型在商業競爭力和經濟可行性方面都具有吸引力。◇