中國AI寫程式研究：漏洞增多

更新： 2026年06月22日

【記者李思齊／綜合報導】美國的研究發現，中國大型語言模型（LLM）知道使用者為美國政府員工時，生成程式碼的漏洞顯著增加，且這些漏洞具有高度隱蔽性。

大型語言模型是人工智慧（AI）系統的一種，核心能力包括撰寫程式、回答問題、理解和生成文字、一定程度的推理，以及翻譯和摘要等。

美國國安與國防承包商博思艾倫諮詢公司（BAH）6月5日發布報告〈美國程式碼中藏著什麼？〉（What’s In America’s Code）。

博思艾倫總部位於美國維吉尼亞州，長期為美國國防部、情報機構及聯邦政府提供網路安全、AI、數據分析和國防科技服務，是美國最大的政府承包商之一。

博思艾倫利用其測試平台測試四款被廣泛使用的中國LLM，分別是DeepSeek（深度求索）、Qwen（通義千問）、MiniMax和Kimi。博思艾倫也測試了美國Anthropic公司的大型語言模型「Claude」作為對照組，比對分析模型生成程式的品質、安全及模型行為。

經過超過2,800次測試，及近45萬行程式碼的比較測試與情境分析後，博思艾倫發現，中國模型產生的程式碼安全性較低；四個中國模型中有三個獲得「美國政府使用者」的提示後，生成程式碼的漏洞增多，且這些漏洞具有高度的隱蔽性。

其中，Qwen認為自己是在替美國政府的員工工作時，生成程式碼的漏洞數量暴增130%。Qwen的開發商是阿里雲，隸屬於阿里巴巴集團。MiniMax和DeepSeek在此情形下生成程式碼的漏洞數量分別增加20%和5%；只有Kimi產出的程式碼則大致相同。

報告認為：「軟體供應鏈的第一個環節不再是程式碼，而是背後的AI模型。隨著美國開發者愈來愈依賴AI來生成、除錯及保護程式碼，我們必須面對一個根本問題：負責編寫和驅動國家程式碼的AI模型是否值得信任？」

避免中國AI模型汙染軟體

目前在美國關鍵基礎設施和國家安全任務的軟體供應鏈中，使用「非美國」開發AI模型的狀況很普遍。新研究的發現引發人們的疑慮，因為現有安全流程可能無法檢測出使用中國模型的風險。

中國的AI模型不是第一次被發現這些問題。去年11月19日，美國網路安全公司CrowdStrike發布技術討論影片指出，當DeepSeek-R1收到包含中共認為敏感的詞彙，如「法輪功」、「維吾爾」、「西藏」時，其生成含有嚴重安全漏洞程式碼機率的提高幅度最多可達到50%。

博思艾倫的測試還發現，來自中國的大型語言模型表現出與中共一致的政治立場——拒絕處理涉某些政治敏感問題的請求，並在生成內容中嵌入與中共一致的觀點。

博思艾倫認為，應該禁止不可信的AI模型進入美國政府和關鍵基礎設施環境，即凡是無法證明其行為可信且可靠的模型，都不應部署在支援美國國家安全或關鍵功能的系統中。

博思艾倫呼籲，美國應加大投入，讓可信的美國AI模型成為全球預設選擇；為推動普及化，美國AI公司應與美國政府合作，確保美國模型在商業競爭力和經濟可行性方面都具有吸引力。◇

大紀元時報 - 台灣(The Epoch Times - Taiwan)