美國人工智慧公司Anthropic週一(2月23日)表示,三家中國公司利用其Claude聊天機器人非法獲取能力,以改進自身模型。Anthropic同時呼籲管制高階AI晶片出口。
此前,研發ChatGPT的人工智慧公司OpenAI發布備忘錄,警告中國人工智慧公司DeepSeek正以ChatGPT和Claude為目標,試圖複製美國的AI模型並將其用於自身訓練。
Anthropic在部落格文章中點名三家中國AI公司,分別是DeepSeek、Moonshot和MiniMax,指出這些公司使用約2.4萬個假帳號對Claude發起「工業級蒸餾攻擊」,互動次數高達1,600萬次,違反服務條款和區域訪問限制。
Anthropic表示,DeepSeek的非法行動旨在攻擊跨多種任務的推理能力,並訓練其大型語言模型回答敏感問題。DeepSeek要求Claude生成關於異見人士、政黨領導人或威權主義的、不受審查的回應,從而訓練自家模型,以引導對話避開審查話題。
Moonshot則針對智慧代理(intelligent agent)推理和工具使用,及編碼和數據分析。MiniMax的目標是攻擊智慧代理、工具使用和編排。
在MiniMax發布其模型前,Anthropic就發現了攻擊活動。Anthropic發布新模型的時間正值MiniMax發動攻擊,Anthropic發現MiniMax在24小時內迅速調整策略,將近一半的流量轉移到攻擊Anthropic的新模型上。
DeepSeek、Moonshot和MiniMax均未立即回應置評請求。
Anthropic指,這些中國公司使用「蒸餾」技術,即以強模型輸出訓練弱模型。換句話說,中國AI公司在非法挖取美國同行的模型能力,以此節省研發時間與成本,「這些攻擊活動的強度和複雜性都在不斷增強。採取行動的時間窗口很有限,而且威脅範圍遠超過任何一家公司或地區。」
非法蒸餾或致國家安全風險
Anthropic警告,這些非法蒸餾出來的模型缺乏必要的安全保障,會造成重大的國家安全風險。
「Anthropic等美國公司構建的系統,旨在防止國家和非國家行為體利用AI開發生物武器或進行惡意網路活動。」文章指出,「透過非法蒸餾構建的模型不太可能保留這些安全保障,這意味著危險能力可能會在許多保護措施完全失效的情況下迅速擴散。」
Anthropic進一步表示,外國實驗室如果能夠提取美國的技術模型,就可以將這些未受保護的能力輸入到軍事、情報和監控系統中,可能使專制政府能夠利用尖端AI技術進行網路攻擊、宣傳假訊息和大規模監控,「如果這些模型被開源,風險將成倍增加,因為相關能力會不受任何專制政府的控制而自由擴散。」
中國的「非法代理」訪問
Anthropic表示,出於國家安全考慮,該公司不向中國境內及其中國境外的關聯公司提供商業訪問權限,因此一些實驗室藉由商業代理服務與「轉售API」的方式取得大規模存取權限。
這些代理商有著名為「九頭蛇」的帳號集群,同時控制上萬個帳號,將蒸餾流量混入正常客戶請求,只要一個帳號被封就立即補入一個新帳號。蒸餾攻擊的特徵是:大量、重複、集中於少數能力領域的prompt模式,而非一般多樣化使用情況。
Anthropic表示,他們持續升級防禦措施,以增加進行此類數據提煉攻擊的難度,並提高識別難度。
Anthropic認為,中國AI公司的蒸餾攻擊印證美國管制高階晶片輸中的必要性,因為蒸餾攻擊本身也依賴高階晶片和大量算力,「限制晶片取得既能直接降低訓練模型的能力,又能減少不當提取的範圍。」◇


loading...
