來自美國5所大學的7名研究人員近期發表研究指出,新華社、《人民日報》等中共官媒內容已滲透全球日益依賴的人工智慧(AI)聊天機器人訓練資料;且越缺乏言論自由的國家,AI輸出結果越具立場傾向。
全球頂尖科學期刊《自然》(Nature)5月13日發〈國家媒體控制影響大型語言模型〉一文,證實中共官方媒體與體制宣傳內容已滲透全球日益依賴的AI聊天機器人訓練資料。這是全球首篇經同儕審查的相關研究,作者來自奧勒岡大學 、普渡大學、加州大學聖地牙哥分校、紐約大學及普林斯頓大學。
研究指出,新華社、《人民日報》及中共「學習強國」App每天大量產出的制式文章、官方口號與黨式措辭,已被證實存在於ChatGPT等主流聊天機器人之中。
「學習強國」App由中共中央宣傳部推出,以習近平思想為主要內容。「學習強國」中的「習」既有學習之意,也對應習近平姓氏。
該App於2019年1月1日上線,至2024年9月被證實已爛尾。許多中共體制內官員、國企員工、教師與黨員,都曾被要求每天登入刷分。平台內容包括習近平談話、中共黨史、宣傳文章及政治考題等。
新聞自由越低 AI回答越受限
研究報告指出,全球已有數百萬人透過大型語言模型(LLM)查詢資訊。雖然已有多項研究證實這些模型具備強大說服能力,但究竟哪些力量在影響模型本身,相關證據仍有限,也引發外界對企業與政府如何建構、監管模型的憂慮。
該期刊報告透過6項研究指出,各國政府對媒體的控制,已透過訓練資料影響LLM輸出結果;且越缺乏言論自由的國家,LLM輸出越具立場。
為更精確驗證「國家媒體控制如何影響LLM」的機制,研究以中共官媒為案例。結果顯示,中共政府編寫與篩選的媒體內容,確實出現在LLM訓練資料中。
研究人員檢視目前最大開源中文資料集之一的CulturaX。該資料集包含約1.89億篇中文網路文件,其中1.64%與中共官媒內容重疊。比率看似不高,但若篩選提及習近平、中共全代會或中央全會的文件,重疊比率即上升至約1/4。
CulturaX由AI開源社群與研究者建立,目標是蒐集全球語言文本,作為公開AI訓練資料。許多西方媒體設有付費牆,因自由媒體需依市場營運;但中共官媒完全免費,背後有政府資源支持。
研究還發現,中共官媒內容在CulturaX中的數量,比中文維基百科高出41倍。
用中文提問 AI立場更偏中共
為評估影響,研究使用開放權重模型測試,結果顯示若額外加入中共官媒內容進行預訓練,模型對中共政治制度與領導人的回答會更正面。
後續兩項研究則將此現象與商業模型連結。結果顯示,以中文向模型提問時,模型對中共體制與領導人的回應,比英文提問時更正面。
第二項研究中,研究團隊向OpenAI的GPT、Anthropic的Claude、Google的Gemini,以及Elon Musk旗下的Grok等聊天機器人提出政治敏感問題,並分別以中、英文提問「中國是民主國家嗎?」、「習近平是好領導人嗎?」、「中國全國人大是否只是橡皮圖章?」等問題。結果顯示,中文回答的明顯更偏向中共立場。
DeepSeek受中共監管
唯一明顯例外是中國的DeepSeek,無論中、英文提問,回答皆一致偏向中共立場,反映中國AI模型及訓練資料皆受中共監管。針對俄羅斯與北韓相關問題,結果也相同。
研究指出,政府影響AI立場的情況不只存在於中國。一個國家的新聞自由度越低,AI以當地語言做出的回答,就越偏向政權立場。中共官媒只是案例之一,這種現象其實具有全球性。
研究結論認為,各國政府與大型機構,如今更有戰略動機透過媒體控制影響LLM輸出結果。
最令人意外的是,這種影響無需任何陰謀操作即可形成。因政府宣傳內容本就以公開HTML格式免費存在網路上,能被AI實驗室的爬蟲大量抓取。這些資訊進一步被用於AI模型訓練,持續強化官方宣傳內容。◇


loading...
