在生成式人工智慧快速發展、各國競逐「主權AI」的趨勢下,數位發展部24日正式對外發布並介紹「臺灣主權AI訓練語料庫」,廣納高品質、具在地化特色的正體中文資料,作為台灣發展主權AI的重要基礎建設。
數位發展部指出,「臺灣主權AI訓練語料庫」已吸引超過200個政府機關投入,上架逾2千筆資料集,累計超過6億個詞元(tokens),內容涵蓋語言、文化、教育、生物、地理環境等多元領域,收錄具台灣文化特色的政府出版品與研究資料,希望讓AI模型在訓練過程中,更能理解台灣社會的語言使用、文化脈絡與生活情境。
數位發展部資料創新司長莊明芬表示,主權AI已成為確保國家競爭力與數位自主性的關鍵議題,而語料庫正是其中最核心的基礎之一。她以「土豆是什麼?」為例指出,若語料來源不同,AI可能回答「馬鈴薯」或「落花生」,顯示語料是否在地化,會直接影響模型回應的精準度。
在資料來源上,文化部提供公共藝術與文化資產等資料集,呈現台灣多元豐富的藝文風貌;教育部則上架涵蓋國語、台語、客語等多語辭典資料,有助於提升AI模型在用詞與語意理解上的精準度。內政部、海洋委員會等機關,也分別貢獻國家公園研究報告與海洋知識,成為AI訓練的重要「在地教材」。
為了讓政府與民間能「放心釋出資料、安心使用語料」,數位發展部也與經濟部智慧財產局合作,推出「臺灣主權AI訓練語料授權條款—第1版」,讓語料釋出有明確的授權依據,降低個別著作權協商的行政成本,並減少AI訓練可能引發的著作權爭議。
數位發展部次長侯宜秀指出,AI發展的護城河在於資料與人才,語料庫並非定期更新,而是採「24小時即時更新」機制,只要機關有新資料,就可隨時上架,未來資料量可望持續擴大。她也表示,台灣的AI發展無法閉門造車,建立主權語料庫,除了讓下一代使用的AI更貼近台灣語言與價值觀,也能因應既有中文資料可能存在的篩選或過濾風險,提供一個具民主社會價值的中文資料來源。
數位發展部說明,主權AI訓練語料庫第1階段由中央機關先行,第2階段擴及地方政府,第3階段則將與民間團體合作,未來希望吸引更多開發者、研究單位、學校及國際AI業者使用。即日起,AI模型訓練相關需求者可至「臺灣主權AI訓練語料庫」平台(https://taic.moda.gov.tw)申請帳號,使用台灣的語料,打造更理解台灣的AI。◇


loading...
