跳到主要內容
網站顏色切換 深色模式
進階搜尋
關閉搜尋
:::

「臺灣主權AI訓練語料庫」上線! 數位發展部攜手200個機關打造本土語料資源

在全球AI快速發展的浪潮下,臺灣當然也不能缺席!數位發展部今(24)日發布「臺灣主權AI訓練語料庫」,廣納高品質正體中文語料,支援AI模型訓練更貼近臺灣的語言、文化與生活情境,促進AI模型具備更高的本土辨識力與語意理解能力,符合我國社會與產業需求。

目前已有超過200個政府機關投入,上架逾2,000筆資料集、超過6億tokens,收錄各機關具臺灣文化特色之高品質資料集,內容涵蓋語言、文化、教育、生物、地理環境等領域,這些資料就像AI的教材,幫助AI模型更了解臺灣,學會更自然、更貼近臺灣社會的語言表達能力。文化部綜合規劃司魏司長表示,文化部上架的公共藝術及文化資產類型資料集,展現臺灣豐富、多元的藝文風貌,可作為訓練AI模型認識臺灣文化內容的重要素材;教育部資訊及科技教育司鄧科長則表示,教育部提供的語言辭典資料涵蓋臺語、客語及國語等,有助於強化AI模型的用詞精準度與語意理解能力。

同時,為了讓政府機關與民間能夠「放心釋出資料、安心使用語料」,數發部與經濟部智慧財產局合作,共同推出 《臺灣主權AI訓練語料授權條款-第1版》,讓語料釋出有明確的授權依據,降低個別著作權商議所要付出的龐大行政成本,減少AI訓練資料可能產生的著作權爭議,藉由授權條款先行機制,全力加速主權AI的發展與應用。

值得一提的是,語料庫串接政府資料開放十餘年努力的成果,將過去累積的豐富文本開放資料同步至語料庫,使用者可依需求查詢及下載所需語料資料,讓語料更容易被查找及應用。

數發部表示,語料庫內容未來還會持續擴充,從中央機關一路推廣至地方政府及民間機構,讓更多人一起參與,透過公私協力共同促進主權AI發展。誠摯邀請AI模型訓練者至語料庫(https://taic.moda.gov.tw)申請,用臺灣的語料,打造理解臺灣的AI!

返回頁面頂端