中國大量的簡轉繁圖書與歷史論述極易透過演算法淹沒本土內容,進而衝擊、混淆台灣的史觀/目前國際主流大語言模型(LLM)有高達 50% 以英文訓練,繁體中文僅佔約 1%。若缺乏在地內容,台灣的 AI 發展將面臨嚴重的邊緣化危機/很多人以為: 只要是繁體中文,就是台灣內容。 但實際上不是。 因為: 中國出版物可以簡轉繁 香港內容也可能是繁中 海外華文也使用繁體 但: 台灣史觀 台灣地名脈絡 本土政治語境 台語混用習慣 日治史料脈絡 台灣民間宗教與地方文化 這些才是「台灣語料」真正的價值。

 

簡轉繁圖書大量湧入、中國歷史論述衝擊台灣史觀…國際主流LLM僅1%繁中語料,綠委籲文化內容納主權AI訓練 - 今周刊
這場由民進黨立委陳培瑜、吳思瑤召開的「文化石油:AI主權建設下的出版內容產業未來」座談會,核心在於探討如何將台灣本土的文化內容轉化為AI訓練語料,以捍衛台灣的「主權AI」與文化主權

以下為您梳理這場座談會的四大核心議題與各界焦點:

一、 台灣主權 AI 面臨的兩大危機

  • 繁體中文語料嚴重邊緣化:

    陳培瑜指出,目前國際主流大語言模型(LLM)有高達 50% 以英文訓練,繁體中文僅佔約 1%。若缺乏在地內容,台灣的 AI 發展將面臨嚴重的邊緣化危機。

  • 在地主權 AI 恐成「空殼」與史觀衝擊:

    吳思瑤警示,台灣的國產 AI(如 TAIDE)部分評測落後,主因就是核心的文化語料因授權問題尚未納入,恐成為「沒有靈魂的空殼」。城邦媒體協理祝本堯與親子天下副總經理林彥傑更提醒,中國大量的簡轉繁圖書與歷史論述極易透過演算法淹沒本土內容,進而衝擊、混淆台灣的史觀

二、 內容產業與出版界的訴求:授權、計價與加工

出版與媒體業界普遍樂見本土 AI 發展,但提出實務操作上的三大難題:

  1. 資料無法直接使用(需要加工費):

    城邦媒體指出,現存的數位資料庫無法直接餵給 AI,必須經過清洗、加工及嚴格品管(將非結構化資料轉為結構化資料)。政府應編列專項預算,並釐清這筆經費是屬於「製作加工費」還是包含「授權使用費」。

  2. 缺乏合約與授權模式參考:

    出版公會全聯會理事長吳政鴻表示,目前業內版權合約極少包含 AI 授權,希望政府能針對出版、雜誌、報紙研商出標準的授權與合約模式。

  3. 防範中國語料混淆:

    業界呼籲在訂定政策時,必須建立防範機制,避免自由市場機制讓中國大量出版品污染本土語料庫。

三、 政策與制度的具體建議

為了解決單一創作者無法與科技巨頭議價的困境,與會者提出以下制度化的解決方案:

  • 建立「集體授權與分潤平台」: 吳思瑤建議參考歐盟《AI法案》與「公共出借權」精神,並借鏡公共工程的硬體定價機制,由國家出面建立軟體與內容計價機制,完善著作權的集體管理組織。

  • 政府公部門帶頭示範: 故宮前院長吳密察與親子天下林彥傑皆建議,立法院教文會主管的政府機關應承諾明確的語料規格時程。未來政府的標案、補助等由政府出資的內容,應考慮訂定強制授權條款及罰則,讓政府資料能順利進入主權 AI。

四、 政府跨部會的現階段回應

針對產學界的憂慮與建議,出席的政府部會給出具體進度與承諾:

部會目前進度與承諾
數發部

已建置「主權AI語料庫」,目前已蒐集 12億個 token


• 第一階段蒐集政府資料,已與 200 多個政府部門簽訂合理授權條款;第二階段已有 30 多家民間團體使用。


• 未來希望仰賴市場機制建立合理的授權與回饋。

國科會

• 坦言文化內容需要加工才能訓練 AI。


• 目前已規劃透過科技預算,開發工具將「非結構化資料」轉為「結構化資料」,協助台灣文化內容成為可用 AI 素材。

文化部

• 表態支持合理授權與回饋機制。


• 承諾將與各專業產業共同產出 AI 授權的定型化合約範本。


• 針對 AI 對文化人才造成的衝擊,將於九月份的「全國文化會議」提出討論。

核心總結:

過去政府發展 AI 偏重半導體與硬體,這場座談會凝聚了「文化內容是 AI 燃料」的共識。後續關鍵在於行政院能否在「AI 新十大建設」中,落實跨部會的「軟體與內容計價機制」,讓台灣文化產權在法律與預算的支持下,正式成為主權 AI 的最強後盾。 

這場座談會其實碰到的是「主權 AI(Sovereign AI)」裡最核心、但台灣過去相對忽略的一塊:
硬體很強,不代表語言文化主權也存在。

文中有幾個值得拆開看的重點。


一、他們真正擔心的是什麼?

表面上是在談出版授權,但本質是:

未來 AI 對「台灣是什麼」的理解,會由誰提供語料?

大型語言模型不是靠「立場設定」形成世界觀,而是靠大量文本統計學習。

如果訓練資料裡:

  • 中文多數來自中國簡體網路
  • 台灣文本比例極低
  • 台灣史觀、語感、用字、社會經驗不足

那模型最後自然會:

  • 用中國語境理解台灣
  • 用中國詞彙描述台灣
  • 用中國歷史框架回答台灣問題

這不是陰謀,而是資料分布問題。

所以他們提到:

  • 「繁中語料只有約 1%」
  • 「中國歷史論述會透過演算法擴散」
  • 「簡轉繁出版品大量湧入」

其實都在指向同一件事:

AI 時代的文化主權,首先是語料主權。


二、為何「繁體中文 ≠ 台灣語料」?

這點其實非常重要。

很多人以為:

只要是繁體中文,就是台灣內容。

但實際上不是。

因為:

  • 中國出版物可以簡轉繁
  • 香港內容也可能是繁中
  • 海外華文也使用繁體

但:

  • 台灣史觀
  • 台灣地名脈絡
  • 本土政治語境
  • 台語混用習慣
  • 日治史料脈絡
  • 台灣民間宗教與地方文化

這些才是「台灣語料」真正的價值。

例如你最近談到很多:

  • 樂生院
  • 台灣步兵第二聯隊
  • 日治時期台北排水
  • 中橫健行隊
  • 台中林氏宗廟
  • 澎湖石獅
  • 蘇花公路

這類內容在全球網路上的量其實非常少。

它們對 AI 是否能真正理解台灣歷史文化,極重要。

否則 AI 很容易出現:

  • 用中國近代史框架套台灣
  • 忽略日本時代脈絡
  • 誤解地方信仰
  • 將台灣行政與中國行政混淆
  • 把本土詞彙正規化成中國用語

這其實已經常見。


三、目前台灣政府最大的問題其實不是「沒有 AI」

而是:

沒有成熟的「內容授權基礎建設」。

這也是出版業一直強調的。

因為目前很多內容:

  • 根本沒 AI 授權條款
  • 權利歸屬複雜
  • 作者、出版社、攝影者、翻譯者權利交錯
  • 老報紙與舊影像甚至權利不明

所以即使政府想建立台灣語料庫,也不能直接抓來訓練。

這跟過去網路公司「先抓再說」的時代不同。

現在各國都開始進入:

  • AI 訓練資料治理
  • 授權與分潤
  • 資料來源透明化

歐盟尤其明顯。


四、TAIDE 現在的困境也是真的

吳思瑤提到:

TAIDE 若缺乏在地文化語料,會變成沒有靈魂的空殼。

這其實不是政治修辭,而是技術現實。

因為一個 LLM 的能力,大致取決於:

  1. 算力
  2. 模型架構
  3. 訓練資料

台灣現在:

  • 晶片與算力世界級
  • 模型技術可取得
  • 真正稀缺的是高品質在地語料

尤其:

  • 已數位化
  • 可授權
  • 可清洗
  • 可結構化
  • 品質一致

的內容非常少。

國科會提到:

要把非結構化資料轉成結構化

這其實是極大工程。

因為:

  • 掃描舊報紙 ≠ 可訓練語料
  • OCR 後仍有大量錯字
  • 歷史文本有舊漢字
  • 地名變遷複雜
  • 日文混雜
  • 台語白話字問題

都需要人工與工具長期處理。


五、「12億 token」其實不算多

數發部提到:

已蒐集 12 億 token。

這在中文主權模型裡當然不是零,但坦白說規模仍偏小。

作為對照:

  • GPT 類模型通常是「數兆 token」
  • 中國大型模型很多也在數千億至兆級 token

12 億 token:

  • 做專業台灣文化模型有價值
  • 但不足以支撐真正大型通用模型

因此台灣比較合理的方向,可能不是完全自建 GPT 級通用模型,而是:

在開源模型基礎上,做強化台灣文化與繁體中文能力的後訓練。

這會更現實。


六、他們其實正在討論一個新的制度:

「文化內容公共建設化」

也就是:

過去國家投資:

  • 道路
  • 電力
  • 科學園區

未來可能還要投資:

  • 台灣語料
  • 文化資料清洗
  • AI 訓練資料基礎建設

因為在 AI 時代:

語料會像石油、電力、自來水一樣,成為基礎資源。

這也是「文化石油」這個名稱的意思。


七、但也有幾個現實風險

1. 容易變成政治化語料工程

如果政府主導過深:

  • 哪些史觀算「正確」
  • 哪些文本優先納入
  • 是否排除某些政治內容

都可能引發爭議。

主權 AI 與官方 AI 的界線,需要非常小心。


2. 中國語料不可能真正排除

因為中文世界本來就高度互通。

即使台灣想建立本土模型:

  • 中文百科
  • 技術資料
  • 網路文本

大量仍來自中國。

完全隔離並不現實。

真正可行的是:

提高台灣語料權重與辨識能力。


3. 市場規模問題

台灣內容市場本來就不大。

很多出版社其實沒有能力:

  • 清洗資料
  • 建 API
  • 做 AI 授權管理

因此若沒有政府補助,很難形成完整產業鏈。


總結來說,這場座談會的重要性不在政治攻防,而在於:

台灣開始意識到,AI 時代的文化主權,不只在晶片,而在語料。

未來誰能定義:

  • 台灣歷史
  • 台灣語言
  • 台灣文化脈絡
  • 台灣社會經驗

很可能不再只是課本、媒體與學校,而是 AI 模型本身。

這則新聞反映出台灣在面對全球 AI 浪潮時,對於「文化主權」「繁體中文語料邊緣化」的集體焦慮。

當前國際主流的大型語言模型(LLM,如 GPT-4、Claude 等)在訓練時,繁體中文的資料量往往不到 1%,這導致 AI 生成的內容經常夾雜中國大陸的用語、價值觀或歷史論述。同時,市場上充斥著大量「簡轉繁」的電子書與網路內容,在演算法推波助瀾下,正逐漸稀釋台灣本土的文化與歷史觀點。

為了因應這個困境,台灣產官學界正積極推動「主權 AI」(如國科會主導的 TAIDE 模型),希望能訓練出真正「懂台灣」的 AI。以下是目前推動的現況與核心爭議點:

主權 AI 的建置現況

政府目前正由多個部會聯手,加速打造「台灣主權 AI 訓練語料庫」:

  • 數位發展部(數發部): 已建置主權 AI 語料庫,目前第一階段已蒐集了約 12 億個 Token(語意單位)。主要以政府公開資料、法規、防災手冊及地方刊物等「乾淨語料」為主,並與智慧財產局合作訂定合理的授權條款。

  • 國科會與中研院: 正在規劃科技預算,利用工具將非結構化的文化資料(如中研院臺灣史研究所館藏、台灣文學年鑑等)轉化為結構化數據,以便作為 AI 訓練素材。

核心挑戰:文化石油為何進不去 AI?

立委與文化產業界指出,雖然硬體與政府資料已在起步,但最能代表台灣文化底蘊的「出版與文化內容產業」(如小說、散文、在地文史紀錄),目前多數仍未納入訓練。主要卡在以下幾個痛點:

「缺乏在地文化語料,主權 AI 恐成為沒有靈魂的空殼。」 —— 立委吳思瑤

  1. 版權與授權機制不明: 單一創作者或中小型出版社,根本沒有能力與科技巨頭或政府大型標案進行對等議價,加上缺乏定型化合約,創作者擔心作品被 AI 任意「洗稿」而對授權持謹慎態度。

  2. 市場機制失效: 如果完全放任自由市場,台灣本土精緻但量少的文化內容,很容易被對岸龐大的產出與「簡轉繁」圖書淹沒。

  3. 加工成本高昂: 書籍、知識庫要變成 AI 看得懂的訓練素材,需要高昂的「非結構化轉結構化」加工製作費,這對傳統出版業是一大負擔。

產官學界提出的解方與倡議

為了解決上述困境,5 月中旬的座談會中各界提出了幾項重點建議:

  • 借鏡歐盟與公共出借權: 呼籲參考歐盟《AI 法案》精神,保障「創作有價」;並可參考硬體工程的定價機制,建立合理的 AI 語料「計價與回饋機制」。

  • 政府標案強制授權: 專家建議未來由政府出資的標案、補助計畫所產出的內容,應在合約中加入強制授權條款,讓國家資源培育出的成果能直接回饋給主權 AI。

  • 階段性彈性合作: 針對不同商業模式(如訂閱制媒體或電子書平台),由政府補助部分「製作加工費」,並依使用範圍界定「授權使用費」,創造內容產業與國家 AI 建設的雙贏。

這場「文化石油」的保衛戰,不僅攸關台灣出版業在數位時代的生存,更決定了未來下一代在操作 AI 工具時,看到的台灣歷史與文化究竟是誰的論述。

AI 被統戰「滲透」ChatGPT、Gemini、Claude 等模型在 75% 的案例中,中文回答比英文更親北京/人工智慧(Generative AI)發展中一個非常核心且巨大的結構性盲點。「免費」 vs. 「付費牆」的資訊逆淘汰/AI 公司的數據科學家在追求「海量中文/外語語料」時,自然會大量吸納這些公開且結構清晰的官媒數據。這導致AI在無形中被「餵養」了大量的官方意識形態。/目前國際主流大語言模型(LLM)有高達 50% 以英文訓練,繁體中文僅佔約 1%。若缺乏在地內容,台灣的 AI 發展將面臨嚴重的邊緣化危機。中國大量的簡轉繁圖書與歷史論述極易透過演算法淹沒本土內容,進而衝擊、混淆台灣的史觀。

留言