中國大量的簡轉繁圖書與歷史論述極易透過演算法淹沒本土內容，進而衝擊、混淆台灣的史觀/目前國際主流大語言模型（LLM）有高達 50% 以英文訓練，繁體中文僅佔約 1%。若缺乏在地內容，台灣的 AI 發展將面臨嚴重的邊緣化危機/很多人以為：只要是繁體中文，就是台灣內容。但實際上不是。因為：中國出版物可以簡轉繁香港內容也可能是繁中海外華文也使用繁體但：台灣史觀台灣地名脈絡本土政治語境台語混用習慣日治史料脈絡台灣民間宗教與地方文化這些才是「台灣語料」真正的價值。

簡轉繁圖書大量湧入、中國歷史論述衝擊台灣史觀…國際主流LLM僅1%繁中語料，綠委籲文化內容納主權AI訓練 - 今周刊
這場由民進黨立委陳培瑜、吳思瑤召開的「文化石油：AI主權建設下的出版內容產業未來」座談會，核心在於探討如何將台灣本土的文化內容轉化為AI訓練語料，以捍衛台灣的「主權AI」與文化主權。

以下為您梳理這場座談會的四大核心議題與各界焦點：

一、台灣主權 AI 面臨的兩大危機

繁體中文語料嚴重邊緣化：
陳培瑜指出，目前國際主流大語言模型（LLM）有高達 50% 以英文訓練，繁體中文僅佔約 1%。若缺乏在地內容，台灣的 AI 發展將面臨嚴重的邊緣化危機。
在地主權 AI 恐成「空殼」與史觀衝擊：
吳思瑤警示，台灣的國產 AI（如 TAIDE）部分評測落後，主因就是核心的文化語料因授權問題尚未納入，恐成為「沒有靈魂的空殼」。城邦媒體協理祝本堯與親子天下副總經理林彥傑更提醒，中國大量的簡轉繁圖書與歷史論述極易透過演算法淹沒本土內容，進而衝擊、混淆台灣的史觀。

二、內容產業與出版界的訴求：授權、計價與加工

出版與媒體業界普遍樂見本土 AI 發展，但提出實務操作上的三大難題：

資料無法直接使用（需要加工費）：
城邦媒體指出，現存的數位資料庫無法直接餵給 AI，必須經過清洗、加工及嚴格品管（將非結構化資料轉為結構化資料）。政府應編列專項預算，並釐清這筆經費是屬於「製作加工費」還是包含「授權使用費」。
缺乏合約與授權模式參考：
出版公會全聯會理事長吳政鴻表示，目前業內版權合約極少包含 AI 授權，希望政府能針對出版、雜誌、報紙研商出標準的授權與合約模式。
防範中國語料混淆：
業界呼籲在訂定政策時，必須建立防範機制，避免自由市場機制讓中國大量出版品污染本土語料庫。

三、政策與制度的具體建議

為了解決單一創作者無法與科技巨頭議價的困境，與會者提出以下制度化的解決方案：

建立「集體授權與分潤平台」： 吳思瑤建議參考歐盟《AI法案》與「公共出借權」精神，並借鏡公共工程的硬體定價機制，由國家出面建立軟體與內容計價機制，完善著作權的集體管理組織。
政府公部門帶頭示範： 故宮前院長吳密察與親子天下林彥傑皆建議，立法院教文會主管的政府機關應承諾明確的語料規格時程。未來政府的標案、補助等由政府出資的內容，應考慮訂定強制授權條款及罰則，讓政府資料能順利進入主權 AI。

四、政府跨部會的現階段回應

針對產學界的憂慮與建議，出席的政府部會給出具體進度與承諾：

部會	目前進度與承諾
數發部	• 已建置「主權AI語料庫」，目前已蒐集 12億個 token。 • 第一階段蒐集政府資料，已與 200 多個政府部門簽訂合理授權條款；第二階段已有 30 多家民間團體使用。 • 未來希望仰賴市場機制建立合理的授權與回饋。
國科會	• 坦言文化內容需要加工才能訓練 AI。 • 目前已規劃透過科技預算，開發工具將「非結構化資料」轉為「結構化資料」，協助台灣文化內容成為可用 AI 素材。
文化部	• 表態支持合理授權與回饋機制。 • 承諾將與各專業產業共同產出 AI 授權的定型化合約範本。 • 針對 AI 對文化人才造成的衝擊，將於九月份的「全國文化會議」提出討論。

核心總結：

過去政府發展 AI 偏重半導體與硬體，這場座談會凝聚了「文化內容是 AI 燃料」的共識。後續關鍵在於行政院能否在「AI 新十大建設」中，落實跨部會的「軟體與內容計價機制」，讓台灣文化產權在法律與預算的支持下，正式成為主權 AI 的最強後盾。

這場座談會其實碰到的是「主權 AI（Sovereign AI）」裡最核心、但台灣過去相對忽略的一塊：
硬體很強，不代表語言文化主權也存在。

文中有幾個值得拆開看的重點。

一、他們真正擔心的是什麼？

表面上是在談出版授權，但本質是：

未來 AI 對「台灣是什麼」的理解，會由誰提供語料？

大型語言模型不是靠「立場設定」形成世界觀，而是靠大量文本統計學習。

如果訓練資料裡：

中文多數來自中國簡體網路
台灣文本比例極低
台灣史觀、語感、用字、社會經驗不足

那模型最後自然會：

用中國語境理解台灣
用中國詞彙描述台灣
用中國歷史框架回答台灣問題

這不是陰謀，而是資料分布問題。

所以他們提到：

「繁中語料只有約 1%」
「中國歷史論述會透過演算法擴散」
「簡轉繁出版品大量湧入」

其實都在指向同一件事：

AI 時代的文化主權，首先是語料主權。

二、為何「繁體中文 ≠ 台灣語料」？

這點其實非常重要。

很多人以為：

只要是繁體中文，就是台灣內容。

但實際上不是。

因為：

中國出版物可以簡轉繁
香港內容也可能是繁中
海外華文也使用繁體

但：

台灣史觀
台灣地名脈絡
本土政治語境
台語混用習慣
日治史料脈絡
台灣民間宗教與地方文化

這些才是「台灣語料」真正的價值。

例如你最近談到很多：

樂生院
台灣步兵第二聯隊
日治時期台北排水
中橫健行隊
台中林氏宗廟
澎湖石獅
蘇花公路

這類內容在全球網路上的量其實非常少。

但它們對 AI 是否能真正理解台灣歷史文化，極重要。

否則 AI 很容易出現：

用中國近代史框架套台灣
忽略日本時代脈絡
誤解地方信仰
將台灣行政與中國行政混淆
把本土詞彙正規化成中國用語

這其實已經常見。

三、目前台灣政府最大的問題其實不是「沒有 AI」

而是：

沒有成熟的「內容授權基礎建設」。

這也是出版業一直強調的。

因為目前很多內容：

根本沒 AI 授權條款
權利歸屬複雜
作者、出版社、攝影者、翻譯者權利交錯
老報紙與舊影像甚至權利不明

所以即使政府想建立台灣語料庫，也不能直接抓來訓練。

這跟過去網路公司「先抓再說」的時代不同。

現在各國都開始進入：

AI 訓練資料治理
授權與分潤
資料來源透明化

歐盟尤其明顯。

四、TAIDE 現在的困境也是真的

吳思瑤提到：

TAIDE 若缺乏在地文化語料，會變成沒有靈魂的空殼。

這其實不是政治修辭，而是技術現實。

因為一個 LLM 的能力，大致取決於：

算力
模型架構
訓練資料

台灣現在：

晶片與算力世界級
模型技術可取得
真正稀缺的是高品質在地語料

尤其：

已數位化
可授權
可清洗
可結構化
品質一致

的內容非常少。

國科會提到：

要把非結構化資料轉成結構化

這其實是極大工程。

因為：

掃描舊報紙 ≠ 可訓練語料
OCR 後仍有大量錯字
歷史文本有舊漢字
地名變遷複雜
日文混雜
台語白話字問題

都需要人工與工具長期處理。

五、「12億 token」其實不算多

數發部提到：

已蒐集 12 億 token。

這在中文主權模型裡當然不是零，但坦白說規模仍偏小。

作為對照：

GPT 類模型通常是「數兆 token」
中國大型模型很多也在數千億至兆級 token

12 億 token：

做專業台灣文化模型有價值
但不足以支撐真正大型通用模型

因此台灣比較合理的方向，可能不是完全自建 GPT 級通用模型，而是：

在開源模型基礎上，做強化台灣文化與繁體中文能力的後訓練。

這會更現實。

六、他們其實正在討論一個新的制度：

「文化內容公共建設化」

也就是：

過去國家投資：

道路
電力
科學園區

未來可能還要投資：

台灣語料
文化資料清洗
AI 訓練資料基礎建設

因為在 AI 時代：

語料會像石油、電力、自來水一樣，成為基礎資源。

這也是「文化石油」這個名稱的意思。

七、但也有幾個現實風險

1. 容易變成政治化語料工程

如果政府主導過深：

哪些史觀算「正確」
哪些文本優先納入
是否排除某些政治內容

都可能引發爭議。

主權 AI 與官方 AI 的界線，需要非常小心。

2. 中國語料不可能真正排除

因為中文世界本來就高度互通。

即使台灣想建立本土模型：

中文百科
技術資料
網路文本

大量仍來自中國。

完全隔離並不現實。

真正可行的是：

提高台灣語料權重與辨識能力。

3. 市場規模問題

台灣內容市場本來就不大。

很多出版社其實沒有能力：

清洗資料
建 API
做 AI 授權管理

因此若沒有政府補助，很難形成完整產業鏈。

總結來說，這場座談會的重要性不在政治攻防，而在於：

台灣開始意識到，AI 時代的文化主權，不只在晶片，而在語料。

未來誰能定義：

台灣歷史
台灣語言
台灣文化脈絡
台灣社會經驗

很可能不再只是課本、媒體與學校，而是 AI 模型本身。

這則新聞反映出台灣在面對全球 AI 浪潮時，對於「文化主權」與「繁體中文語料邊緣化」的集體焦慮。

當前國際主流的大型語言模型（LLM，如 GPT-4、Claude 等）在訓練時，繁體中文的資料量往往不到 1%，這導致 AI 生成的內容經常夾雜中國大陸的用語、價值觀或歷史論述。同時，市場上充斥著大量「簡轉繁」的電子書與網路內容，在演算法推波助瀾下，正逐漸稀釋台灣本土的文化與歷史觀點。

為了因應這個困境，台灣產官學界正積極推動「主權 AI」（如國科會主導的 TAIDE 模型），希望能訓練出真正「懂台灣」的 AI。以下是目前推動的現況與核心爭議點：

主權 AI 的建置現況

政府目前正由多個部會聯手，加速打造「台灣主權 AI 訓練語料庫」：

數位發展部（數發部）： 已建置主權 AI 語料庫，目前第一階段已蒐集了約 12 億個 Token（語意單位）。主要以政府公開資料、法規、防災手冊及地方刊物等「乾淨語料」為主，並與智慧財產局合作訂定合理的授權條款。
國科會與中研院： 正在規劃科技預算，利用工具將非結構化的文化資料（如中研院臺灣史研究所館藏、台灣文學年鑑等）轉化為結構化數據，以便作為 AI 訓練素材。

核心挑戰：文化石油為何進不去 AI？

立委與文化產業界指出，雖然硬體與政府資料已在起步，但最能代表台灣文化底蘊的「出版與文化內容產業」（如小說、散文、在地文史紀錄），目前多數仍未納入訓練。主要卡在以下幾個痛點：

「缺乏在地文化語料，主權 AI 恐成為沒有靈魂的空殼。」 —— 立委吳思瑤

版權與授權機制不明： 單一創作者或中小型出版社，根本沒有能力與科技巨頭或政府大型標案進行對等議價，加上缺乏定型化合約，創作者擔心作品被 AI 任意「洗稿」而對授權持謹慎態度。
市場機制失效： 如果完全放任自由市場，台灣本土精緻但量少的文化內容，很容易被對岸龐大的產出與「簡轉繁」圖書淹沒。
加工成本高昂： 書籍、知識庫要變成 AI 看得懂的訓練素材，需要高昂的「非結構化轉結構化」加工製作費，這對傳統出版業是一大負擔。

產官學界提出的解方與倡議

為了解決上述困境，5 月中旬的座談會中各界提出了幾項重點建議：

借鏡歐盟與公共出借權： 呼籲參考歐盟《AI 法案》精神，保障「創作有價」；並可參考硬體工程的定價機制，建立合理的 AI 語料「計價與回饋機制」。
政府標案強制授權： 專家建議未來由政府出資的標案、補助計畫所產出的內容，應在合約中加入強制授權條款，讓國家資源培育出的成果能直接回饋給主權 AI。
階段性彈性合作： 針對不同商業模式（如訂閱制媒體或電子書平台），由政府補助部分「製作加工費」，並依使用範圍界定「授權使用費」，創造內容產業與國家 AI 建設的雙贏。

這場「文化石油」的保衛戰，不僅攸關台灣出版業在數位時代的生存，更決定了未來下一代在操作 AI 工具時，看到的台灣歷史與文化究竟是誰的論述。

AI 被統戰「滲透」ChatGPT、Gemini、Claude 等模型在 75% 的案例中，中文回答比英文更親北京/人工智慧（Generative AI）發展中一個非常核心且巨大的結構性盲點。「免費」 vs. 「付費牆」的資訊逆淘汰/AI 公司的數據科學家在追求「海量中文/外語語料」時，自然會大量吸納這些公開且結構清晰的官媒數據。這導致AI在無形中被「餵養」了大量的官方意識形態。/目前國際主流大語言模型（LLM）有高達 50% 以英文訓練，繁體中文僅佔約 1%。若缺乏在地內容，台灣的 AI 發展將面臨嚴重的邊緣化危機。中國大量的簡轉繁圖書與歷史論述極易透過演算法淹沒本土內容，進而衝擊、混淆台灣的史觀。

搜尋此網誌

姜朝鳳宗族/姜太公文化/灶神信仰

一、台灣主權 AI 面臨的兩大危機

二、內容產業與出版界的訴求：授權、計價與加工

三、政策與制度的具體建議

四、政府跨部會的現階段回應

一、他們真正擔心的是什麼？

二、為何「繁體中文 ≠ 台灣語料」？

三、目前台灣政府最大的問題其實不是「沒有 AI」

四、TAIDE 現在的困境也是真的

五、「12億 token」其實不算多

六、他們其實正在討論一個新的制度：

「文化內容公共建設化」

七、但也有幾個現實風險

1. 容易變成政治化語料工程

2. 中國語料不可能真正排除

3. 市場規模問題

主權 AI 的建置現況

核心挑戰：文化石油為何進不去 AI？

產官學界提出的解方與倡議

留言

張貼留言

一、 台灣主權 AI 面臨的兩大危機

二、 內容產業與出版界的訴求：授權、計價與加工

三、 政策與制度的具體建議

四、 政府跨部會的現階段回應

一、他們真正擔心的是什麼？

二、為何「繁體中文 ≠ 台灣語料」？

三、目前台灣政府最大的問題其實不是「沒有 AI」

四、TAIDE 現在的困境也是真的

五、「12億 token」其實不算多

六、他們其實正在討論一個新的制度：

「文化內容公共建設化」

七、但也有幾個現實風險

1. 容易變成政治化語料工程

2. 中國語料不可能真正排除

3. 市場規模問題

主權 AI 的建置現況

核心挑戰：文化石油為何進不去 AI？

產官學界提出的解方與倡議

留言

張貼留言

一、台灣主權 AI 面臨的兩大危機

二、內容產業與出版界的訴求：授權、計價與加工

三、政策與制度的具體建議

四、政府跨部會的現階段回應