中國大量的簡轉繁圖書與歷史論述極易透過演算法淹沒本土內容,進而衝擊、混淆台灣的史觀/目前國際主流大語言模型(LLM)有高達 50% 以英文訓練,繁體中文僅佔約 1%。若缺乏在地內容,台灣的 AI 發展將面臨嚴重的邊緣化危機/很多人以為: 只要是繁體中文,就是台灣內容。 但實際上不是。 因為: 中國出版物可以簡轉繁 香港內容也可能是繁中 海外華文也使用繁體 但: 台灣史觀 台灣地名脈絡 本土政治語境 台語混用習慣 日治史料脈絡 台灣民間宗教與地方文化 這些才是「台灣語料」真正的價值。
這場由民進黨立委陳培瑜、吳思瑤召開的「文化石油:AI主權建設下的出版內容產業未來」座談會,核心在於探討如何將台灣本土的文化內容轉化為AI訓練語料,以捍衛台灣的「主權AI」與文化主權。
以下為您梳理這場座談會的四大核心議題與各界焦點:
一、 台灣主權 AI 面臨的兩大危機
繁體中文語料嚴重邊緣化:
陳培瑜指出,目前國際主流大語言模型(LLM)有高達 50% 以英文訓練,繁體中文僅佔約 1%。若缺乏在地內容,台灣的 AI 發展將面臨嚴重的邊緣化危機。
在地主權 AI 恐成「空殼」與史觀衝擊:
吳思瑤警示,台灣的國產 AI(如 TAIDE)部分評測落後,主因就是核心的文化語料因授權問題尚未納入,恐成為「沒有靈魂的空殼」。城邦媒體協理祝本堯與親子天下副總經理林彥傑更提醒,中國大量的簡轉繁圖書與歷史論述極易透過演算法淹沒本土內容,進而衝擊、混淆台灣的史觀。
二、 內容產業與出版界的訴求:授權、計價與加工
出版與媒體業界普遍樂見本土 AI 發展,但提出實務操作上的三大難題:
資料無法直接使用(需要加工費):
城邦媒體指出,現存的數位資料庫無法直接餵給 AI,必須經過清洗、加工及嚴格品管(將非結構化資料轉為結構化資料)。政府應編列專項預算,並釐清這筆經費是屬於「製作加工費」還是包含「授權使用費」。
缺乏合約與授權模式參考:
出版公會全聯會理事長吳政鴻表示,目前業內版權合約極少包含 AI 授權,希望政府能針對出版、雜誌、報紙研商出標準的授權與合約模式。
防範中國語料混淆:
業界呼籲在訂定政策時,必須建立防範機制,避免自由市場機制讓中國大量出版品污染本土語料庫。
三、 政策與制度的具體建議
為了解決單一創作者無法與科技巨頭議價的困境,與會者提出以下制度化的解決方案:
建立「集體授權與分潤平台」: 吳思瑤建議參考歐盟《AI法案》與「公共出借權」精神,並借鏡公共工程的硬體定價機制,由國家出面建立軟體與內容計價機制,完善著作權的集體管理組織。
政府公部門帶頭示範: 故宮前院長吳密察與親子天下林彥傑皆建議,立法院教文會主管的政府機關應承諾明確的語料規格時程。未來政府的標案、補助等由政府出資的內容,應考慮訂定強制授權條款及罰則,讓政府資料能順利進入主權 AI。
四、 政府跨部會的現階段回應
針對產學界的憂慮與建議,出席的政府部會給出具體進度與承諾:
| 部會 | 目前進度與承諾 |
| 數發部 | • 已建置「主權AI語料庫」,目前已蒐集 12億個 token。 • 第一階段蒐集政府資料,已與 200 多個政府部門簽訂合理授權條款;第二階段已有 30 多家民間團體使用。 • 未來希望仰賴市場機制建立合理的授權與回饋。 |
| 國科會 | • 坦言文化內容需要加工才能訓練 AI。 • 目前已規劃透過科技預算,開發工具將「非結構化資料」轉為「結構化資料」,協助台灣文化內容成為可用 AI 素材。 |
| 文化部 | • 表態支持合理授權與回饋機制。 • 承諾將與各專業產業共同產出 AI 授權的定型化合約範本。 • 針對 AI 對文化人才造成的衝擊,將於九月份的「全國文化會議」提出討論。 |
核心總結:
過去政府發展 AI 偏重半導體與硬體,這場座談會凝聚了「文化內容是 AI 燃料」的共識。後續關鍵在於行政院能否在「AI 新十大建設」中,落實跨部會的「軟體與內容計價機制」,讓台灣文化產權在法律與預算的支持下,正式成為主權 AI 的最強後盾。
這場座談會其實碰到的是「主權 AI(Sovereign AI)」裡最核心、但台灣過去相對忽略的一塊:
硬體很強,不代表語言文化主權也存在。
文中有幾個值得拆開看的重點。
一、他們真正擔心的是什麼?
表面上是在談出版授權,但本質是:
未來 AI 對「台灣是什麼」的理解,會由誰提供語料?
大型語言模型不是靠「立場設定」形成世界觀,而是靠大量文本統計學習。
如果訓練資料裡:
- 中文多數來自中國簡體網路
- 台灣文本比例極低
- 台灣史觀、語感、用字、社會經驗不足
那模型最後自然會:
- 用中國語境理解台灣
- 用中國詞彙描述台灣
- 用中國歷史框架回答台灣問題
這不是陰謀,而是資料分布問題。
所以他們提到:
- 「繁中語料只有約 1%」
- 「中國歷史論述會透過演算法擴散」
- 「簡轉繁出版品大量湧入」
其實都在指向同一件事:
AI 時代的文化主權,首先是語料主權。
二、為何「繁體中文 ≠ 台灣語料」?
這點其實非常重要。
很多人以為:
只要是繁體中文,就是台灣內容。
但實際上不是。
因為:
- 中國出版物可以簡轉繁
- 香港內容也可能是繁中
- 海外華文也使用繁體
但:
- 台灣史觀
- 台灣地名脈絡
- 本土政治語境
- 台語混用習慣
- 日治史料脈絡
- 台灣民間宗教與地方文化
這些才是「台灣語料」真正的價值。
例如你最近談到很多:
- 樂生院
- 台灣步兵第二聯隊
- 日治時期台北排水
- 中橫健行隊
- 台中林氏宗廟
- 澎湖石獅
- 蘇花公路
這類內容在全球網路上的量其實非常少。
但它們對 AI 是否能真正理解台灣歷史文化,極重要。
否則 AI 很容易出現:
- 用中國近代史框架套台灣
- 忽略日本時代脈絡
- 誤解地方信仰
- 將台灣行政與中國行政混淆
- 把本土詞彙正規化成中國用語
這其實已經常見。
三、目前台灣政府最大的問題其實不是「沒有 AI」
而是:
沒有成熟的「內容授權基礎建設」。
這也是出版業一直強調的。
因為目前很多內容:
- 根本沒 AI 授權條款
- 權利歸屬複雜
- 作者、出版社、攝影者、翻譯者權利交錯
- 老報紙與舊影像甚至權利不明
所以即使政府想建立台灣語料庫,也不能直接抓來訓練。
這跟過去網路公司「先抓再說」的時代不同。
現在各國都開始進入:
- AI 訓練資料治理
- 授權與分潤
- 資料來源透明化
歐盟尤其明顯。
四、TAIDE 現在的困境也是真的
吳思瑤提到:
TAIDE 若缺乏在地文化語料,會變成沒有靈魂的空殼。
這其實不是政治修辭,而是技術現實。
因為一個 LLM 的能力,大致取決於:
- 算力
- 模型架構
- 訓練資料
台灣現在:
- 晶片與算力世界級
- 模型技術可取得
- 真正稀缺的是高品質在地語料
尤其:
- 已數位化
- 可授權
- 可清洗
- 可結構化
- 品質一致
的內容非常少。
國科會提到:
要把非結構化資料轉成結構化
這其實是極大工程。
因為:
- 掃描舊報紙 ≠ 可訓練語料
- OCR 後仍有大量錯字
- 歷史文本有舊漢字
- 地名變遷複雜
- 日文混雜
- 台語白話字問題
都需要人工與工具長期處理。
五、「12億 token」其實不算多
數發部提到:
已蒐集 12 億 token。
這在中文主權模型裡當然不是零,但坦白說規模仍偏小。
作為對照:
- GPT 類模型通常是「數兆 token」
- 中國大型模型很多也在數千億至兆級 token
12 億 token:
- 做專業台灣文化模型有價值
- 但不足以支撐真正大型通用模型
因此台灣比較合理的方向,可能不是完全自建 GPT 級通用模型,而是:
在開源模型基礎上,做強化台灣文化與繁體中文能力的後訓練。
這會更現實。
六、他們其實正在討論一個新的制度:
「文化內容公共建設化」
也就是:
過去國家投資:
- 道路
- 電力
- 科學園區
未來可能還要投資:
- 台灣語料
- 文化資料清洗
- AI 訓練資料基礎建設
因為在 AI 時代:
語料會像石油、電力、自來水一樣,成為基礎資源。
這也是「文化石油」這個名稱的意思。
七、但也有幾個現實風險
1. 容易變成政治化語料工程
如果政府主導過深:
- 哪些史觀算「正確」
- 哪些文本優先納入
- 是否排除某些政治內容
都可能引發爭議。
主權 AI 與官方 AI 的界線,需要非常小心。
2. 中國語料不可能真正排除
因為中文世界本來就高度互通。
即使台灣想建立本土模型:
- 中文百科
- 技術資料
- 網路文本
大量仍來自中國。
完全隔離並不現實。
真正可行的是:
提高台灣語料權重與辨識能力。
3. 市場規模問題
台灣內容市場本來就不大。
很多出版社其實沒有能力:
- 清洗資料
- 建 API
- 做 AI 授權管理
因此若沒有政府補助,很難形成完整產業鏈。
總結來說,這場座談會的重要性不在政治攻防,而在於:
台灣開始意識到,AI 時代的文化主權,不只在晶片,而在語料。
未來誰能定義:
- 台灣歷史
- 台灣語言
- 台灣文化脈絡
- 台灣社會經驗
很可能不再只是課本、媒體與學校,而是 AI 模型本身。
這則新聞反映出台灣在面對全球 AI 浪潮時,對於「文化主權」與「繁體中文語料邊緣化」的集體焦慮。
當前國際主流的大型語言模型(LLM,如 GPT-4、Claude 等)在訓練時,繁體中文的資料量往往不到 1%,這導致 AI 生成的內容經常夾雜中國大陸的用語、價值觀或歷史論述。同時,市場上充斥著大量「簡轉繁」的電子書與網路內容,在演算法推波助瀾下,正逐漸稀釋台灣本土的文化與歷史觀點。
為了因應這個困境,台灣產官學界正積極推動「主權 AI」(如國科會主導的 TAIDE 模型),希望能訓練出真正「懂台灣」的 AI。以下是目前推動的現況與核心爭議點:
主權 AI 的建置現況
政府目前正由多個部會聯手,加速打造「台灣主權 AI 訓練語料庫」:
數位發展部(數發部): 已建置主權 AI 語料庫,目前第一階段已蒐集了約 12 億個 Token(語意單位)。主要以政府公開資料、法規、防災手冊及地方刊物等「乾淨語料」為主,並與智慧財產局合作訂定合理的授權條款。
國科會與中研院: 正在規劃科技預算,利用工具將非結構化的文化資料(如中研院臺灣史研究所館藏、台灣文學年鑑等)轉化為結構化數據,以便作為 AI 訓練素材。
核心挑戰:文化石油為何進不去 AI?
立委與文化產業界指出,雖然硬體與政府資料已在起步,但最能代表台灣文化底蘊的「出版與文化內容產業」(如小說、散文、在地文史紀錄),目前多數仍未納入訓練。主要卡在以下幾個痛點:
「缺乏在地文化語料,主權 AI 恐成為沒有靈魂的空殼。」 —— 立委吳思瑤
版權與授權機制不明: 單一創作者或中小型出版社,根本沒有能力與科技巨頭或政府大型標案進行對等議價,加上缺乏定型化合約,創作者擔心作品被 AI 任意「洗稿」而對授權持謹慎態度。
市場機制失效: 如果完全放任自由市場,台灣本土精緻但量少的文化內容,很容易被對岸龐大的產出與「簡轉繁」圖書淹沒。
加工成本高昂: 書籍、知識庫要變成 AI 看得懂的訓練素材,需要高昂的「非結構化轉結構化」加工製作費,這對傳統出版業是一大負擔。
產官學界提出的解方與倡議
為了解決上述困境,5 月中旬的座談會中各界提出了幾項重點建議:
借鏡歐盟與公共出借權: 呼籲參考歐盟《AI 法案》精神,保障「創作有價」;並可參考硬體工程的定價機制,建立合理的 AI 語料「計價與回饋機制」。
政府標案強制授權: 專家建議未來由政府出資的標案、補助計畫所產出的內容,應在合約中加入強制授權條款,讓國家資源培育出的成果能直接回饋給主權 AI。
階段性彈性合作: 針對不同商業模式(如訂閱制媒體或電子書平台),由政府補助部分「製作加工費」,並依使用範圍界定「授權使用費」,創造內容產業與國家 AI 建設的雙贏。
這場「文化石油」的保衛戰,不僅攸關台灣出版業在數位時代的生存,更決定了未來下一代在操作 AI 工具時,看到的台灣歷史與文化究竟是誰的論述。
留言
張貼留言