成功 Success > 數位工具
feature picture
Interesting Engineering

「ChatGPT 們」靠上萬本盜版書變聰明?版權問題為何成為 AI 公司的隱憂?

2023-08-24 ifanr 方嘉文
分享
收藏
已完成
已取消

2023 年 7 月,OpenAI 和 Meta 被 3 位美國作家 Sarah Silverman、Christopher Golden 和 Richard Kadrey 起訴,稱兩家公司在未經作者同意的情況下,把他們的書用作素材訓練大模型。

延伸閱讀:每天燒掉 2200 萬成本!OpenAI 被爆明年恐破產,專家怎麼看?AI 商模的未來在哪?
Sarah Silverman 的自傳
作者 Sarah Silverman 的自傳
Vulture

證據?在 OpenAI 案件裡,原告們輸入提示詞後,ChatGPT 能總結出他們的書的內容。在 Meta 案件中,Meta 大模型 LLaMA 的論文裡就寫著,它訓練資料包括一個由 EleutherAI 整理的、名為「The Pile」的素材。The Pile 中又包含了一個名為「Books3」的資料集,內容正是線上盜版圖書資源庫 Bibliotik 的資料。

延伸閱讀:AI 的危險性讓 OpenAI 執行長擔心到失眠!是什麼引起科技領袖的恐懼?

由此可見,當時原告提出的證據還相對「間接」。

直到現在,作家和程式師 Alex Reisner 正式揭露,Meta 的大模型背後到底都盜用了哪些作家的圖書。

讓人意外的是,這些「證據」其實一直都放在明面,但卻一直沒有被揭開,這是為什麼?甚至侵權素材的製造者,還一直堅持說這是件「正義」的事。

17 萬本盜版圖書

Alex Reisner 的「大項目」緣起於好奇心:作為一名作家和電腦程式師,我一直很好奇生成式 AI 系統是用什麼類型書籍來訓練的。

今年夏天,Reisner 開始在 GitHub 和 Hugging Face 等社區找尋答案,最終找上了我們在上文提起的開源資料集 The Pile。然而下載到 The Pile,並不意味著你就能知道 Books3 裡都有什麼書。首先,因為 The Pile 有 800G,大到一般文字編輯器根本沒法看。Reisner 寫了一系列程式才能得以從中提取「Books3」的資訊。沒想到的是,提取出來的資訊裡,並沒有任何帶有書名、作者名等標籤的資料,一切都只是「文本」。

於是,Reisner 又另外寫了一個程式去提取資料中的 ISBN 編號(國際標準書號),並將這些資料和其他線上圖書資料庫進行比對,以辨別出 Books3 中被收錄的具體書籍。

最後,這一步找出了 19 萬個 ISBN 編碼,識別出 17 萬個對應書名(實際書數量可能會略少於這個數,因為其中存在同一本書的不同版本),另外 2 萬個編碼則無法找到對應書名。這些書裡,大約有 1/3 是虛構作品,2/3 是非虛構作品,來自於大大小小不同的出版社。

是的,在這些被識別出的書裡,也包括了文章開篇提到對 OpenAI 和 Meta 提出訴訟的三位作家的書籍,所以可以說是 Meta 的 LLaMA 以盜版書作為訓練素材非常直接的證據了。

此外,我們還能在其中看到《我的天才女友》作者埃萊娜・費蘭特(Elena Ferrante)、《女僕的故事》作者瑪格麗特・阿特伍德(Margaret Atwood)、史蒂芬・金(Stephen King)、村上春樹、著名飲食類作家麥可・波倫(Michael Pollan)、驚悚小說作家詹姆斯・派特森(James Patterson)等人的眾多作品。

除了著名作家的書籍以外,Reisner 還在「Books3」裡找到了「科學教」創始人羅恩・哈伯德(Ron Hubbard)的 102 本低俗小說、90 本信奉「年輕地球創造論」牧師的書,以及「外星人創造論」支持者埃裡希・馮・丹尼肯(Erich von Däniken)的多部作品。

Reisner 在《大西洋月刊》(The Atlantic)的文章中指出,雖然 Books3 資料集在 AI 社區以外認知度不高,但在圈裡挺受歡迎的,「可以下載,但要找到有點難度,想要流覽和分析也同樣具有挑戰性」。像 Reisner 這樣大費周章寫程式來分析比對,並且還精心撰文在大眾媒體上發布,還是首次。

與此同時,AI 圈對 Books3 也有心照不宣的維護,因為以 Books3 創造者的話來說 —— 它是確保生成式 AI 發展不會被大公司壟斷的重要資源。

「盜火者」還是「盜賊」?

如果我們不需要像 Books3 這樣的東西的確會更好。但情況是,如果沒有 Books3,只有 OpenAI 可以做到他們正在做的事情。

Books3 的創造者,獨立開發者 Shawn Presser 對 Reisner 說道。Presser 一開始做 Books3,就是為了給所有開發者「OpenAI 級別的訓練資料」。

2020 年,Presser 下載了一份 Bibliotik 的副本,再改寫了駭客 Aaron Swartz 十多年前寫下的程式,將所有 ePub 格式的圖書轉換成純文字 —— 一種更合適大模型使用的格式。

Shawn Presser
Shawn Presser twitter

至於資料集中部分書的版權資訊出現缺失,Presser 稱那是轉換造成的意外結果,並非自己刻意為之。而 Books3 這個名字,也是呼應了 OpenAI 之前提及的 Books1 和 Books2。

在 2020 年的時候,OpenAI 的論文指出,GPT-3 的訓練資料中包括兩個基於互聯網的書籍資料合集。人們從其體積推測,OpenAI 的 Books1 資料來自於古騰堡計劃(Project Gutenberg)—— 專門收集版權已過期的圖書資源的專案。

「古登堡計畫(Project Gutenberg)」
「古登堡計畫(Project Gutenberg)」—— 專門收集版權已過期的圖書資源的專案。
Project Gutenberg

Books2 的內容是什麼則一直無人知曉,有人從其體積猜是類似 Bibliotik 或 Libgen 的線上盜版圖書庫的數據。

當然,除了書籍的資料外,GPT-3 當時還用了其他資料,如維基百科和其他從網路上抓取下來的文字資訊。這也是為什麼 EleutherAI 整合的 ThePile 裡也同樣包含了大量其他資料,如維基百科、YouTube 影片的字幕等。

即便如此,相比之下,書籍的高品質文本仍然顯得很重要。Meta 曾表示,最開始的 LlaMA-65B 大模型表現沒有其他好,主要是因為它「所使用的書籍以及學術論文數量有限」。MIT 和康奈爾大學合作的論文也指出,書籍在大模型訓練資料中「對下游表現有最強正面效果的」。所以我們會在 Meta 後來推出的 LlaMA 2 訓練資料中看到 The Pile 和其中的 Books3。

這也是為什麼,當 Books3 最近因丹麥反盜版組織 Rights Alliance 投訴侵權而被下架時,Presser 感到憤慨不平。在他看來,所有牟利的大公司在私底下都把侵權內容拿來訓練自己的大模型,但又因為他們不公開其訓練資料,因此沒人能告得了他們。而 Books3 被下架,卻正是因為他希望讓大模型更開放和有更高透明度而主動公開資料來源。

Presser 強調,我們不能讓財大氣粗的大公司壟斷這項在重塑我們文化的重要技術,而是要讓所有人都有資源去建立自己的大模型:我的目標要讓所有人都能(建造這些大模型)。除非書籍的作者有方法能把 ChatGPT 拉下線,或者告到他們關門,否則讓你和我都能建造自己的 ChatGPT 是非常必要的。正如在 90 年代的時候,去保證任何人都能設立自己的網站一樣重要。

至於把 ChatGPT 告到下線,也不是完全沒有可能。

人人都在告 AI 巨頭

明星作家發起的官司也許引來更多關注,但擁有把 ChatGPT 告到「重造」的潛力的,卻是傳統新聞媒體。上周,NPR 報導援引知情人士消息稱《紐約時報》正在考慮起訴 OpenAI。

在過去幾周裡,《紐約時報》都在和 OpenAI 就授權協定談判。然而,談判進展似乎不太順利,以至於《紐約時報》都開始考慮就侵權告 OpenAI 了。

報導稱,聯邦版權法規定,違法者每項「蓄意」侵權行為最高可罰 15 萬美元,再結合《紐約時報》的文章數量,這個金額疊加起來「對於一家公司來說可能是致命的」。

除此以外,如果法官判定 OpenAI 的確非法拿了《紐約時報》的文章來訓練大模型,法院也可以命令 OpenAI 銷毀 ChatGPT 的資料集,強制它僅用已獲得授權的作品來重新訓練和創造 ChatGPT。

《紐約時報》
BrookField

無論是原告是《紐約時報》還是書籍作家,這些官司(或潛在官司)能否勝訴,關鍵都在於 AI 巨頭們是否能把這些資訊的使用說成「合理使用」—— 即在特定情況下,可允許不經許可去使用特定作品,譬如教學、評論、研究和報導等。

支援「合理使用」的人有兩個論點:生成式 AI 並不會重現它們用於訓練的書籍本身,而是創造新內容;那些新內容並不會損害原本作品的市場。

紐約大學科技法律與政策診所的負責人 Jason Schultz 稱,在圖書被盜用方面,這個論據還挺有力的。但《紐約時報》的律師則堅持,OpenAI 對報紙文章的使用並不合乎「合理使用」。

假如用戶能通過 AI 聊天機器人,獲取文章中提及的新聞事件描述,用戶可能就不會再去找文章閱讀了,因此有可能會成為新聞文章的替代品,影響了原有市場。

法律博主樊百樂指出,智慧財產權法並非一成不變,但其核心卻很堅定 —— 繁榮創作市場。如果連估值數百億美元的 AI 公司,都可以不付一分版權費,免費把作家耗費數年心血創作的作品拿去牟利,甚至盜用這些書去訓練出意圖替代作家的工具,這對創作者而言無疑是致命打擊。Presser 談論到的「資料不公平」問題,也不應是侵犯創作者權利的藉口。

版權問題終究會是決定 AI 能走多遠的其中一個關鍵因素。范德堡大學智慧財產權專案聯席主任 Daniel Gervais 認為:

版權法是一把懸在 AI 公司頭上的利劍,除非它們想出如何協商解決方案,否則這把劍未來幾年都會懸在它們頭上。

這一切只是新階段的開始。

最後整理了部分仍在進行中的 AI 公司侵權訴訟,以供參考:

AI 公司侵權訴訟
ifanr

(本文出自 ifanr

繼續閱讀 AI
相關文章
成功 Success > 目標管理
feature picture
陳姿伶製圖

寫下你的 2026 夢想清單:用原子習慣累積 365 天小勝利,活成自己期待的模樣

2025-11-04 經理人用戶成長中心 羅秀如
分享
收藏
已完成
已取消

2025 年來到尾聲。每年到這個時刻,總會冒出一句熟悉的想法:明年,我想過得更好。

但什麼叫「更好」?是更健康?收入更穩?心情更平靜?或是有更多屬於自己的時間和能力?

如果沒有策略,「更好」常常只會停留在願望。今年,我們換個作法,用能執行、能追蹤、能累積的方式,踏實帶你走向 2026。

向大谷翔平學習:把大目標拆成小任務

棒球巨星大谷翔平曾用九宮格清晰規劃自己的訓練與目標,完成投打二刀流的成就,並多次榮獲 MLB MVP。同樣,台灣柔道選手楊勇緯也借助類似的目標管理方法,精準掌控技術與心態,在奧運舞台上奪得銀牌。

他們的成功不僅來自天賦,更來自具體化目標,並持續行動。

這也正是經理人「商管 LAB」推出「改變人生的目標實踐法」線上課與「理想生活實踐模版」 的核心精神:這套模版並非僅僅是一張表單,而是專為目標管理與實現設計的全方位實用工具。

它結合科學化的九宮格規劃、每日習慣追蹤與復盤日記 3 大核心功能,幫助你將腦海中的構想變成具體行動,再透過持續執行,讓每個小步驟累積成可見成果。

九宮格設計理念:從抽象到具體,畫出你的夢想藍圖

經理人

在我們的模版中,九宮格是將夢想拆解為具體行動的關鍵工具。首先,你需要在格子的中心寫下最核心的夢想,例如「2026年加薪」或「學會第二外語」。接著,將這個夢想拆解為 4 大面向:

屬於自己的計畫: 專注於提升個人技能。
與他人相關的目標: 例如促進合作或建立深厚人際關係。
具體可衡量的成就: 像是考證照、優化履歷表,讓進步變得可見。
無形但深具價值的追求: 比如改善情緒管理或建立正向心態。

經理人

為了協助你思考,我們設計了 2 種九宮格邏輯:

1.放射型思考: 適合初期發想,無需拘泥順序,將所有相關的想法填入九宮格。這種水平式的思考,能激發你的創意靈感,從而找出未曾考慮的目標或行動計畫。

2.螺旋型思考: 適合具體執行階段,從核心目標開始,順時針依次填寫各步驟,建立因果關係,使目標的拆解更有深度。

理想生活實踐模版設計了「AI 目標規劃師」ChatGPT小助手。
陳姿伶製圖

AI 規劃管理師:透過提問釐清思緒,拆解目標與步驟

如果你在規劃時卡關,我們特別設計了一個 ChatGPT 小助手「AI 規劃管理師」,頁面上設有兩個選項:「工作目標拆解」 與 「生活目標拆解」,針對不同面向提供貼心的支持。例如,點選「工作目標拆解」後,GPTs 小助手將引導你輸入以下資訊:

產業與職位: 目前在哪個產業?擔任什麼職位?
工作內容: 你的日常工作任務有哪些?
目標描述: 希望在什麼時間範圍內,達成什麼具體目標?
其他背景資訊: 目標的動機是什麼?是否已經有一些相關的資源、技能或挑戰?

根據你的回答,「AI 規劃管理師」會幫助你拆解出 8 個適合的子目標,並提供具體行動指引,讓方向與步驟更清楚。

每日習慣追蹤:累積微小成就,見證巨大改變

善用每日追蹤,輕鬆培養原子習慣.jpg
陳姿伶製圖

如果九宮格是你的目標地圖,那麼每日習慣追蹤就是實現目標的動力來源。許多人在開始目標管理時,最大的挑戰是如何克服惰性。

我們的模版不僅提供了簡單易用的習慣打卡系統,還加入了一項充滿趣味與激勵的設計:根據完成率,讓你的數據以花朵的形式呈現。

每日打卡建立好習慣,朝理想生活邁進.jpg
陳姿伶製圖

你可以寫下「每天運動 20 分鐘」、「早晨冥想 5~10 分鐘」等想要培養的原子習慣。每天完成後,只需在方格內打勾,就能立即看到數據變化,得到成就感。

隨著完成率逐步提升,一朵小芽會慢慢成長,最終開展成一朵盛開的花朵,象徵你在習慣培養路上的累積與突破。這項設計不僅提升了記錄過程的趣味性,更讓數據從冷冰冰的數字,轉化為溫暖的視覺回饋。

同時,進度視覺化圖表也能幫助你清晰檢視每週、每月的習慣達成率,即使偶有波動,整體數據仍然展現你的堅持與努力。

復盤日記:每天的溫暖對話與反思

透過每日情緒、行動與反思紀錄,追蹤進步與調整方向。
經理人

忙碌的生活中,我們很少停下來與自己對話,在復盤日記中,除了「心情指數」、「睡眠狀態」這些反映身心健康的欄位,我們特別設計了以下提問:

值得讚美自己的 3 件事: 寫下讓你感到自豪的小事,大方的給自己一個肯定。

經歷 3 件美好的事物: 也許是一頓可口的晚餐、他人一句貼心的問候……,透過記錄,將溫暖的瞬間重新珍藏。

今天學到了什麼: 你可以把這一欄當成心願清單,像是「多花幾分鐘陪伴家人」、「面對壓力記得深呼吸」,每一個改善的想法,都是邁向更好的自己。

如果真的想不到要寫什麼,我們在模板中設計了小錦囊,只要跟著提示走,就能幫助你反思過去、挖掘生活中的動力來源,讓每一天都成為邁向夢想的墊腳石。

你的 2026,從寫下第一格開始

經理人

這份「理想生活實踐模版」不僅是一份工具,更是你實現理想生活的指南。搭配「改變人生的目標實踐法」線上課,幫助你從目標的構想到具體實踐,讓夢想變得觸手可及。

今天就開始,寫下你的第一個九宮格,打卡你的第一個好習慣,記錄你的第一份復盤日記。讓我們共同期待,一年後,你所繪出的夢想清單,會變成最動人的故事。

相關文章
會員專區

使用會員功能前,請先登入

  • 台灣首款對話式 AI 職場教練,一次提升領導力
  • 會員專享每日運勢、名人金句抽籤
  • 收藏文章、追蹤作者,享受個人化學習頁面
  • 定向學習!20 大關鍵字,開放自選、訂閱
  • 解鎖下載專區!10+ 會員專刊一次載
追蹤我們