「ChatGPT 們」靠上萬本盜版書變聰明？版權問題為何成為 AI 公司的隱憂？|經理人

2023 年 7 月，OpenAI 和 Meta 被 3 位美國作家 Sarah Silverman、Christopher Golden 和 Richard Kadrey 起訴，稱兩家公司在未經作者同意的情況下，把他們的書用作素材訓練大模型。

證據？在 OpenAI 案件裡，原告們輸入提示詞後，ChatGPT 能總結出他們的書的內容。在 Meta 案件中，Meta 大模型 LLaMA 的論文裡就寫著，它訓練資料包括一個由 EleutherAI 整理的、名為「The Pile」的素材。The Pile 中又包含了一個名為「Books3」的資料集，內容正是線上盜版圖書資源庫 Bibliotik 的資料。

由此可見，當時原告提出的證據還相對「間接」。

直到現在，作家和程式師 Alex Reisner 正式揭露，Meta 的大模型背後到底都盜用了哪些作家的圖書。

讓人意外的是，這些「證據」其實一直都放在明面，但卻一直沒有被揭開，這是為什麼？甚至侵權素材的製造者，還一直堅持說這是件「正義」的事。

17 萬本盜版圖書

Alex Reisner 的「大項目」緣起於好奇心：作為一名作家和電腦程式師，我一直很好奇生成式 AI 系統是用什麼類型書籍來訓練的。

今年夏天，Reisner 開始在 GitHub 和 Hugging Face 等社區找尋答案，最終找上了我們在上文提起的開源資料集 The Pile。然而下載到 The Pile，並不意味著你就能知道 Books3 裡都有什麼書。首先，因為 The Pile 有 800G，大到一般文字編輯器根本沒法看。Reisner 寫了一系列程式才能得以從中提取「Books3」的資訊。沒想到的是，提取出來的資訊裡，並沒有任何帶有書名、作者名等標籤的資料，一切都只是「文本」。

於是，Reisner 又另外寫了一個程式去提取資料中的 ISBN 編號（國際標準書號），並將這些資料和其他線上圖書資料庫進行比對，以辨別出 Books3 中被收錄的具體書籍。

最後，這一步找出了 19 萬個 ISBN 編碼，識別出 17 萬個對應書名（實際書數量可能會略少於這個數，因為其中存在同一本書的不同版本），另外 2 萬個編碼則無法找到對應書名。這些書裡，大約有 1/3 是虛構作品，2/3 是非虛構作品，來自於大大小小不同的出版社。

是的，在這些被識別出的書裡，也包括了文章開篇提到對 OpenAI 和 Meta 提出訴訟的三位作家的書籍，所以可以說是 Meta 的 LLaMA 以盜版書作為訓練素材非常直接的證據了。

此外，我們還能在其中看到《我的天才女友》作者埃萊娜・費蘭特（Elena Ferrante）、《女僕的故事》作者瑪格麗特・阿特伍德（Margaret Atwood）、史蒂芬・金（Stephen King）、村上春樹、著名飲食類作家麥可・波倫（Michael Pollan）、驚悚小說作家詹姆斯・派特森（James Patterson）等人的眾多作品。

除了著名作家的書籍以外，Reisner 還在「Books3」裡找到了「科學教」創始人羅恩・哈伯德（Ron Hubbard）的 102 本低俗小說、90 本信奉「年輕地球創造論」牧師的書，以及「外星人創造論」支持者埃裡希・馮・丹尼肯（Erich von Däniken）的多部作品。

Reisner 在《大西洋月刊》（The Atlantic）的文章中指出，雖然 Books3 資料集在 AI 社區以外認知度不高，但在圈裡挺受歡迎的，「可以下載，但要找到有點難度，想要流覽和分析也同樣具有挑戰性」。像 Reisner 這樣大費周章寫程式來分析比對，並且還精心撰文在大眾媒體上發布，還是首次。

與此同時，AI 圈對 Books3 也有心照不宣的維護，因為以 Books3 創造者的話來說 —— 它是確保生成式 AI 發展不會被大公司壟斷的重要資源。

「盜火者」還是「盜賊」？

如果我們不需要像 Books3 這樣的東西的確會更好。但情況是，如果沒有 Books3，只有 OpenAI 可以做到他們正在做的事情。

Books3 的創造者，獨立開發者 Shawn Presser 對 Reisner 說道。Presser 一開始做 Books3，就是為了給所有開發者「OpenAI 級別的訓練資料」。

2020 年，Presser 下載了一份 Bibliotik 的副本，再改寫了駭客 Aaron Swartz 十多年前寫下的程式，將所有 ePub 格式的圖書轉換成純文字 —— 一種更合適大模型使用的格式。

至於資料集中部分書的版權資訊出現缺失，Presser 稱那是轉換造成的意外結果，並非自己刻意為之。而 Books3 這個名字，也是呼應了 OpenAI 之前提及的 Books1 和 Books2。

在 2020 年的時候，OpenAI 的論文指出，GPT-3 的訓練資料中包括兩個基於互聯網的書籍資料合集。人們從其體積推測，OpenAI 的 Books1 資料來自於古騰堡計劃（Project Gutenberg）—— 專門收集版權已過期的圖書資源的專案。

「古登堡計畫（Project Gutenberg）」
「古登堡計畫（Project Gutenberg）」—— 專門收集版權已過期的圖書資源的專案。

Project Gutenberg

Books2 的內容是什麼則一直無人知曉，有人從其體積猜是類似 Bibliotik 或 Libgen 的線上盜版圖書庫的數據。

當然，除了書籍的資料外，GPT-3 當時還用了其他資料，如維基百科和其他從網路上抓取下來的文字資訊。這也是為什麼 EleutherAI 整合的 ThePile 裡也同樣包含了大量其他資料，如維基百科、YouTube 影片的字幕等。

即便如此，相比之下，書籍的高品質文本仍然顯得很重要。Meta 曾表示，最開始的 LlaMA-65B 大模型表現沒有其他好，主要是因為它「所使用的書籍以及學術論文數量有限」。MIT 和康奈爾大學合作的論文也指出，書籍在大模型訓練資料中「對下游表現有最強正面效果的」。所以我們會在 Meta 後來推出的 LlaMA 2 訓練資料中看到 The Pile 和其中的 Books3。

這也是為什麼，當 Books3 最近因丹麥反盜版組織 Rights Alliance 投訴侵權而被下架時，Presser 感到憤慨不平。在他看來，所有牟利的大公司在私底下都把侵權內容拿來訓練自己的大模型，但又因為他們不公開其訓練資料，因此沒人能告得了他們。而 Books3 被下架，卻正是因為他希望讓大模型更開放和有更高透明度而主動公開資料來源。

Presser 強調，我們不能讓財大氣粗的大公司壟斷這項在重塑我們文化的重要技術，而是要讓所有人都有資源去建立自己的大模型：我的目標要讓所有人都能（建造這些大模型）。除非書籍的作者有方法能把 ChatGPT 拉下線，或者告到他們關門，否則讓你和我都能建造自己的 ChatGPT 是非常必要的。正如在 90 年代的時候，去保證任何人都能設立自己的網站一樣重要。

至於把 ChatGPT 告到下線，也不是完全沒有可能。

人人都在告 AI 巨頭

明星作家發起的官司也許引來更多關注，但擁有把 ChatGPT 告到「重造」的潛力的，卻是傳統新聞媒體。上周，NPR 報導援引知情人士消息稱《紐約時報》正在考慮起訴 OpenAI。

在過去幾周裡，《紐約時報》都在和 OpenAI 就授權協定談判。然而，談判進展似乎不太順利，以至於《紐約時報》都開始考慮就侵權告 OpenAI 了。

報導稱，聯邦版權法規定，違法者每項「蓄意」侵權行為最高可罰 15 萬美元，再結合《紐約時報》的文章數量，這個金額疊加起來「對於一家公司來說可能是致命的」。

除此以外，如果法官判定 OpenAI 的確非法拿了《紐約時報》的文章來訓練大模型，法院也可以命令 OpenAI 銷毀 ChatGPT 的資料集，強制它僅用已獲得授權的作品來重新訓練和創造 ChatGPT。

無論是原告是《紐約時報》還是書籍作家，這些官司（或潛在官司）能否勝訴，關鍵都在於 AI 巨頭們是否能把這些資訊的使用說成「合理使用」—— 即在特定情況下，可允許不經許可去使用特定作品，譬如教學、評論、研究和報導等。

支援「合理使用」的人有兩個論點：生成式 AI 並不會重現它們用於訓練的書籍本身，而是創造新內容；那些新內容並不會損害原本作品的市場。

紐約大學科技法律與政策診所的負責人 Jason Schultz 稱，在圖書被盜用方面，這個論據還挺有力的。但《紐約時報》的律師則堅持，OpenAI 對報紙文章的使用並不合乎「合理使用」。

假如用戶能通過 AI 聊天機器人，獲取文章中提及的新聞事件描述，用戶可能就不會再去找文章閱讀了，因此有可能會成為新聞文章的替代品，影響了原有市場。

法律博主樊百樂指出，智慧財產權法並非一成不變，但其核心卻很堅定 —— 繁榮創作市場。如果連估值數百億美元的 AI 公司，都可以不付一分版權費，免費把作家耗費數年心血創作的作品拿去牟利，甚至盜用這些書去訓練出意圖替代作家的工具，這對創作者而言無疑是致命打擊。Presser 談論到的「資料不公平」問題，也不應是侵犯創作者權利的藉口。

版權問題終究會是決定 AI 能走多遠的其中一個關鍵因素。范德堡大學智慧財產權專案聯席主任 Daniel Gervais 認為：

版權法是一把懸在 AI 公司頭上的利劍，除非它們想出如何協商解決方案，否則這把劍未來幾年都會懸在它們頭上。

這一切只是新階段的開始。

最後整理了部分仍在進行中的 AI 公司侵權訴訟，以供參考：

（本文出自 ifanr）

「ChatGPT 們」靠上萬本盜版書變聰明？版權問題為何成為 AI 公司的隱憂？

17 萬本盜版圖書

「盜火者」還是「盜賊」？

人人都在告 AI 巨頭

追蹤我們

追蹤我們

使用會員功能前，請先登入