成功 Success > 數位工具
feature picture
Interesting Engineering

「ChatGPT 們」靠上萬本盜版書變聰明?版權問題為何成為 AI 公司的隱憂?

2023-08-24 ifanr 方嘉文
分享
收藏
已完成
已取消

2023 年 7 月,OpenAI 和 Meta 被 3 位美國作家 Sarah Silverman、Christopher Golden 和 Richard Kadrey 起訴,稱兩家公司在未經作者同意的情況下,把他們的書用作素材訓練大模型。

延伸閱讀:每天燒掉 2200 萬成本!OpenAI 被爆明年恐破產,專家怎麼看?AI 商模的未來在哪?
Sarah Silverman 的自傳
作者 Sarah Silverman 的自傳
Vulture

證據?在 OpenAI 案件裡,原告們輸入提示詞後,ChatGPT 能總結出他們的書的內容。在 Meta 案件中,Meta 大模型 LLaMA 的論文裡就寫著,它訓練資料包括一個由 EleutherAI 整理的、名為「The Pile」的素材。The Pile 中又包含了一個名為「Books3」的資料集,內容正是線上盜版圖書資源庫 Bibliotik 的資料。

延伸閱讀:AI 的危險性讓 OpenAI 執行長擔心到失眠!是什麼引起科技領袖的恐懼?

由此可見,當時原告提出的證據還相對「間接」。

直到現在,作家和程式師 Alex Reisner 正式揭露,Meta 的大模型背後到底都盜用了哪些作家的圖書。

讓人意外的是,這些「證據」其實一直都放在明面,但卻一直沒有被揭開,這是為什麼?甚至侵權素材的製造者,還一直堅持說這是件「正義」的事。

17 萬本盜版圖書

Alex Reisner 的「大項目」緣起於好奇心:作為一名作家和電腦程式師,我一直很好奇生成式 AI 系統是用什麼類型書籍來訓練的。

今年夏天,Reisner 開始在 GitHub 和 Hugging Face 等社區找尋答案,最終找上了我們在上文提起的開源資料集 The Pile。然而下載到 The Pile,並不意味著你就能知道 Books3 裡都有什麼書。首先,因為 The Pile 有 800G,大到一般文字編輯器根本沒法看。Reisner 寫了一系列程式才能得以從中提取「Books3」的資訊。沒想到的是,提取出來的資訊裡,並沒有任何帶有書名、作者名等標籤的資料,一切都只是「文本」。

於是,Reisner 又另外寫了一個程式去提取資料中的 ISBN 編號(國際標準書號),並將這些資料和其他線上圖書資料庫進行比對,以辨別出 Books3 中被收錄的具體書籍。

最後,這一步找出了 19 萬個 ISBN 編碼,識別出 17 萬個對應書名(實際書數量可能會略少於這個數,因為其中存在同一本書的不同版本),另外 2 萬個編碼則無法找到對應書名。這些書裡,大約有 1/3 是虛構作品,2/3 是非虛構作品,來自於大大小小不同的出版社。

是的,在這些被識別出的書裡,也包括了文章開篇提到對 OpenAI 和 Meta 提出訴訟的三位作家的書籍,所以可以說是 Meta 的 LLaMA 以盜版書作為訓練素材非常直接的證據了。

此外,我們還能在其中看到《我的天才女友》作者埃萊娜・費蘭特(Elena Ferrante)、《女僕的故事》作者瑪格麗特・阿特伍德(Margaret Atwood)、史蒂芬・金(Stephen King)、村上春樹、著名飲食類作家麥可・波倫(Michael Pollan)、驚悚小說作家詹姆斯・派特森(James Patterson)等人的眾多作品。

除了著名作家的書籍以外,Reisner 還在「Books3」裡找到了「科學教」創始人羅恩・哈伯德(Ron Hubbard)的 102 本低俗小說、90 本信奉「年輕地球創造論」牧師的書,以及「外星人創造論」支持者埃裡希・馮・丹尼肯(Erich von Däniken)的多部作品。

Reisner 在《大西洋月刊》(The Atlantic)的文章中指出,雖然 Books3 資料集在 AI 社區以外認知度不高,但在圈裡挺受歡迎的,「可以下載,但要找到有點難度,想要流覽和分析也同樣具有挑戰性」。像 Reisner 這樣大費周章寫程式來分析比對,並且還精心撰文在大眾媒體上發布,還是首次。

與此同時,AI 圈對 Books3 也有心照不宣的維護,因為以 Books3 創造者的話來說 —— 它是確保生成式 AI 發展不會被大公司壟斷的重要資源。

「盜火者」還是「盜賊」?

如果我們不需要像 Books3 這樣的東西的確會更好。但情況是,如果沒有 Books3,只有 OpenAI 可以做到他們正在做的事情。

Books3 的創造者,獨立開發者 Shawn Presser 對 Reisner 說道。Presser 一開始做 Books3,就是為了給所有開發者「OpenAI 級別的訓練資料」。

2020 年,Presser 下載了一份 Bibliotik 的副本,再改寫了駭客 Aaron Swartz 十多年前寫下的程式,將所有 ePub 格式的圖書轉換成純文字 —— 一種更合適大模型使用的格式。

Shawn Presser
Shawn Presser twitter

至於資料集中部分書的版權資訊出現缺失,Presser 稱那是轉換造成的意外結果,並非自己刻意為之。而 Books3 這個名字,也是呼應了 OpenAI 之前提及的 Books1 和 Books2。

在 2020 年的時候,OpenAI 的論文指出,GPT-3 的訓練資料中包括兩個基於互聯網的書籍資料合集。人們從其體積推測,OpenAI 的 Books1 資料來自於古騰堡計劃(Project Gutenberg)—— 專門收集版權已過期的圖書資源的專案。

「古登堡計畫(Project Gutenberg)」
「古登堡計畫(Project Gutenberg)」—— 專門收集版權已過期的圖書資源的專案。
Project Gutenberg

Books2 的內容是什麼則一直無人知曉,有人從其體積猜是類似 Bibliotik 或 Libgen 的線上盜版圖書庫的數據。

當然,除了書籍的資料外,GPT-3 當時還用了其他資料,如維基百科和其他從網路上抓取下來的文字資訊。這也是為什麼 EleutherAI 整合的 ThePile 裡也同樣包含了大量其他資料,如維基百科、YouTube 影片的字幕等。

即便如此,相比之下,書籍的高品質文本仍然顯得很重要。Meta 曾表示,最開始的 LlaMA-65B 大模型表現沒有其他好,主要是因為它「所使用的書籍以及學術論文數量有限」。MIT 和康奈爾大學合作的論文也指出,書籍在大模型訓練資料中「對下游表現有最強正面效果的」。所以我們會在 Meta 後來推出的 LlaMA 2 訓練資料中看到 The Pile 和其中的 Books3。

這也是為什麼,當 Books3 最近因丹麥反盜版組織 Rights Alliance 投訴侵權而被下架時,Presser 感到憤慨不平。在他看來,所有牟利的大公司在私底下都把侵權內容拿來訓練自己的大模型,但又因為他們不公開其訓練資料,因此沒人能告得了他們。而 Books3 被下架,卻正是因為他希望讓大模型更開放和有更高透明度而主動公開資料來源。

Presser 強調,我們不能讓財大氣粗的大公司壟斷這項在重塑我們文化的重要技術,而是要讓所有人都有資源去建立自己的大模型:我的目標要讓所有人都能(建造這些大模型)。除非書籍的作者有方法能把 ChatGPT 拉下線,或者告到他們關門,否則讓你和我都能建造自己的 ChatGPT 是非常必要的。正如在 90 年代的時候,去保證任何人都能設立自己的網站一樣重要。

至於把 ChatGPT 告到下線,也不是完全沒有可能。

人人都在告 AI 巨頭

明星作家發起的官司也許引來更多關注,但擁有把 ChatGPT 告到「重造」的潛力的,卻是傳統新聞媒體。上周,NPR 報導援引知情人士消息稱《紐約時報》正在考慮起訴 OpenAI。

在過去幾周裡,《紐約時報》都在和 OpenAI 就授權協定談判。然而,談判進展似乎不太順利,以至於《紐約時報》都開始考慮就侵權告 OpenAI 了。

報導稱,聯邦版權法規定,違法者每項「蓄意」侵權行為最高可罰 15 萬美元,再結合《紐約時報》的文章數量,這個金額疊加起來「對於一家公司來說可能是致命的」。

除此以外,如果法官判定 OpenAI 的確非法拿了《紐約時報》的文章來訓練大模型,法院也可以命令 OpenAI 銷毀 ChatGPT 的資料集,強制它僅用已獲得授權的作品來重新訓練和創造 ChatGPT。

《紐約時報》
BrookField

無論是原告是《紐約時報》還是書籍作家,這些官司(或潛在官司)能否勝訴,關鍵都在於 AI 巨頭們是否能把這些資訊的使用說成「合理使用」—— 即在特定情況下,可允許不經許可去使用特定作品,譬如教學、評論、研究和報導等。

支援「合理使用」的人有兩個論點:生成式 AI 並不會重現它們用於訓練的書籍本身,而是創造新內容;那些新內容並不會損害原本作品的市場。

紐約大學科技法律與政策診所的負責人 Jason Schultz 稱,在圖書被盜用方面,這個論據還挺有力的。但《紐約時報》的律師則堅持,OpenAI 對報紙文章的使用並不合乎「合理使用」。

假如用戶能通過 AI 聊天機器人,獲取文章中提及的新聞事件描述,用戶可能就不會再去找文章閱讀了,因此有可能會成為新聞文章的替代品,影響了原有市場。

法律博主樊百樂指出,智慧財產權法並非一成不變,但其核心卻很堅定 —— 繁榮創作市場。如果連估值數百億美元的 AI 公司,都可以不付一分版權費,免費把作家耗費數年心血創作的作品拿去牟利,甚至盜用這些書去訓練出意圖替代作家的工具,這對創作者而言無疑是致命打擊。Presser 談論到的「資料不公平」問題,也不應是侵犯創作者權利的藉口。

版權問題終究會是決定 AI 能走多遠的其中一個關鍵因素。范德堡大學智慧財產權專案聯席主任 Daniel Gervais 認為:

版權法是一把懸在 AI 公司頭上的利劍,除非它們想出如何協商解決方案,否則這把劍未來幾年都會懸在它們頭上。

這一切只是新階段的開始。

最後整理了部分仍在進行中的 AI 公司侵權訴訟,以供參考:

AI 公司侵權訴訟
ifanr

(本文出自 ifanr

繼續閱讀 AI
相關文章
商業 Business > 經營策略
feature picture
南港國際skypark

交通、機能、綠意一次到位!「南港國際SKY PARK」打造未來生活典範

2025-08-01 經理人X南港國際skypark
分享
收藏
已完成
已取消

隨著工作生活一體化成為現代菁英的生活常態,對住宅的定義早已不再僅限於居住空間,而是講求效率、生活品味與地段價值的綜合體驗。

坐落於南港核心的「南港國際SKYPARK」,以東京指標性開發案「麻布台之丘」為靈感,融合住宅、商場、飯店、辦公、公園5大創新機能,打造出一座全方位的生活聚落,精準回應新世代菁英的居住需求,開創城市菁英住宅的嶄新格局。

從工業重鎮到科技金融軸帶,南港成台北新核心

「南港國際SKY PARK」是由國泰集團領軍,匯聚旗下國泰人壽、國泰建設、國泰商旅等事業體資源,並攜手三商美邦人壽及華泰大飯店集團聯手打造而成。

該基地前身曾是台鐵的南港客車調車場,隨著政府啟動「東區門戶計畫」推動都市更新,轉型成為占地高達1.65萬坪的複合式開發案,不僅是目前全台最大規模的公辦民營都更案,更被譽為「台北東區新地標」,將引領南港邁向國際生活新風貌。

回顧南港的發展脈絡,它始終是台灣重要的產業與交通節點。從最早期的港口貿易村落、1970年代的工業重鎮、到近年因應都市計畫與跨區重劃,逐步轉型為科技與文創產業匯聚的智慧特區。

南港國際skypark
南港國際SKYPARK
南港國際skypark

現今南港不只有展覽館、台北流行音樂中心等大型場館,更聚集多座產業園區,包括南港軟體園區、國家生技研究園區及台北生技園區。此外,隨著信義計劃區與內湖科學園區腹地日益飽和,越來越多大型企業將目光轉向南港,進駐此地的商辦大樓或在此設立企業總部,例如,中國信託、Nvidia、台灣微軟、IBM、Intel、聯強國際、展碁國際等國際與本土指標企業,形成一條完整的金融科技走廊。未來隨著企業群聚效應擴大、就業人口增加,對中高端住宅的需求勢必同步提升。

面對南港正快速成長的居住需求,「南港國際 SKY PARK」以國際城中城為定位,打造出All in One複合式生活場域,融合住宅、商辦、商場與綠地,提供完整且便利的日常機能,並透過以下三大特色,實現兼顧交通、機能與綠意的城市新生活。

特色1、多元交通系統,串連城市生活軸線

「南港國際 SKY PARK」所坐落的地段,正處於這場城市變革的核心要位,讓住戶可以享有多元且便利的交通選擇。

倘若是習慣自行開車的人,「南港國際 SKY PARK」週邊坐擁3條東西向主幹道--忠孝東路七段、市民大道七段與南港路,皆為貫穿台北市的重要交通動脈,可快速抵達信義計畫區、饒河夜市或松山商圈,或可經由附近的成功橋與成美橋直通內湖科技園區,且車程多在15分鐘內,無論是通勤、逛街或與親友聚餐皆相當快速方便。

南港國際skypark
信義計畫區、松山商圈、內科園區皆在15分鐘生活圈內,打造高效率、低距離的都會節奏。
南港國際skypark

若是想要搭乘大眾運輸工具,走路10分鐘即可達捷運藍線昆陽站,15分鐘可至捷運與台鐵共構的松山車站,未來隨著鄰近開發案「富邦之丘」完工,步行至松山站的時間可望縮短至12分鐘內。此外,位在「南港國際 SKY PARK」左右兩側的玉東公園和新新公園皆設有YouBike 站點,無縫銜接台北流行音樂中心、南港車站等重要地標。

特色2、全方位生活機能,一站滿足都會需求

「南港國際SKYPARK」宛如一座現代化的國際城中城,住戶下樓便能進入商場空間,輕鬆滿足閱讀、餐飲、休閒、健身到育兒等各種日常生活需求。

目前,全區共設有3棟住宅大樓、5棟辦公大樓和1棟飯店及商場,其中,住宅大樓的第5至21樓為住宅,共計528戶,主力坪數介於24至40坪、為2至3房配置格局,鎖定都會核心中堅族群的實質居住需求。

在商場規劃上,則涵蓋影城、書店、健身房、24小時便利商店、私廚料理、超市、輕食咖啡店、幼兒園及安親班等8大主題,提供一站式生活機能,不論是日常採買、休閒娛樂、親子教養或健康管理,都能在社區內一應俱全,落實「住在城市核心、生活近在咫尺」的現代生活理想。

南港國際skypark
住戶下樓即達商場,閱讀、健身、親子教養一次到位,落實「生活近在咫尺」的核心便利。
南港國際skypark

特色3、豐富綠地景觀,打造都市中的綠意棲地

在都市叢林中坐擁大片綠地,是件難能可貴的事,而「南港國際SKYPARK」巧妙結合地理優勢與建築設計,讓住戶得以擁有超過2萬坪的綠地景觀,即便身處繁忙都會區,也能親近自然、享受綠意生活。

南港的綠地和公園其實不多,但「南港國際SKYPARK」位置得天獨厚,左右兩側便是新新公園與玉東公園,被近1萬坪的天然綠意環繞。建築本身亦在1樓打造7400坪的開放式生活綠地,成為住戶日常散步、親子活動的舒適空間;5樓更設有2,700坪的空中花園,巧妙銜接商場與住宅動線,形塑一條專屬住戶的「空中綠廊」。三大綠帶串連,總計超過2萬坪的綠地空間,為在此生活的住戶,帶來鬧中取靜、綠意盎然的都會綠生活。

南港國際skypark
近1萬坪的天然綠意環繞在「南港國際SKYPARK」周邊,成就難得一見的都會綠生活日常。
南港國際skypark

在產業群聚、軌道建設與城市更新等多重利多加持下,南港正迅速轉型為台北的新核心區。「南港國際 SKY PARK」不僅坐擁地段、機能、交通與綠意,更透過全區規劃實現「住、辦、遊、憩」一體的生活藍圖,是少數能真正實現國際級居住品質的指標建案,也象徵南港邁向世界級城市生活的重要起點。

會員專區

使用會員功能前,請先登入

  • 台灣首款對話式 AI 職場教練,一次提升領導力
  • 會員專享每日運勢、名人金句抽籤
  • 收藏文章、追蹤作者,享受個人化學習頁面
  • 定向學習!20 大關鍵字,開放自選、訂閱
  • 解鎖下載專區!10+ 會員專刊一次載
追蹤我們