成功 Success > 數位工具
feature picture
OpenAI

ChatGPT 將支援圖像辨識及語音功能!一文解析 GPT 的演進

2023-09-27 整理 · 撰文 許永昕

OpenAI 9 月 25 日宣布,ChatGPT 新功能上線,將支援圖像辨識及語音功能,也能把 podcast 轉成其他語言,未來兩周內會優先提供 ChatGPT Plus 用戶體驗。

2022 年尾 OpenAI 發表了 ChatGPT 這款聊天機器人後,它理解文字和產出內容的能力顛覆了人們的想像,發布後短短 5 天內就有超過 100 萬人註冊使用,在全球各家新聞以及社群媒體上引發軒然大波。ChatGPT 究竟是什麼?背後的技術「生成式 AI」又是什麼?一次帶你讀懂:

ChatGPT 顧名思義是指可以「對話」的 GPT 版本,GPT 的全名為「生成型預訓練變換模型(Generative Pre-trained Transformer)」,是由 OpenAI 所開發的一種語言模型,能使用深度學習技術讓它學習字詞之間的關聯,以此來生成類似人類產出的文本,ChatGPT 背後採用的的模型是 GPT-3.5。

ChatGPT 可以針對使用者問題給予相應的長篇回覆,寫電腦程式碼、翻譯文章,甚至是撰寫論文、劇本、小說等,在對談上也相當自然流暢,比起 Google 助理以及 Siri 基於預先設定的資料庫和演算法,執行預先設計好的固定功能,ChatGPT 可謂是更加強大的「超級智慧助理」。

延伸閱讀:ChatGPT 怎麼用?6 種 ChatGPT 應用方法,利用 AI 簡化工作

GPT如何運作?

《都問 AI 吧》一書提到,GPT 就像一個向量網路,在這裡每個詞或語言元素都被分配一個獨特的向量或數字,並使用「Self-Attention」(編註:電腦程式理解句子或文本的背景和意義的一種方式)的機制判斷不同詞語的相關性與重要性。也就是說,GPT 的運作原理如下:

使用者輸入句子 → 透過 Self-Attention 拆解轉換為向量 → GPT 利用這些向量找到內容 → 重新生成有意義的內容

我們可以這樣想: 訓練 GPT 如同我們在閱讀書籍,透過大腦拆解書以及其中的句子,分別劃上重點、做成筆記後收錄起來,當未來被問到相關的問題時,我們的腦子就會拆解這個問題,並從這些整理過的資料庫裡找到最相近的答案後,重新生成有意義的回答。

ChatGPT 的演進

第一代的 GPT 模型 GPT-1 在 2018 年 6 月問世,能做到語意判斷、文本分類、問答與常識推理等任務,而 2019 年所推出的 GPT-2 版本則能根據既有的文章接續生成新的且有意義的內容,並執行翻譯或是總結等語言任務。

在 2020 年,OpenAI 發表了 GPT-3,它相比上一代 GPT-2 具有更大的模型參數,包括 1750 億個參數,而 GPT-2 只有 15 億個參數。這使得 GPT-3 能夠處理更大、更複雜的資料,並生成更具多類型的文本。然而,由於全球當時正面臨新冠肺炎疫情問題,導致人們對於人工智慧領域的關注大幅降低,此外 GPT-3 無法進行智能對話也被視為一大缺陷,這代表它只能執行單向的任務,在實際應用上存在諸多不便。

這也是為什麼使用 GPT-3.5 模型的 ChatGPT 在推出後能受到大量關注與熱議,因為對許多人來說,評估一個人工智慧模型的好壞是在於「溝通能力」,模型能否在一次來回的對話中聽懂使用者的問題,並給予令人滿意的答案,這比模型背後的知識量更受到關注。ChatGPT 主打對話模式,甚至可以承認錯誤、且拒絕不恰當的請求,更接近人類對話與思考方式的特點也吸引了全球的目光。

而在 2023 年 3 月,OpenAI 發表了 GPT-4,根據官網介紹,新一代的 GPT-4 重點在於提升利用現有數據的能力,除了能夠處理多達 2.5 萬字的長篇內容,和 ChatGPT 相比提升 8 倍之多,還可以支援圖片輸入以及圖像辨識,懂得「看圖說故事」。

ChatGPT 的出現,也讓機器是否會取代人類的相關討論不斷湧現,畢竟過去是由人類創造機器,機器只會根據指令完成任務,不會自行「創造」。直到可以從現有數據中生成新內容的「生成式 AI」(Generative AI)此一研究領域獲得長足發展。

生成式 AI 產出的內容可以是圖像、文本甚至音樂,不過它生成的內容可能是錯誤的,卻因為設計使然,可能乍看很有說服力;生成式 AI 也可能會產出帶有偏見的內容,因為它被「餵食」的內容可能本身就包含性別、種族等普遍存在的偏見。

生成式 AI 技術對於各個產業的影響

《AI 生成時代》中提到,生成式 AI 可以自動化處理繁瑣且耗時的任務,快速並準確地分析大量資料、提升任務的效率和準確性,並提高組織的速度與敏捷性,改善組織內部的協作和溝通。可以想見未來 AI 工具將在各行各業更為普及。

例如對新聞媒體工作者而言,可透過 AI 語音轉文字工具即時取得訪談文本,也可透過生成式 AI 生成新聞稿或是自動撰寫摘要、協助整理二手資訊。《經理人》近期就透過 ChatGPT、Bing 等生成式 AI 工具,協助收集資料、外部情報,藉此縮短特定類型文章的寫作時間、電子報的製作時間,或協助優化文章的 SEO。

而對於影視產業而言,生成式 AI 可以提供劇本創作的靈感,在動畫或是特效片的製作上也能透過 AI 解決重複性較高的工作環節,提升生產流程,或是實現一些難以在現實中呈現,甚至是打破自然規律的場景。

電商產業則可以利用生成式 AI 結合 VR、AR 等技術建立虛擬賣場或虛擬主播,達成沉浸式購物體驗,PChome 執行長張瑜珊在《AI進行式:技術展望與產業論壇》便分享,電商產業能應用 AI 生成文案、圖片等行銷素材,幫助商家解決商品上架、管理與銷售的工作時間,或是導入配送、客服環節,讓貨物寄到消費者的手中更順利。

她舉例,銷售保養品的商家,或許能透過生成式 AI 讓商品自動生成在化妝台、梳妝台的情境圖片上,減少製作商品上架素材的時間,強化販售商品的服務,「有 AI 這樣新的工具,可能就多了很多新的途徑來解決(既有)問題。」

生成式 AI 在金融業的應用主要則聚焦在智慧客服與智慧顧問服務兩個方面,透過自然語言處理技術,讓機器人立即回應客人的需求,減少客人等待的時間,也減輕真人客服的壓力。

不過,考量到法規、企業機密與資安等問題,目前許多金融業對於生成式 AI 的導入格外小心,這也是許多產業導入新數位工具的擔憂。

延伸閱讀:讓 AI 幫你寫信!ChatGPT 下對關鍵字,再詞窮也能快速生成一封 email

AI 的未來發展

《AI生成時代》指出,人工智慧的發展在未來將趨於通用化與專業化,透過訓練與微調,模型將能在各類任務場景中都能通用,並且在接受海量的數據訓練後,能勝任更加複雜的專業任務。

此外「仿人」一直是AI相關研究的技術推動力,也是人類發展人工智慧最直接的想法,包含模仿人類的學習過程、認知方式,科學家不斷嘗試用各種維度仿造人腦,一旦人類更了解自身的智慧是如何產生,人工智慧的發展勢必將迎來新的突破。

但生成式 AI 是否會生成不符合人類社會的規範與倫理的內容,亦或是被有心人士拿去用於有害或是非法目的,甚至是在未來若人工智慧讓機器擁有獨立思考的能力,是否將完全脫離人類的控制,這些都是技術發展當中須要被解決的問題。

資料來源:《AI生成時代》《都問AI吧》McKinsey & Company

繼續閱讀 數位工作術 AI
相關文章
會員專區

使用會員功能前,請先登入

  • 台灣首款對話式 AI 職場教練,一次提升領導力
  • 會員專享每日運勢、名人金句抽籤
  • 收藏文章、追蹤作者,享受個人化學習頁面
  • 定向學習!20 大關鍵字,開放自選、訂閱
  • 解鎖下載專區!10+ 會員專刊一次載
追蹤我們