ChatGPT 將支援圖像辨識及語音功能！一文解析 GPT 的演進|經理人

2022 年尾 OpenAI 發表了 ChatGPT 這款聊天機器人後，它理解文字和產出內容的能力顛覆了人們的想像，發布後短短 5 天內就有超過 100 萬人註冊使用，在全球各家新聞以及社群媒體上引發軒然大波。ChatGPT 究竟是什麼？背後的技術「生成式 AI」又是什麼？一次帶你讀懂：

ChatGPT 顧名思義是指可以「對話」的 GPT 版本，GPT 的全名為「生成型預訓練變換模型（Generative Pre-trained Transformer）」，是由 OpenAI 所開發的一種語言模型，能使用深度學習技術讓它學習字詞之間的關聯，以此來生成類似人類產出的文本，ChatGPT 背後採用的的模型是 GPT-3.5。

ChatGPT 可以針對使用者問題給予相應的長篇回覆，寫電腦程式碼、翻譯文章，甚至是撰寫論文、劇本、小說等，在對談上也相當自然流暢，比起 Google 助理以及 Siri 基於預先設定的資料庫和演算法，執行預先設計好的固定功能，ChatGPT 可謂是更加強大的「超級智慧助理」。

GPT如何運作？

《都問 AI 吧》一書提到，GPT 就像一個向量網路，在這裡每個詞或語言元素都被分配一個獨特的向量或數字，並使用「Self-Attention」（編註：電腦程式理解句子或文本的背景和意義的一種方式）的機制判斷不同詞語的相關性與重要性。也就是說，GPT 的運作原理如下：

使用者輸入句子 → 透過 Self-Attention 拆解轉換為向量 → GPT 利用這些向量找到內容 → 重新生成有意義的內容

我們可以這樣想：訓練 GPT 如同我們在閱讀書籍，透過大腦拆解書以及其中的句子，分別劃上重點、做成筆記後收錄起來，當未來被問到相關的問題時，我們的腦子就會拆解這個問題，並從這些整理過的資料庫裡找到最相近的答案後，重新生成有意義的回答。

ChatGPT 的演進

第一代的 GPT 模型 GPT-1 在 2018 年 6 月問世，能做到語意判斷、文本分類、問答與常識推理等任務，而 2019 年所推出的 GPT-2 版本則能根據既有的文章接續生成新的且有意義的內容，並執行翻譯或是總結等語言任務。

在 2020 年，OpenAI 發表了 GPT-3，它相比上一代 GPT-2 具有更大的模型參數，包括 1750 億個參數，而 GPT-2 只有 15 億個參數。這使得 GPT-3 能夠處理更大、更複雜的資料，並生成更具多類型的文本。然而，由於全球當時正面臨新冠肺炎疫情問題，導致人們對於人工智慧領域的關注大幅降低，此外 GPT-3 無法進行智能對話也被視為一大缺陷，這代表它只能執行單向的任務，在實際應用上存在諸多不便。

這也是為什麼使用 GPT-3.5 模型的 ChatGPT 在推出後能受到大量關注與熱議，因為對許多人來說，評估一個人工智慧模型的好壞是在於「溝通能力」，模型能否在一次來回的對話中聽懂使用者的問題，並給予令人滿意的答案，這比模型背後的知識量更受到關注。ChatGPT 主打對話模式，甚至可以承認錯誤、且拒絕不恰當的請求，更接近人類對話與思考方式的特點也吸引了全球的目光。

而在 2023 年 3 月，OpenAI 發表了 GPT-4，根據官網介紹，新一代的 GPT-4 重點在於提升利用現有數據的能力，除了能夠處理多達 2.5 萬字的長篇內容，和 ChatGPT 相比提升 8 倍之多，還可以支援圖片輸入以及圖像辨識，懂得「看圖說故事」。

ChatGPT 的出現，也讓機器是否會取代人類的相關討論不斷湧現，畢竟過去是由人類創造機器，機器只會根據指令完成任務，不會自行「創造」。直到可以從現有數據中生成新內容的「生成式 AI」（Generative AI）此一研究領域獲得長足發展。

生成式 AI 產出的內容可以是圖像、文本甚至音樂，不過它生成的內容可能是錯誤的，卻因為設計使然，可能乍看很有說服力；生成式 AI 也可能會產出帶有偏見的內容，因為它被「餵食」的內容可能本身就包含性別、種族等普遍存在的偏見。

生成式 AI 技術對於各個產業的影響

《AI 生成時代》中提到，生成式 AI 可以自動化處理繁瑣且耗時的任務，快速並準確地分析大量資料、提升任務的效率和準確性，並提高組織的速度與敏捷性，改善組織內部的協作和溝通。可以想見未來 AI 工具將在各行各業更為普及。

例如對新聞媒體工作者而言，可透過 AI 語音轉文字工具即時取得訪談文本，也可透過生成式 AI 生成新聞稿或是自動撰寫摘要、協助整理二手資訊。《經理人》近期就透過 ChatGPT、Bing 等生成式 AI 工具，協助收集資料、外部情報，藉此縮短特定類型文章的寫作時間、電子報的製作時間，或協助優化文章的 SEO。

而對於影視產業而言，生成式 AI 可以提供劇本創作的靈感，在動畫或是特效片的製作上也能透過 AI 解決重複性較高的工作環節，提升生產流程，或是實現一些難以在現實中呈現，甚至是打破自然規律的場景。

電商產業則可以利用生成式 AI 結合 VR、AR 等技術建立虛擬賣場或虛擬主播，達成沉浸式購物體驗，PChome 執行長張瑜珊在《AI進行式：技術展望與產業論壇》便分享，電商產業能應用 AI 生成文案、圖片等行銷素材，幫助商家解決商品上架、管理與銷售的工作時間，或是導入配送、客服環節，讓貨物寄到消費者的手中更順利。

她舉例，銷售保養品的商家，或許能透過生成式 AI 讓商品自動生成在化妝台、梳妝台的情境圖片上，減少製作商品上架素材的時間，強化販售商品的服務，「有 AI 這樣新的工具，可能就多了很多新的途徑來解決（既有）問題。」

生成式 AI 在金融業的應用主要則聚焦在智慧客服與智慧顧問服務兩個方面，透過自然語言處理技術，讓機器人立即回應客人的需求，減少客人等待的時間，也減輕真人客服的壓力。

不過，考量到法規、企業機密與資安等問題，目前許多金融業對於生成式 AI 的導入格外小心，這也是許多產業導入新數位工具的擔憂。

AI 的未來發展

《AI生成時代》指出，人工智慧的發展在未來將趨於通用化與專業化，透過訓練與微調，模型將能在各類任務場景中都能通用，並且在接受海量的數據訓練後，能勝任更加複雜的專業任務。

此外「仿人」一直是AI相關研究的技術推動力，也是人類發展人工智慧最直接的想法，包含模仿人類的學習過程、認知方式，科學家不斷嘗試用各種維度仿造人腦，一旦人類更了解自身的智慧是如何產生，人工智慧的發展勢必將迎來新的突破。

但生成式 AI 是否會生成不符合人類社會的規範與倫理的內容，亦或是被有心人士拿去用於有害或是非法目的，甚至是在未來若人工智慧讓機器擁有獨立思考的能力，是否將完全脫離人類的控制，這些都是技術發展當中須要被解決的問題。

資料來源：《AI生成時代》、《都問AI吧》、McKinsey & Company

ChatGPT 將支援圖像辨識及語音功能！一文解析 GPT 的演進

GPT如何運作？

ChatGPT 的演進

生成式 AI 技術對於各個產業的影響

AI 的未來發展

追蹤我們

追蹤我們

使用會員功能前，請先登入