成功 Success > 數位工具
feature picture
shutterstock

大型語言模型(LLM)是什麼?為什麼運作更像文字接龍、而非聽懂你的話?

2023-09-26 INSIDE 硬塞的網路趨勢觀察

大型語言模型(large language model,LLM)是一種人工智慧技術,其目的是理解和生成人類語言。我們可以把它想像成一個高級的「文字預測機器」,但它們並不真正理解語言。

大型文字接龍機

模型的訓練過程需要大量的文本數據,例如書籍、網頁和其他各種文本來源。然後,我們將這些文本數據輸入到模型中,讓模型嘗試學習這些文本的模式。例如,如果我們給模型一個句子,例如 「我今天早上吃了...」, 我們希望模型能夠學會預測下一個詞可能是什麼,例如 「吐司」、「麵包」、「蛋」等等。這就是所謂的「監督學習」,因為我們有明確的目標(即下一個詞)讓模型去預測。

延伸閱讀:生成式 AI 為 CEO 們帶來集體焦慮!麥肯錫:企業導入新技術,應特別注意哪些事?

但是,模型並不只是單純的記憶每個句子的下一個詞。它會試圖學習整個語言的結構和語義規則,包括詞彙的含義、語法、語境等等。所以,即使是模型從未見過的新句子或新情況,它也能夠生成合理的回應或預測。

大型語言模型之所以被稱為大型,是因為它們通常包含數十億甚至數百億的參數。這些參數可以看作是模型的"記憶單元",儲存了模型從數據中學習到的各種模式和規則。

大型語言模型的應用

以下介紹幾個大型語言模型:

ChatGPT:目前最為人所知的應用就是由 OpenAI 所開發的 ChatGPT,是基於 GPT(Generative Pretrained Transformer)架構。它能理解和生成文本,廣泛用於對話、文章撰寫、問答等任務。儘管有強大能力,但它不理解世界,只是學習了模仿人類語言的模式。

Bloom:是由 AI 新創公司 Hugging Face 主導並協調的 BigScience 而來的開源模型,擁有 1,760 億個參數,主打可在 46 種自然語言和 13 種程式語言中生成文本。聯發創新基地、中央研究院詞庫小組和國家教育研究院三方所組成的研究團隊,就有使用 Bloom 再開發出繁體中文大型語言模型,並已公開讓外界下載,可應用於問答系統、文字編修、廣告文案生成、華語教學、客服系統等。

LLaMA:是由 Meta(前 Facebook)研發的開源大型語言模型,Meta 稱基於更乾淨的數據以及更進步的架構,LLaMA 相較下需要「非常少」的計算能力,效能更高,更易於普及也更穩定。和 Google LaMDA、OpenAI 的 GPT 機密的訓練資料與演算法不一樣,LLaMA 是以公開資料進行訓練,成果也較為開放。

延伸閱讀:ChatGPT 之父來台!促成了生成式 AI 巨浪、8 歲就會寫程式的他有什麼來頭?

大型語言模型的優缺點

儘管大型語言模型在理解和生成文本方面有著驚人的表現,但它們並不真正理解語言,至少不是像人類那樣理解。它們並不知道世界是如何運作的,也不具有自我意識或意圖。它們只是模仿在訓練數據中看到的模式。因此,儘管這些模型非常強大,但在使用它們時仍需要謹慎。例如,由於模型是根據訓練數據學習的,如果訓練數據中存在偏見,那麼模型可能也會學到這些偏見。而且模型可能也會生成不準確或誤導性的訊息,特別是在它對於某些主題或問題缺乏足夠的訓練數據的情況下。

雖然存在這些挑戰,大型語言模型仍然是一種非常有價值的工具。它們可以用於多種任務,包括自動回答問題、生成文章、提供推薦、翻譯語言,甚至在某些情況下,協助醫生診斷疾病。

總體來說,大型語言模型是一種強大而複雜的工具,能夠理解和生成人類語言,對許多任務具有巨大的潛力。然而,我們在使用它們的時候,仍需要對它們的能力和限制有一個清楚的理解。

(本文出自 INSIDE硬塞的網路趨勢觀察

相關文章
會員專區

使用會員功能前,請先登入

  • 台灣首款對話式 AI 職場教練,一次提升領導力
  • 會員專享每日運勢、名人金句抽籤
  • 收藏文章、追蹤作者,享受個人化學習頁面
  • 定向學習!20 大關鍵字,開放自選、訂閱
  • 解鎖下載專區!10+ 會員專刊一次載
追蹤我們