大型語言模型（LLM）是什麼？為什麼運作更像文字接龍、而非聽懂你的話？|經理人

大型語言模型（large language model，LLM）是一種人工智慧技術，其目的是理解和生成人類語言。我們可以把它想像成一個高級的「文字預測機器」，但它們並不真正理解語言。

大型文字接龍機

模型的訓練過程需要大量的文本數據，例如書籍、網頁和其他各種文本來源。然後，我們將這些文本數據輸入到模型中，讓模型嘗試學習這些文本的模式。例如，如果我們給模型一個句子，例如「我今天早上吃了...」, 我們希望模型能夠學會預測下一個詞可能是什麼，例如「吐司」、「麵包」、「蛋」等等。這就是所謂的「監督學習」，因為我們有明確的目標（即下一個詞）讓模型去預測。

但是，模型並不只是單純的記憶每個句子的下一個詞。它會試圖學習整個語言的結構和語義規則，包括詞彙的含義、語法、語境等等。所以，即使是模型從未見過的新句子或新情況，它也能夠生成合理的回應或預測。

大型語言模型之所以被稱為大型，是因為它們通常包含數十億甚至數百億的參數。這些參數可以看作是模型的"記憶單元"，儲存了模型從數據中學習到的各種模式和規則。

大型語言模型的應用

以下介紹幾個大型語言模型：

ChatGPT：目前最為人所知的應用就是由 OpenAI 所開發的 ChatGPT，是基於 GPT（Generative Pretrained Transformer）架構。它能理解和生成文本，廣泛用於對話、文章撰寫、問答等任務。儘管有強大能力，但它不理解世界，只是學習了模仿人類語言的模式。

Bloom：是由 AI 新創公司 Hugging Face 主導並協調的 BigScience 而來的開源模型，擁有 1,760 億個參數，主打可在 46 種自然語言和 13 種程式語言中生成文本。聯發創新基地、中央研究院詞庫小組和國家教育研究院三方所組成的研究團隊，就有使用 Bloom 再開發出繁體中文大型語言模型，並已公開讓外界下載，可應用於問答系統、文字編修、廣告文案生成、華語教學、客服系統等。

LLaMA：是由 Meta（前 Facebook）研發的開源大型語言模型，Meta 稱基於更乾淨的數據以及更進步的架構，LLaMA 相較下需要「非常少」的計算能力，效能更高，更易於普及也更穩定。和 Google LaMDA、OpenAI 的 GPT 機密的訓練資料與演算法不一樣，LLaMA 是以公開資料進行訓練，成果也較為開放。

大型語言模型的優缺點

儘管大型語言模型在理解和生成文本方面有著驚人的表現，但它們並不真正理解語言，至少不是像人類那樣理解。它們並不知道世界是如何運作的，也不具有自我意識或意圖。它們只是模仿在訓練數據中看到的模式。因此，儘管這些模型非常強大，但在使用它們時仍需要謹慎。例如，由於模型是根據訓練數據學習的，如果訓練數據中存在偏見，那麼模型可能也會學到這些偏見。而且模型可能也會生成不準確或誤導性的訊息，特別是在它對於某些主題或問題缺乏足夠的訓練數據的情況下。

雖然存在這些挑戰，大型語言模型仍然是一種非常有價值的工具。它們可以用於多種任務，包括自動回答問題、生成文章、提供推薦、翻譯語言，甚至在某些情況下，協助醫生診斷疾病。

總體來說，大型語言模型是一種強大而複雜的工具，能夠理解和生成人類語言，對許多任務具有巨大的潛力。然而，我們在使用它們的時候，仍需要對它們的能力和限制有一個清楚的理解。

（本文出自 INSIDE硬塞的網路趨勢觀察）

大型語言模型（LLM）是什麼？為什麼運作更像文字接龍、而非聽懂你的話？

大型文字接龍機

大型語言模型的應用

大型語言模型的優缺點

追蹤我們

追蹤我們

使用會員功能前，請先登入