

「你吉卜力了嗎?」這正是這幾天在台灣最流行的問候詞。2025 年 3 月,OpenAI 推出的最新版本模型 GPT-4o 震撼了全球,社交媒體全部被 GPT-4o 生出來的圖給洗版。包括原本認為每個月 600 元左右的訂閱費太貴的人,現在發現它能產出含正確中文的早安圖後,紛紛用新台幣換取早安圖自由。就連 OpenAI 執行長山姆.奧特曼(Sam Altman)都在社交媒體上求饒「別再畫了,我們伺服器撐不住!」有人就形容說,這時就和當年臉書出現了開心農場後,引發全民種菜搶菜的現象級風潮一樣,ChatGPT 又再次站上潮流至高點。
不用記「提示詞」,只要「說人話」就能生美圖
過去 GPT-4o 也有生圖功能,但其實是透過「工具調用(tool calling)」的方式,「間接」將使用者需求送給生圖工具 DALL.E,處理完後它再將生成圖片回拋給使用者。也因此 GPT-4o 根本看不到圖,它只會知道我丟了什麼樣的指令給生圖工具,至於這張圖畫得如何根本無從確認,再加上生圖工具端普遍語言理解能力偏弱,所以過去生出來的圖總是差強人意。
現在生圖這件事不再需要假手外部工具,GPT-4o 模型自己內建了生圖模組,既然都在同一模型,語言理解、整合能力都有大幅提升。像是之前畫不出來的「沒有放青豆的炒飯」,那是因為生圖工具的看不懂否定句,畫出了一份青豆給好給滿的炒飯。現在 GPT-4o 自己當自己的老師,邊畫圖,就可以邊用看圖能力檢核並找出缺點再修正,結果在圖上顯示文字的效果驚人提升。
原生出圖的好處,就像一個人同時懂得聽懂你的需求、看懂圖片內容、還能親自動手畫圖,三項能力合一,也因此能精準實現各種構圖以及轉換的要求,只需要「把需求以文字的形式講出來」。相較於過去 Midjourney 這類工具,要做到精緻效果好的圖像,需要各種 prompt(提示詞)技巧需要技巧需要記得效果詞,但隨著原生語言能力的整合,你會發現 prompt 不再需要技巧,只要講人話,怎麼說都可以。
其實 prompt 就是人類在等待機器熟悉人類語言過程中的權宜之計,它不是我們與機器交互的最終型態, 所以當機器開始完全掌握人類語言時,也正是 prompt 這個概念的退場時機,而剩下來的其實就是「說人話」。
AI 生圖普及,將催生或威脅哪些行業?
就像智慧型手機一開始只被視為有趣的玩具,最後卻顛覆整個產業生態一樣,GPT-4o 的原生生圖能力,會讓哪些行業將因此受益,又有哪些可能面臨挑戰?
首先是,商業攝影與 3D 建模製作行業。現在只需要一張基礎產品照,GPT-4o 就能幫你實現各種商品推廣照的需求,無論是要在什麼環境,什麼模特兒或是什麼風格具,許多原本需要實地拍攝的內容,現在只需要輸入「產品放在陽光下的木桌上,旁邊有一杯冰美式」即可瞬間完成。甚至只有一張產品正面照,GPT-4o 也能將背面圖或是 3D 立體圖給渲染出來。對於廣告公司或行銷部門來說,這意味著節省大量拍攝預算。但對於婚攝、商攝等傳統攝影師而言,這是生計的威脅。
隨著AI生成圖像的能力越來越接近真實,虛擬與現實的界線正逐漸模糊。現在只要把家中拍張照再給它幾個你想要購置的家具,GPT-4o 就能生出裝潢完成的圖像。衣服好不好看,GPT-4o 也能生出試穿圖。可以想想的是強大的生圖與擬真的能力將會催生出新的虛擬經濟的商業模式。
從早安圖變吉卜力圖熱潮,我們看到的是一項技術真正「下凡」的瞬間。過去被視為高深、專業的 AI 生圖能力,現在人人皆可用、隨手可得。企業該思考我們是否準備好,讓創意、設計、行銷等部門,搭上這波浪潮來降低相關製作成本?我們是否有機會,藉由這些工具,大幅提升產能、加快上市時程、甚至創造出新的商業模式?GPT-4o 原生出圖不只是一個功能,它更像是創新的鑰匙。而這把鑰匙,已經到了你手上。