AI 很會考試，卻是個滿雷的員工？專家：別再看學術成績，你該做的是「面試」它|經理人

近年來，AI 模型在各大「學術」表現上屢創佳績，在大規模多任務語言理解（MMLU-Pro）等測驗上取得的高分，似乎預示 AI 已具備超越人類的智力。然而，這些分數是否等同於實際的「即戰力」？

一份最新的學術研究與專家分析指出，AI 在研究導向測驗上的進展，與在真實世界中創造經濟價值的能力之間，存在巨大的鴻溝。

AI 智力的真相 —— 會考試不等於會做事

AI 專家伊森・莫利克（Ethan Mollick）在文章中直指，以學術表現來評估 AI 的做法充滿缺陷。他認為，大家甚至「不知道這些測驗到底在測量什麼」。

他舉例，MMLU-Pro 這類熱門測驗包含了「直立人的平均顱腔容量」或「Cheap Trick 樂團 1979 年現場專輯的命名地點」等冷僻問題。答對這些問題能證明 AI 具備何種能力？答案是「不知道」。

莫利克進一步分析，這些測驗至少存在 3 大問題：首先是「測驗污染」，許多測驗的答案早已公開，AI 模型可能在訓練過程中就已經「背過」答案；其次是「未校準」，沒有人知道分數從 84% 進步到 85% 是否等同於 40% 進步到 41% 的難度；最後，這些測驗完全忽略企業真正在乎的技能，如寫作能力、商業建議或同理心。

面試 AI 的 2 種方法：「憑感覺」與專業評估

莫利克主張，企業必須像面試員工一樣「面試」AI，他將這種面試分為 2 種層次。

對於個人使用者，可以「憑感覺」進行測試。例如他自己會要求 AI 畫出「水獺搭飛機」，或編寫出「遙遠未來星艦的控制面板」。這些看似古怪的測試，能幫助個人感受到不同模型的風格與對世界的理解程度。

然而，對於企業而言，莫利克推薦更嚴謹的「真實世界基準」。他引用 OpenAI 近期發布的 GDPval 論文，這份研究邀請平均 14 年經驗的各行業專家，設計出需耗時 4 到 7 小時才能完成的複雜專案，再交由 AI 和其他人類專家執行。

GDPval 結果顯示，AI 能力「參差不齊」：在軟體開發和個人理財等領域，頂尖 AI 已超越人類專家；但在藥劑師、工業工程師和房地產經紀人等領域，AI 則遠遠落後。

除了技能參差不齊，莫利克更強調，不同的 AI 擁有不同的個性與偏見。他設計了一項「無人機配送酪梨服務」的商業點子，並讓多個 AI 模型評估可行性（1-10 分）。結果顯示，AI 的「個性」差異巨大：Grok 認為這是個「很棒的主意」，而 Claude 4.5 和 GPT-5 則表示懷疑。

莫利克警告，這種差異絕非小事，當這種決策規模放大時，一個始終更具風險偏好的 AI 顧問，會將組織引導至完全不同的方向。

AI 的終極面試：能否完成 240 項真實專案？

另一份名為《遠距勞動指數:衡量 AI 對遠距工作的自動化程度》（暫譯，原文為 Remote Labor Index: Measuring AI Automation of Remote Work）的最新研究，則對 AI 進行一場迄今為止最嚴苛、最接近真實世界的「面試」。

研究人員指出，傳統測驗要麼過於集中在軟體工程，要麼任務過於簡化，無法反映勞動市場的廣泛性與複雜性。RLI 因此橫空出世，測驗內容包含 240 個真實專案，均來自 Upwork 等自由工作者平台。每個專案都包含客戶的簡報、輸入文件以及人類專家交付的「高品質成品」。這個測試並非集中在 AI 擅長的軟體或寫作，而是橫跨 23 個工作類別，包含 3D 產品渲染、建築規畫、遊戲開發、動態影片製作等複雜任務。

成果出爐：所有 AI 表現慘不忍睹，自動化程度最高僅 2.5%！

RLI 的評分標準極為嚴格：由人類評估員扮演理性的客戶，判斷 AI 交付的成品是否與人類的高品質標準一樣好，且是否會被認定已完成委託工作。研究顯示，目前所有 AI 代理（Agents）的「自動化程度」都慘不忍睹。

Manus： 2.5%
Grok 4： 2.1%
Sonnet 4.5： 2.1%
GPT-5： 1.7%
ChatGPT agent： 1.3%
Gemini 2.5 Pro： 0.8%

結果表明，儘管 AI 在學術測驗上表現亮眼，但它們距離自主處理真實、複雜、具有經濟價值的遠端工作，仍有極遠的距離。

AI 哪裡沒做好？45.6% 品質低劣、35.7% 交付不全

RLI 的研究人員進一步對 AI 的失敗案例進行分析，歸納出 AI 交付的成品被「退件」的 4 大主因，其中「品質低劣」是最大問題：

品質低劣（Poor quality）：
45.6% 的交件不符專業標準。例如，提交了「兒童畫作般的圖形」、使用了「像機器人的聲音」，或是在 3D 渲染中，不同視角的房屋外觀竟不一致。
不完整（Incomplete）
35.7% 的交件未達到關鍵要求。例如，客戶要求 8 分鐘的影片，AI 卻只給了 8 秒鐘。
檔案損壞（Corrupted files）
17.6% 的交件是空白或無法使用的檔案。
前後不一致（Inconsistencies）
14.8% 的交件在不同檔案間存在矛盾。

當然也有極少數的成功案例，研究發現，AI 成功完成的專案，主要集中在「創意性」任務，例如音訊編輯、為復古電玩創造音效、生成萬聖節廣告圖像，以及編寫簡單的互動式數據圖表。