經理人用戶成長中心 支琬清
AI 很會考試,卻是個滿雷的員工?專家:別再看學術成績,你該做的是「面試」它
分享
近年來,AI 模型在各大「學術」表現上屢創佳績,在大規模多任務語言理解(MMLU-Pro)等測驗上取得的高分,似乎預示 AI 已具備超越人類的智力。然而,這些分數是否等同於實際的「即戰力」?
一份最新的學術研究與專家分析指出,AI 在研究導向測驗上的進展,與在真實世界中創造經濟價值的能力之間,存在巨大的鴻溝。
AI 智力的真相 —— 會考試不等於會做事
AI 專家伊森・莫利克(Ethan Mollick)在文章中直指,以學術表現來評估 AI 的做法充滿缺陷。他認為,大家甚至「不知道這些測驗到底在測量什麼」。
他舉例,MMLU-Pro 這類熱門測驗包含了「直立人的平均顱腔容量」或「Cheap Trick 樂團 1979 年現場專輯的命名地點」等冷僻問題。答對這些問題能證明 AI 具備何種能力?答案是「不知道」。
莫利克進一步分析,這些測驗至少存在 3 大問題:首先是「測驗污染」,許多測驗的答案早已公開,AI 模型可能在訓練過程中就已經「背過」答案;其次是「未校準」,沒有人知道分數從 84% 進步到 85% 是否等同於 40% 進步到 41% 的難度;最後,這些測驗完全忽略企業真正在乎的技能,如寫作能力、商業建議或同理心。
面試 AI 的 2 種方法:「憑感覺」與專業評估
莫利克主張,企業必須像面試員工一樣「面試」AI,他將這種面試分為 2 種層次。
對於個人使用者,可以「憑感覺」進行測試。例如他自己會要求 AI 畫出「水獺搭飛機」,或編寫出「遙遠未來星艦的控制面板」。這些看似古怪的測試,能幫助個人感受到不同模型的風格與對世界的理解程度。
然而,對於企業而言,莫利克推薦更嚴謹的「真實世界基準」。他引用 OpenAI 近期發布的 GDPval 論文,這份研究邀請平均 14 年經驗的各行業專家,設計出需耗時 4 到 7 小時才能完成的複雜專案,再交由 AI 和其他人類專家執行。
GDPval 結果顯示,AI 能力「參差不齊」:在軟體開發和個人理財等領域,頂尖 AI 已超越人類專家;但在藥劑師、工業工程師和房地產經紀人等領域,AI 則遠遠落後。
除了技能參差不齊,莫利克更強調,不同的 AI 擁有不同的個性與偏見。他設計了一項「無人機配送酪梨服務」的商業點子,並讓多個 AI 模型評估可行性(1-10 分)。結果顯示,AI 的「個性」差異巨大:Grok 認為這是個「很棒的主意」,而 Claude 4.5 和 GPT-5 則表示懷疑。
莫利克警告,這種差異絕非小事,當這種決策規模放大時,一個始終更具風險偏好的 AI 顧問,會將組織引導至完全不同的方向。
AI 的終極面試:能否完成 240 項真實專案?
另一份名為《遠距勞動指數:衡量 AI 對遠距工作的自動化程度》(暫譯,原文為 Remote Labor Index: Measuring AI Automation of Remote Work)的最新研究,則對 AI 進行一場迄今為止最嚴苛、最接近真實世界的「面試」。
研究人員指出,傳統測驗要麼過於集中在軟體工程,要麼任務過於簡化,無法反映勞動市場的廣泛性與複雜性。RLI 因此橫空出世,測驗內容包含 240 個真實專案,均來自 Upwork 等自由工作者平台。每個專案都包含客戶的簡報、輸入文件以及人類專家交付的「高品質成品」。這個測試並非集中在 AI 擅長的軟體或寫作,而是橫跨 23 個工作類別,包含 3D 產品渲染、建築規畫、遊戲開發、動態影片製作等複雜任務。
成果出爐:所有 AI 表現慘不忍睹,自動化程度最高僅 2.5%!
RLI 的評分標準極為嚴格:由人類評估員扮演理性的客戶,判斷 AI 交付的成品是否與人類的高品質標準一樣好,且是否會被認定已完成委託工作。研究顯示,目前所有 AI 代理(Agents)的「自動化程度」都慘不忍睹。
- Manus: 2.5%
- Grok 4: 2.1%
- Sonnet 4.5: 2.1%
- GPT-5: 1.7%
- ChatGPT agent: 1.3%
- Gemini 2.5 Pro: 0.8%
結果表明,儘管 AI 在學術測驗上表現亮眼,但它們距離自主處理真實、複雜、具有經濟價值的遠端工作,仍有極遠的距離。
AI 哪裡沒做好?45.6% 品質低劣、35.7% 交付不全
RLI 的研究人員進一步對 AI 的失敗案例進行分析,歸納出 AI 交付的成品被「退件」的 4 大主因,其中「品質低劣」是最大問題:
品質低劣(Poor quality):
45.6% 的交件不符專業標準。例如,提交了「兒童畫作般的圖形」、使用了「像機器人的聲音」,或是在 3D 渲染中,不同視角的房屋外觀竟不一致。不完整(Incomplete)
35.7% 的交件未達到關鍵要求。例如,客戶要求 8 分鐘的影片,AI 卻只給了 8 秒鐘。檔案損壞(Corrupted files)
17.6% 的交件是空白或無法使用的檔案。前後不一致(Inconsistencies)
14.8% 的交件在不同檔案間存在矛盾。
當然也有極少數的成功案例,研究發現,AI 成功完成的專案,主要集中在「創意性」任務,例如音訊編輯、為復古電玩創造音效、生成萬聖節廣告圖像,以及編寫簡單的互動式數據圖表。
AI 未必能幫到你的工作,要像面試員工一樣測試它的真本事
綜合莫利克的「AI 面試」倡議 與 RLI 研究:AI 的智力並非全面性,而是呈現「時好時壞的高水準」。學術測驗的高分,掩蓋了 AI 在執行真實工作時的無力。
對於個人與企業而言,當務之急或許不是盲目導入 AI,而是要學會先「面試」它 —— 設計符合自身需求的真實任務,以辨識出模型在特定任務上的真實能耐。
資料來源:One useful thing、Remote Labor Index:Measuring AI Automation of Remote Work;本文初稿由 AI 協助整理,編輯:支琬清