成功 Success > 數位工具
feature picture
ChatGPT

AI 很會考試,卻是個滿雷的員工?專家:別再看學術成績,你該做的是「面試」它

2025-11-25 經理人用戶成長中心 支琬清
分享
收藏
已完成
已取消

近年來,AI 模型在各大「學術」表現上屢創佳績,在大規模多任務語言理解(MMLU-Pro)等測驗上取得的高分,似乎預示 AI 已具備超越人類的智力。然而,這些分數是否等同於實際的「即戰力」?

一份最新的學術研究與專家分析指出,AI 在研究導向測驗上的進展,與在真實世界中創造經濟價值的能力之間,存在巨大的鴻溝。

AI 智力的真相 —— 會考試不等於會做事

AI 專家伊森・莫利克(Ethan Mollick)在文章中直指,以學術表現來評估 AI 的做法充滿缺陷。他認為,大家甚至「不知道這些測驗到底在測量什麼」。

他舉例,MMLU-Pro 這類熱門測驗包含了「直立人的平均顱腔容量」或「Cheap Trick 樂團 1979 年現場專輯的命名地點」等冷僻問題。答對這些問題能證明 AI 具備何種能力?答案是「不知道」。

莫利克進一步分析,這些測驗至少存在 3 大問題:首先是「測驗污染」,許多測驗的答案早已公開,AI 模型可能在訓練過程中就已經「背過」答案;其次是「未校準」,沒有人知道分數從 84% 進步到 85% 是否等同於 40% 進步到 41% 的難度;最後,這些測驗完全忽略企業真正在乎的技能,如寫作能力、商業建議或同理心。

延伸閱讀:研究揭企業 AI 導入新悖論:高層狂推狂用,卻怕員工「技能萎縮」

面試 AI 的 2 種方法:「憑感覺」與專業評估

莫利克主張,企業必須像面試員工一樣「面試」AI,他將這種面試分為 2 種層次。

對於個人使用者,可以「憑感覺」進行測試。例如他自己會要求 AI 畫出「水獺搭飛機」,或編寫出「遙遠未來星艦的控制面板」。這些看似古怪的測試,能幫助個人感受到不同模型的風格與對世界的理解程度。

然而,對於企業而言,莫利克推薦更嚴謹的「真實世界基準」。他引用 OpenAI 近期發布的 GDPval 論文,這份研究邀請平均 14 年經驗的各行業專家,設計出需耗時 4 到 7 小時才能完成的複雜專案,再交由 AI 和其他人類專家執行。

GDPval 結果顯示,AI 能力「參差不齊」:在軟體開發和個人理財等領域,頂尖 AI 已超越人類專家;但在藥劑師、工業工程師和房地產經紀人等領域,AI 則遠遠落後。

除了技能參差不齊,莫利克更強調,不同的 AI 擁有不同的個性與偏見。他設計了一項「無人機配送酪梨服務」的商業點子,並讓多個 AI 模型評估可行性(1-10 分)。結果顯示,AI 的「個性」差異巨大:Grok 認為這是個「很棒的主意」,而 Claude 4.5 和 GPT-5 則表示懷疑。

莫利克警告,這種差異絕非小事,當這種決策規模放大時,一個始終更具風險偏好的 AI 顧問,會將組織引導至完全不同的方向。

AI 的終極面試:能否完成 240 項真實專案?

另一份名為《遠距勞動指數:衡量 AI 對遠距工作的自動化程度》(暫譯,原文為 Remote Labor Index: Measuring AI Automation of Remote Work)的最新研究,則對 AI 進行一場迄今為止最嚴苛、最接近真實世界的「面試」。

研究人員指出,傳統測驗要麼過於集中在軟體工程,要麼任務過於簡化,無法反映勞動市場的廣泛性與複雜性。RLI 因此橫空出世,測驗內容包含 240 個真實專案,均來自 Upwork 等自由工作者平台。每個專案都包含客戶的簡報、輸入文件以及人類專家交付的「高品質成品」。這個測試並非集中在 AI 擅長的軟體或寫作,而是橫跨 23 個工作類別,包含 3D 產品渲染、建築規畫、遊戲開發、動態影片製作等複雜任務。

延伸閱讀:AI 可以經營一間商店嗎?Anthropic 報告揭:超會賣東西,但愈賣愈虧!

成果出爐:所有 AI 表現慘不忍睹,自動化程度最高僅 2.5%!

RLI 的評分標準極為嚴格:由人類評估員扮演理性的客戶,判斷 AI 交付的成品是否與人類的高品質標準一樣好,且是否會被認定已完成委託工作。研究顯示,目前所有 AI 代理(Agents)的「自動化程度」都慘不忍睹。

  • Manus: 2.5%
  • Grok 4: 2.1%
  • Sonnet 4.5: 2.1%
  • GPT-5: 1.7%
  • ChatGPT agent: 1.3%
  • Gemini 2.5 Pro: 0.8%

結果表明,儘管 AI 在學術測驗上表現亮眼,但它們距離自主處理真實、複雜、具有經濟價值的遠端工作,仍有極遠的距離。

AI 哪裡沒做好?45.6% 品質低劣、35.7% 交付不全

RLI 的研究人員進一步對 AI 的失敗案例進行分析,歸納出 AI 交付的成品被「退件」的 4 大主因,其中「品質低劣」是最大問題:

  • 品質低劣(Poor quality):
    45.6% 的交件不符專業標準。例如,提交了「兒童畫作般的圖形」、使用了「像機器人的聲音」,或是在 3D 渲染中,不同視角的房屋外觀竟不一致。

  • 不完整(Incomplete)
    35.7% 的交件未達到關鍵要求。例如,客戶要求 8 分鐘的影片,AI 卻只給了 8 秒鐘。

  • 檔案損壞(Corrupted files)
    17.6% 的交件是空白或無法使用的檔案。

  • 前後不一致(Inconsistencies)
    14.8% 的交件在不同檔案間存在矛盾。

當然也有極少數的成功案例,研究發現,AI 成功完成的專案,主要集中在「創意性」任務,例如音訊編輯、為復古電玩創造音效、生成萬聖節廣告圖像,以及編寫簡單的互動式數據圖表。

AI 未必能幫到你的工作,要像面試員工一樣測試它的真本事

綜合莫利克的「AI 面試」倡議 與 RLI 研究:AI 的智力並非全面性,而是呈現「時好時壞的高水準」。學術測驗的高分,掩蓋了 AI 在執行真實工作時的無力。

對於個人與企業而言,當務之急或許不是盲目導入 AI,而是要學會先「面試」它 —— 設計符合自身需求的真實任務,以辨識出模型在特定任務上的真實能耐。

資料來源:One useful thingRemote Labor Index:Measuring AI Automation of Remote Work;本文初稿由 AI 協助整理,編輯:支琬清

繼續閱讀 生成式 AI
相關文章
成功 Success > 目標管理
feature picture
陳姿伶製圖

寫下你的 2026 夢想清單:用原子習慣累積 365 天小勝利,活成自己期待的模樣

2025-11-04 經理人用戶成長中心 羅秀如
分享
收藏
已完成
已取消

2025 年來到尾聲。每年到這個時刻,總會冒出一句熟悉的想法:明年,我想過得更好。

但什麼叫「更好」?是更健康?收入更穩?心情更平靜?或是有更多屬於自己的時間和能力?

如果沒有策略,「更好」常常只會停留在願望。今年,我們換個作法,用能執行、能追蹤、能累積的方式,踏實帶你走向 2026。

向大谷翔平學習:把大目標拆成小任務

棒球巨星大谷翔平曾用九宮格清晰規劃自己的訓練與目標,完成投打二刀流的成就,並多次榮獲 MLB MVP。同樣,台灣柔道選手楊勇緯也借助類似的目標管理方法,精準掌控技術與心態,在奧運舞台上奪得銀牌。

他們的成功不僅來自天賦,更來自具體化目標,並持續行動。

這也正是經理人「商管 LAB」推出「改變人生的目標實踐法」線上課與「理想生活實踐模版」 的核心精神:這套模版並非僅僅是一張表單,而是專為目標管理與實現設計的全方位實用工具。

它結合科學化的九宮格規劃、每日習慣追蹤與復盤日記 3 大核心功能,幫助你將腦海中的構想變成具體行動,再透過持續執行,讓每個小步驟累積成可見成果。

九宮格設計理念:從抽象到具體,畫出你的夢想藍圖

經理人

在我們的模版中,九宮格是將夢想拆解為具體行動的關鍵工具。首先,你需要在格子的中心寫下最核心的夢想,例如「2026年加薪」或「學會第二外語」。接著,將這個夢想拆解為 4 大面向:

屬於自己的計畫: 專注於提升個人技能。
與他人相關的目標: 例如促進合作或建立深厚人際關係。
具體可衡量的成就: 像是考證照、優化履歷表,讓進步變得可見。
無形但深具價值的追求: 比如改善情緒管理或建立正向心態。

經理人

為了協助你思考,我們設計了 2 種九宮格邏輯:

1.放射型思考: 適合初期發想,無需拘泥順序,將所有相關的想法填入九宮格。這種水平式的思考,能激發你的創意靈感,從而找出未曾考慮的目標或行動計畫。

2.螺旋型思考: 適合具體執行階段,從核心目標開始,順時針依次填寫各步驟,建立因果關係,使目標的拆解更有深度。

理想生活實踐模版設計了「AI 目標規劃師」ChatGPT小助手。
陳姿伶製圖

AI 規劃管理師:透過提問釐清思緒,拆解目標與步驟

如果你在規劃時卡關,我們特別設計了一個 ChatGPT 小助手「AI 規劃管理師」,頁面上設有兩個選項:「工作目標拆解」 與 「生活目標拆解」,針對不同面向提供貼心的支持。例如,點選「工作目標拆解」後,GPTs 小助手將引導你輸入以下資訊:

產業與職位: 目前在哪個產業?擔任什麼職位?
工作內容: 你的日常工作任務有哪些?
目標描述: 希望在什麼時間範圍內,達成什麼具體目標?
其他背景資訊: 目標的動機是什麼?是否已經有一些相關的資源、技能或挑戰?

根據你的回答,「AI 規劃管理師」會幫助你拆解出 8 個適合的子目標,並提供具體行動指引,讓方向與步驟更清楚。

每日習慣追蹤:累積微小成就,見證巨大改變

善用每日追蹤,輕鬆培養原子習慣.jpg
陳姿伶製圖

如果九宮格是你的目標地圖,那麼每日習慣追蹤就是實現目標的動力來源。許多人在開始目標管理時,最大的挑戰是如何克服惰性。

我們的模版不僅提供了簡單易用的習慣打卡系統,還加入了一項充滿趣味與激勵的設計:根據完成率,讓你的數據以花朵的形式呈現。

每日打卡建立好習慣,朝理想生活邁進.jpg
陳姿伶製圖

你可以寫下「每天運動 20 分鐘」、「早晨冥想 5~10 分鐘」等想要培養的原子習慣。每天完成後,只需在方格內打勾,就能立即看到數據變化,得到成就感。

隨著完成率逐步提升,一朵小芽會慢慢成長,最終開展成一朵盛開的花朵,象徵你在習慣培養路上的累積與突破。這項設計不僅提升了記錄過程的趣味性,更讓數據從冷冰冰的數字,轉化為溫暖的視覺回饋。

同時,進度視覺化圖表也能幫助你清晰檢視每週、每月的習慣達成率,即使偶有波動,整體數據仍然展現你的堅持與努力。

復盤日記:每天的溫暖對話與反思

透過每日情緒、行動與反思紀錄,追蹤進步與調整方向。
經理人

忙碌的生活中,我們很少停下來與自己對話,在復盤日記中,除了「心情指數」、「睡眠狀態」這些反映身心健康的欄位,我們特別設計了以下提問:

值得讚美自己的 3 件事: 寫下讓你感到自豪的小事,大方的給自己一個肯定。

經歷 3 件美好的事物: 也許是一頓可口的晚餐、他人一句貼心的問候……,透過記錄,將溫暖的瞬間重新珍藏。

今天學到了什麼: 你可以把這一欄當成心願清單,像是「多花幾分鐘陪伴家人」、「面對壓力記得深呼吸」,每一個改善的想法,都是邁向更好的自己。

如果真的想不到要寫什麼,我們在模板中設計了小錦囊,只要跟著提示走,就能幫助你反思過去、挖掘生活中的動力來源,讓每一天都成為邁向夢想的墊腳石。

你的 2026,從寫下第一格開始

經理人

這份「理想生活實踐模版」不僅是一份工具,更是你實現理想生活的指南。搭配「改變人生的目標實踐法」線上課,幫助你從目標的構想到具體實踐,讓夢想變得觸手可及。

今天就開始,寫下你的第一個九宮格,打卡你的第一個好習慣,記錄你的第一份復盤日記。讓我們共同期待,一年後,你所繪出的夢想清單,會變成最動人的故事。

相關文章
會員專區

使用會員功能前,請先登入

  • 台灣首款對話式 AI 職場教練,一次提升領導力
  • 會員專享每日運勢、名人金句抽籤
  • 收藏文章、追蹤作者,享受個人化學習頁面
  • 定向學習!20 大關鍵字,開放自選、訂閱
  • 解鎖下載專區!10+ 會員專刊一次載
追蹤我們