成功 Success > 數位工具
feature picture
ChatGPT

AI 很聰明、考試都拿高分,卻是個超雷的員工?專家:別再看學術成績,你該做的是「面試」它

2025-11-25 經理人用戶成長中心 支琬清
分享
收藏
已完成
已取消

近年來,AI 模型在各大「學術」表現上屢創佳績,在大規模多任務語言理解(MMLU-Pro)等測驗上取得的高分,似乎預示 AI 已具備超越人類的智力。然而,這些分數是否等同於實際的「即戰力」?

一份最新的學術研究與專家分析指出,AI 在研究導向測驗上的進展,與在真實世界中創造經濟價值的能力之間,存在巨大的鴻溝。

AI 智力的真相 —— 會考試不等於會做事

AI 專家伊森・莫利克(Ethan Mollick)在文章中直指,以學術表現來評估 AI 的做法充滿缺陷。他認為,大家甚至「不知道這些測驗到底在測量什麼」。

他舉例,MMLU-Pro 這類熱門測驗包含了「直立人的平均顱腔容量」或「Cheap Trick 樂團 1979 年現場專輯的命名地點」等冷僻問題。答對這些問題能證明 AI 具備何種能力?答案是「不知道」。

莫利克進一步分析,這些測驗至少存在 3 大問題:首先是「測驗污染」,許多測驗的答案早已公開,AI 模型可能在訓練過程中就已經「背過」答案;其次是「未校準」,沒有人知道分數從 84% 進步到 85% 是否等同於 40% 進步到 41% 的難度;最後,這些測驗完全忽略企業真正在乎的技能,如寫作能力、商業建議或同理心。

延伸閱讀:研究揭企業 AI 導入新悖論:高層狂推狂用,卻怕員工「技能萎縮」

面試 AI 的 2 種方法:「憑感覺」與專業評估

莫利克主張,企業必須像面試員工一樣「面試」AI,他將這種面試分為 2 種層次。

對於個人使用者,可以「憑感覺」進行測試。例如他自己會要求 AI 畫出「水獺搭飛機」,或編寫出「遙遠未來星艦的控制面板」。這些看似古怪的測試,能幫助個人感受到不同模型的風格與對世界的理解程度。

然而,對於企業而言,莫利克推薦更嚴謹的「真實世界基準」。他引用 OpenAI 近期發布的 GDPval 論文,這份研究邀請平均 14 年經驗的各行業專家,設計出需耗時 4 到 7 小時才能完成的複雜專案,再交由 AI 和其他人類專家執行。

GDPval 結果顯示,AI 能力「參差不齊」:在軟體開發和個人理財等領域,頂尖 AI 已超越人類專家;但在藥劑師、工業工程師和房地產經紀人等領域,AI 則遠遠落後。

除了技能參差不齊,莫利克更強調,不同的 AI 擁有不同的個性與偏見。他設計了一項「無人機配送酪梨服務」的商業點子,並讓多個 AI 模型評估可行性(1-10 分)。結果顯示,AI 的「個性」差異巨大:Grok 認為這是個「很棒的主意」,而 Claude 4.5 和 GPT-5 則表示懷疑。

莫利克警告,這種差異絕非小事,當這種決策規模放大時,一個始終更具風險偏好的 AI 顧問,會將組織引導至完全不同的方向。

AI 的終極面試:能否完成 240 項真實專案?

另一份名為《遠距勞動指數:衡量 AI 對遠距工作的自動化程度》(暫譯,原文為 Remote Labor Index: Measuring AI Automation of Remote Work)的最新研究,則對 AI 進行一場迄今為止最嚴苛、最接近真實世界的「面試」。

研究人員指出,傳統測驗要麼過於集中在軟體工程,要麼任務過於簡化,無法反映勞動市場的廣泛性與複雜性。RLI 因此橫空出世,測驗內容包含 240 個真實專案,均來自 Upwork 等自由工作者平台。每個專案都包含客戶的簡報、輸入文件以及人類專家交付的「高品質成品」。這個測試並非集中在 AI 擅長的軟體或寫作,而是橫跨 23 個工作類別,包含 3D 產品渲染、建築規畫、遊戲開發、動態影片製作等複雜任務。

延伸閱讀:AI 可以經營一間商店嗎?Anthropic 報告揭:超會賣東西,但愈賣愈虧!

成果出爐:所有 AI 表現慘不忍睹,自動化程度最高僅 2.5%!

RLI 的評分標準極為嚴格:由人類評估員扮演理性的客戶,判斷 AI 交付的成品是否與人類的高品質標準一樣好,且是否會被認定已完成委託工作。研究顯示,目前所有 AI 代理(Agents)的「自動化程度」都慘不忍睹。

  • Manus: 2.5%
  • Grok 4: 2.1%
  • Sonnet 4.5: 2.1%
  • GPT-5: 1.7%
  • ChatGPT agent: 1.3%
  • Gemini 2.5 Pro: 0.8%

結果表明,儘管 AI 在學術測驗上表現亮眼,但它們距離自主處理真實、複雜、具有經濟價值的遠端工作,仍有極遠的距離。

AI 哪裡沒做好?45.6% 品質低劣、35.7% 交付不全

RLI 的研究人員進一步對 AI 的失敗案例進行分析,歸納出 AI 交付的成品被「退件」的 4 大主因,其中「品質低劣」是最大問題:

  • 品質低劣(Poor quality):
    45.6% 的交件不符專業標準。例如,提交了「兒童畫作般的圖形」、使用了「像機器人的聲音」,或是在 3D 渲染中,不同視角的房屋外觀竟不一致。

  • 不完整(Incomplete)
    35.7% 的交件未達到關鍵要求。例如,客戶要求 8 分鐘的影片,AI 卻只給了 8 秒鐘。

  • 檔案損壞(Corrupted files)
    17.6% 的交件是空白或無法使用的檔案。

  • 前後不一致(Inconsistencies)
    14.8% 的交件在不同檔案間存在矛盾。

當然也有極少數的成功案例,研究發現,AI 成功完成的專案,主要集中在「創意性」任務,例如音訊編輯、為復古電玩創造音效、生成萬聖節廣告圖像,以及編寫簡單的互動式數據圖表。

AI 未必能幫到你的工作,要像面試員工一樣測試它的真本事

綜合莫利克的「AI 面試」倡議 與 RLI 研究:AI 的智力並非全面性,而是呈現「時好時壞的高水準」。學術測驗的高分,掩蓋了 AI 在執行真實工作時的無力。

對於個人與企業而言,當務之急或許不是盲目導入 AI,而是要學會先「面試」它 —— 設計符合自身需求的真實任務,以辨識出模型在特定任務上的真實能耐。

資料來源:One useful thingRemote Labor Index:Measuring AI Automation of Remote Work;本文初稿由 AI 協助整理,編輯:支琬清

繼續閱讀 生成式 AI
相關文章
商業 Business > 創新創業
feature picture
T3CO共享辦公室

不只是共享辦公室,更是企業孵化器!韻驊如何運用空間與資源,加速企業成長?

2026-03-26 經理人xT3CO共享辦公室
分享
收藏
已完成
已取消

走進去的那一刻,就知道這裡不一樣

走進位於信義區核心地段的 T3CO 韻驊共享辦公室,首先映入眼簾的,是一座靜謐的生態魚缸。光影在空間中靜靜變化,讓人不自覺放慢步調,也讓原本緊湊的城市節奏,在這裡稍微緩了下來。

再往內走,另一側設置了一座開放式生態魚缸,與辦公區自然銜接,成為場域中一處刻意保留的緩衝節點。人在這裡,可以短暫停下來,讓視線與思緒稍作停留,再回到工作的節奏之中。

在一個連每一坪都被精算為收益的產業裡,這樣的安排或許不以最大化營收為優先,卻也正是韻驊最關鍵的選擇——
不是讓空間被填滿,而是讓人找到屬於自己的工作節奏。

「我不是在做辦公室生意。」
「我希望這裡是一個你可以待一整天都很舒服的地方。」
台驊控股集團創辦人顏益財說。

長年深耕國際物流、見證無數企業在全球市場競逐的他,很清楚一件事:企業的競爭,不只在市場端,很多時候,其實早就從每天工作的環境開始了。
在他看來,一家企業的運作節奏,往往從日常工作的場域開始被形塑——團隊是否能專注、是否容易協作,甚至能否長時間維持穩定狀態,都與所處的環境密切相關。也因此,韻驊從一開始就沒有把自己侷限於共享辦公室,而是試圖打造一個能讓企業在日常運作中持續累積競爭力的工作平台。

它不只是空間,而是一個被設計過的環境——讓人能專注、讓團隊能協作,也讓企業在看不見的地方,逐步拉開差距。

從固定成本到成長動力:共享辦公室如何構築企業「隱形競爭力」?

隨著遠距與混合辦公逐漸成為新常態,企業對辦公室的定義已悄然改變——它不只是工作場所,更逐漸成為影響企業競爭力的重要一環。

顏益財認為,一個舒適且具設計感的工作環境,有助於形塑專業且穩定的企業形象,不僅能提升客戶與合作夥伴的信賴感、加速合作促成,也能強化企業在人才市場中的吸引力與留任力。同時,良好的空間規劃亦能降低干擾、促進協作,讓團隊更容易進入專注狀態,進一步提升整體工作效能。

然而,若企業從零開始打造這樣的環境,往往需投入大量資金與時間成本。從空間取得、設計裝修,到網路建置與日常管理,對多數企業而言,都是一筆沉重負擔。
共享辦公室原本應該解決這些問題——但多數業者仍停留在「提供空間」,而非真正「支援企業成長」。

韻驊T3CO(1) 20260324.jpg
台驊控股集團創辦人顏益財
T3CO共享辦公室

不只是工作場域,而是推動企業成長的商務平台

看準這樣的轉變,台驊控股集團成立 T3CO 韻驊共享辦公室,從空間出發,進一步延伸為企業成長的平台。

顏益財觀察,目前市場主要存在兩大缺口:一是空間設計過度追求坪效,導致環境壓迫;二是服務停留在場地租賃,缺乏對企業實際商務需求的整合與支援。因此,韻驊重新定義共享辦公室的角色——不只是提供空間,而是支撐企業長期發展的營運平台。

「T3CO韻驊」這個名稱,本身就承載著這樣的定位。顏益財進一步說明,「T3CO」延續了台驊集團長期以來的核心精神,也就是 Trust、Total Solution 和 Technology;「韻」象徵旋律與生活美學,「驊」代表前進與創新的力量。

三者結合,其實就是把物流產業中強調效率與整合的服務能力,延伸到企業的日常工作場域中,打造一個兼具效率、品質與舒適度的工作環境,協助企業在高壓競爭的商業環境中,依然能穩定前行。

核心訴求一:以使用體驗為前提,打造高質感空間

在空間規劃上,韻驊特別重視採光、視野與動線設計,維持整體環境的明亮與通透,降低長時間工作的壓迫感。

場域內設置兩座生態魚缸,一座位於入口,另一座為開放式設計,融入辦公區域之中,透過水族造景讓使用者在工作之餘能適時放鬆視線與節奏。

此外,空間亦規劃接待區、多功能會議室、電話亭、淋浴間、哺乳室與開放式水吧廚房等多元機能空間,滿足不同工作情境需求。在硬體設備上,全區配置人體工學椅、電動升降桌與個人收納邊櫃,並建置高速穩定的網路環境,確保長時間工作的舒適性與效率。

同時,韻驊也提供商業登記、信件收發與訪客接待等基礎商務服務,讓企業在進駐初期即可快速啟動營運。

韻驊T3CO(2) 20260324.jpg
透過通透採光與開闊動線細膩揉合生態魚缸的減壓設計,韻驊在多元機能空間中注入人文關懷,為工作者打造一處能平衡身心、觸發高效專注的純粹辦公境地。
T3CO共享辦公室

核心訴求二:導入集團資源,打造企業孵化型平台

在高質感空間之上,韻驊進一步導入台驊控股集團的全球資源。顏益財指出,台驊控股集團深耕倉儲物流領域多年,旗下涵蓋台驊國際物流、台空國際物流、聯宇達方物流、耀驊國際物流、賽澳遞物流與中產保理等子公司,提供橫跨陸、海、空的整合物流服務,協助企業從內銷配送到跨境出口,逐步串接全球市場。

不僅如此,集團至今已累積超過五萬家客戶,橫跨不同產業別。這些長期沉澱的商業連結,也讓韻驊具備更進一步的角色——在企業不同成長階段,提供相應的資源對接與合作機會。

「企業在不同階段所需要的資源不同,我們希望這個平台能讓它們更容易被連結起來,」顏益財說。

透過這樣的整合,韻驊讓共享辦公室從單純的空間服務,升級為企業營運的支援平台。

一個正在形成的企業生態系

除了商務資源,韻驊亦整合集團資訊技術能力,提供穩定的 IT 基礎建設與網路管理支援,讓企業能在安全且高效的數位環境中運作。當不同產業的團隊在同一個場域中互動,交流與合作也會自然發生。
這讓韻驊逐漸從一個空間,發展為一個具備連結能力的系統——一個正在形成的企業生態系。

韻驊T3CO(3) 20260324.jpg
韻驊結合台驊集團全球物流資源與五萬家產業客戶鏈結,打造具備「企業孵化」功能的商務平台,助進駐企業精準媒合資源並快速接軌國際市場
T3CO共享辦公室

從台北出發,連結更大的市場

隨著營運模式逐步成熟,韻驊也計畫將這套模式複製至海外市場。對顏益財而言,這不只是據點的擴張,而是平台能力的延伸。
他的想像很直接:讓企業從進入這個空間的那一刻起,就更接近國際市場。

這不只是辦公室,而是一個起點

當辦公空間從成本轉變為能力,它所承載的意義也隨之改變。韻驊所打造的,不只是工作場域,而是一個能陪伴企業從起步、成長,到邁向國際的長期夥伴。

在這裡,空間不只是讓你工作——
而是讓你,有機會走得更遠一點。

[本文由 經理人 與 T3CO共享辦公室 共同製作]

會員專區

使用會員功能前,請先登入

  • 台灣首款對話式 AI 職場教練,一次提升領導力
  • 會員專享每日運勢、名人金句抽籤
  • 收藏文章、追蹤作者,享受個人化學習頁面
  • 定向學習!20 大關鍵字,開放自選、訂閱
  • 解鎖下載專區!10+ 會員專刊一次載
追蹤我們