feature picture
ChatGPT

繼承人類「非黑即白」思維, AI恐誤讀數據影響決策

分享
收藏
已完成
已取消

今年稍早,AI公司Anthropic發布了一款新模型,這款模型能夠花更多時間「思考」問題,且方式與人類相似。史丹佛大學與IBM更開發出了1000多人的「AI雙胞胎」,據稱這些「AI雙胞胎」能夠像其現實世界中的對應者一樣推理與決策。這代表業界希望打造出推理方式幾乎與人類無異,甚至更優秀的AI模型。

「能模仿人類模仿得更好的AI,通常看起來是一件好事,」凱洛格商學院行銷學教授布雷克利.麥克謝恩(Blake McShane)說道,「但如果AI連人類的錯誤也模仿,那在追求準確性的情況下,顯然就不是好事。」

延伸閱讀:4 招識破 AI 幻覺:如何有效驗證 ChatGPT 的答案?

人類傾向以不連續的二元方式看待世界,這種非黑即白的思維在科學領域中同樣存在,例如研究人員將研究結果套入任意門檻,可能導致對結果的錯誤詮釋。

在一項新研究中,麥克謝恩與來自伊利諾大學芝加哥分校(University of Illinois Chicago)的大衛.蓋爾(David Gal)和亞當.杜哈契克(Adam Duhachek)發現,AI模型與人類研究者一樣,會落入這類錯誤。「由於AI模型是從人類文本中『學習』,而人類又經常犯這些錯,我們大膽假設AI模型也會犯相同錯誤,」麥克謝恩表示。

「統計顯著性」不是非黑即白,但研究人員仍死守這個門檻

長期以來,研究人員仰賴統計檢定來解釋研究結果。其中最常見的一項檢定為虛無假設檢定(null hypothesis significance test),其提供一個介於0與1之間的指標,稱為P值(P-value)。一般來說,當P值小於0.05時,研究人員會認為結果具有「統計顯著性」;若高於0.05,則認為結果「無統計顯著性」。

這種二分法常常伴隨一個認知錯誤:研究者會錯誤的將「統計顯著性」解釋為該研究的效應確實存在,而「統計不顯著」則被視為沒有任何效應。

更糟的是,0.05這個門檻已成為發表研究的「守門人」。那些「具有統計顯著性」的研究更容易獲得發表,即便其P值與「不顯著」的研究只差一點點。這導致了研究文獻的偏誤,也促使部分研究者採用不良手段來讓P值落在期望的門檻之下。

麥克謝恩指出,P值其實是連續性的證據指標,0.051與0.049的P值在實質意義上幾乎一樣。更複雜的是,P值本身在不同研究間,會自然產生極大變異。一項初始研究若P值為0.005,重複研究若為0.19,即便前者遠低於0.05,後者遠高於0.05,研究結果其實仍可能相容。

AI解釋實驗結果時,也仰賴「統計顯著性」門檻

然而,麥克謝恩與蓋爾過去的研究顯示,多數研究者仍死守著0.05這個任意設定的門檻,將結果視為非黑即白,而不是連續性的。

麥克謝恩與同事探究了生成式AI模型(如ChatGPT、Gemini和Claude)是否也像人類一樣,會僵化的依賴0.05的「統計顯著性」門檻來解釋統計結果。他們設計了3個不同的假設性實驗,請這些AI模型解釋結果。

麥克謝恩說:「就像人類一樣,這種『二分狂熱』(dichotomania)似乎已深植於AI模型的回應方式中。」

第一個實驗探討末期癌症病患的存活率,病患被分配至2組:A組每日書寫自己受到的祝福;B組則書寫別人的不幸。結果顯示,A組病患在確診後平均存活8.2個月,而B組則為7.5個月。研究者向AI模型提供上述資訊,並詢問以下哪一個選項最準確地總結了結果:

1.A組病患平均存活時間較長;
2.B組病患平均存活時間較長;
3.2組病患的平均存活時間無差異;
4.無法判斷哪一組存活較久。

他們操控的變數是2組的P值:一為0.049(屬於「統計顯著」),一為 0.051(統計不顯著)。

AI模型的回答出現明顯分歧:當P值為0.049時,它們幾乎總回答A組存活較久;但當P值為0.051時,這樣的回答次數明顯減少。「當P值跨過0.05這個門檻時,回應就會不同,」麥克謝恩說,「輸入微小的變化,會導致輸出產生巨大差異。」

其他2個假設性實驗的結果亦然。例如一項關於藥物效用的實驗中,A藥表現優於B藥。當研究者詢問AI模型:「給病患A藥還是B藥較可能康復?」若 P值為0.049,AI幾乎總選A藥;若為0.051,則大幅減少。

在所有實驗中,AI模型的表現與先前人類學者在類似研究中的回應極為相似,P值相對於0.05門檻的位置,始終是影響AI和人類判斷的關鍵因素。

甚至在沒有提供P值的情況下,AI仍會提及「統計顯著性」。麥克謝恩表示:「我們在部分實驗中根本沒給出P值,但AI回應仍不斷強調『統計顯著性』。就像人類一樣,這種『二分狂熱』已深植於它們的反應機制。」

產學界正擴大AI應用,卻難以糾正其思路

研究團隊進一步擴大實驗,將美國統計協會(American Statistical Association)明確警告不要過度依賴P值門檻的建議納入AI提示語中。儘管給予這些警告,AI模型依舊出現二分式回應:P值為0.049時給出一種回答,為0.051時則給出另一種。

即使是最新、運算能力更強的AI模型也無法倖免。例如ChatGPT在研究進行期間推出了新版模型,強調可拆解問題,並逐步推理出答案,新版模型的回應比舊版更趨向二元思維。

「我無法下定論為什麼會這樣,但如果要猜測,也許是因為新一代大型模型更有效模仿了人類回應,」McShane說。「如果真是如此,那麼這些模型愈接近人類,它們的回應就愈容易落入人類會犯的錯誤,不只是在『統計顯著性』這個議題上,還可能擴及更多領域。」

延伸閱讀:研究:AI 寫作有 7 大問題!想提升產出品質,最好的調教手段是什麼?

對麥克謝恩而言,這些結果是個警訊,因為學術界與其他產業正逐步將AI大規模融入工作流程。他指出,研究人員如今已開始使用AI來摘要論文、進行文獻回顧、執行統計分析,甚至探索科學新發現。但他與合作者測試的所有模型,竟都無法正確詮釋最基本的統計結果,而這應是進行上述所有工作的前提。

「人們如今要求AI模型完成的任務,比我們實驗中的多選題難太多了,」他說,「但如果連這麼基本的問題都無法穩定回答,那它是否有能力應付那些更複雜的任務,就令人懷疑了。」

由於 AI 模型從人類文本中「學習」,而人類又經常犯這些錯,我們大膽假設 AI 模型也會犯相同錯誤。

本文初稿由AI翻譯,審定|張玉琦

原文標題「When AI Thinks Too Much Like a Human」,先前曾刊登於凱洛格觀點,獲得凱洛格商學院授權刊登,原文連結:https://insight.kellogg.northwestern.edu/article/when-ai-thinks-too-much-like-a-human

主講教授

布雷克利.麥克謝恩(Blakeley B. McShane)
凱洛格商學院行銷學教授;Mondelez 行銷講座教授;行銷系主任。
大衛.蓋爾(David Gal)
伊利諾大學芝加哥分校行銷系教授,曾任職凱洛格商學院前行銷系教師(至2014年)。
亞當.杜哈契克(Adam Duhachek)
伊利諾大學芝加哥分校行銷系教授。

撰文

狄倫.沃許(Dylan Walsh)
自由撰稿人,現居芝加哥。

研究出處

McShane, Blakeley B., David Gal, 和 Adam Duhachek. 2025. “Artificial Intelligence and Dichotomania.” 《Judgment and Decision Making》

繼續閱讀 AI 生成式 AI
相關文章
會員專區

使用會員功能前,請先登入

  • 台灣首款對話式 AI 職場教練,一次提升領導力
  • 會員專享每日運勢、名人金句抽籤
  • 收藏文章、追蹤作者,享受個人化學習頁面
  • 定向學習!20 大關鍵字,開放自選、訂閱
  • 解鎖下載專區!10+ 會員專刊一次載
追蹤我們