鉅亨網 莊閔棻
AI 明知自己在鬼打牆卻無法停止!研究揭「詞語沙拉」現象
分享
隨著 ChatGPT-5、Claude 3.5、Gemini 1.5 Pro 等推理型大語言模型(LRM)日益普及,來自明尼蘇達大學、萊斯大學、史蒂文斯理工學院以及 Lambda Inc 最新研究發現,這些模型在執行長鏈推理任務時,仍存在一個令人震驚的漏洞「詞語沙拉」(Word Salad)。
所謂「詞語沙拉」,指模型在生成推理文本時,將詞語像生菜般反覆堆疊、重複、攪拌,看似豐富,實則毫無語義價值。
更令人驚訝的是,模型甚至能「意識到自己在胡說」,卻無法自行停止,導致大量計算資源被浪費。
研究指出,大型推理語言模型的思維鏈(Chain-of-Thought, CoT)推理代價極高。每一步生成的文本都需要被再次解碼、儲存和預測,其計算開銷遠超普通對話模型。
研究觀察到,模型在長鏈推理過程中,常出現「幻覺式贅述」:重複句式、列舉無關情況,或在解釋中兜圈子,形式上像在推理,但語義上完全空洞。
分析 DeepSeek-R1-Distill 系列模型在 GPQA-Diamond 數據集的表現時,研究者發現平均超過 55% 的生成 token 屬於「詞語沙拉」,意味著每次推理調用中,有一半費用浪費在模型的語言循環上。
更重要的是,這種行為並非偶然,而是可被預測的模式:在模型陷入循環前後,隱藏狀態分布明顯變化;某些 token(尤其是雙換行符 \n\n)後的狀態訊號可準確預示模型是否「失控」。
WordSaladChopper:即時干預
為解決這個問題,研究團隊提出了名為「詞語沙拉切斷器」(WordSaladChopper)的框架,其思路簡單而有效:
- 在模型生成推理時,監控每個段落(以雙換行符分割);
- 如果連續兩個段落的隱藏狀態顯示「循環模式」,
- 系統立即切斷生成,並自動補上提示讓模型「從此重新回答」。
此方法已在 GitHub 上開源:WordSaladChopper。
研究團隊的實驗主要在單台輝達 (NVDA-US) H100 GPU 上進行,測試模型包括 o1-mini、GPT-4o-mini 與 Claude 3.5-sonnet,並使用 S1 benchmark(OpenAI 推出的 reasoning-focused 評測集)驗證效果。
結果顯示,詞語沙拉循環普遍存在:在 1000 條推理軌跡中,約有 61% 的軌跡至少出現一次,平均浪費 23% 的解碼預算。
利用線性分類器檢測模型隱藏狀態,能以高精度識別重複片段,並在接入干預後最多縮短 57% 的輸出,且對整體正確率影響可忽略。
為何推理模型容易陷入「詞語沙拉」
對於為何推理模型容易陷入循環,研究者提出三大原因:
- 長上下文窗口:模型能記住先前生成的內容,容易將其重複引用或重組;
- 高一致性偏好:為維持語言流暢,模型即使偏題,也會強行「接著講完」;
= 缺乏明確終止條件:模型沒有「我想不出來了」的機制,遇到邏輯死胡同只能繼續生成表面合理文字。
這些因素使得模型在長推理任務中容易「過度思考」,甚至產生語言幻覺。
算力幻覺與評測反思
論文還提出了一個重要觀點:我們以為的模型「幻覺」,可能其實是算力層面的幻覺。模型將計算資源浪費在無意義的循環上,卻仍「自信滿滿」。
現有的推理評測(如 GSM8K、MATH、GPQA)僅關注模型答對與否,卻很少衡量效率與資源浪費。
研究者指出,一旦未來出現更全面的評測標準,許多現有被吹捧的「高效推理方法」可能會失效,或者表現與原生模型完全不同。
這也為當前思維鏈熱潮提供了隱性的反思:許多模型表面在思考,但實際上並未真正推理。
(本文出自鉅亨網)