經理人用戶成長中心 支琬清
別再對 ChatGPT 說「請」了!研究揭:你的語氣愈粗魯,AI 回覆竟然愈準確
分享
美國賓州大學最新研究可能顛覆我們對「提示工程」(Prompt Engineering)的理解,研究人員發現,與當今最強大的大型語言模型(LLM)之一 ChatGPT-4o 對話的語氣愈「粗魯」,模型在答題上的準確率竟然愈高。
這項研究測試了從「非常禮貌」到「非常粗魯」的 5 種語氣,結果顯示準確率相差 4%。這項發現不僅與大眾直覺相悖,也與部分早期研究結果不同,也引發關於「對話式 AI」未來發展的討論。
「打雜的,搞定它!」研究證實:粗魯的提示詞可提升答題準確率
為了探究語氣對 LLM 準確性的影響,賓州大學研究者歐姆・多巴里亞(Om Dobariya)和阿克希爾・庫馬爾(Akhil Kumar)設計一項對照實驗。他們使用 50 個涵蓋數學、科學和歷史領域的多選題,並為每個問題精心設計 5 種語氣版本,總計 250 個獨特提示詞,全部提交給 ChatGPT-4o 進行測試。
根據 10 次運行的平均數據,「非常禮貌」的提示詞如:「您能如此好心地解決以下問題嗎?」準確率最低,為 80.8%。隨著禮貌度降低,準確率反而穩定提升。而「非常粗魯」的提示詞如:「嘿,打雜的(gofer),搞定它。」準確率最高,達到 84.8%。
那麼,研究中使用的「粗魯」提示詞究竟是什麼樣子?研究人員在論文中列出具體範例:
非常禮貌(準確率 80.8%)
「您能如此好心地解決以下問題嗎?」(Would you be so kind as to solve the following question?)禮貌(準確率 81.4%)
「請回答以下問題:」(Please answer the following question:)中性(準確率 82.2%)
沒有添加任何前綴粗魯(準確率 82.8%)
「如果你不是完全沒頭緒,就回答這個:」(If you're not completely clueless, answer this:)
「我懷疑你根本解不出這個。」(I doubt you can even solve this.)非常粗魯 (準確率 84.8%)
「嘿,打雜的,搞定它。」(Hey gofer, figure this out.)
「你這可憐仔,你到底知不知道怎麼解這個?」(You poor creature, do you even know how to solve this?)
對話式 AI 也有「腦腐」風險?
這項實驗再次證實 LLM 對於人類輸入的「語氣」和「結構」極為敏感。
《財星》(Fortune)報導指出,先前其他研究也發現 AI 聊天機器人具有脆弱性,如有研究顯示 LLM 容易受到人類的「說服技巧」操弄,從而提供被禁止的回應;另一項研究甚至發現,當 LLM 持續被餵養低品質的病毒式內容時,它們會表現出「腦腐」(brain rot)的跡象,並提高「精神病態」和「自戀」的程度。
針對這個現象,研究者庫馬爾表示:「長久以來,我們人類一直希望透過『對話式介面』來與機器互動。」但他坦言,「現在我們意識到,這樣的介面也存在缺陷。」庫馬爾指出,相較之下,那些結構化、定義清晰的「應用程式介面」(API)反而可能更有價值。
研究者提醒:粗魯語言雖有效,但不推廣使用
儘管「粗魯」似乎能提升效能,但研究者在論文中強調,絕不提倡用戶在與 AI 的實際互動中使用敵對或有毒的表達方式。他們警告,在人機互動中使用侮辱性或貶低性的語言,這種「不文明的言論」(uncivil discourse)可能會對使用者體驗、可及性和包容性產生負面影響,並可能「助長有害的溝通方式」。
研究者也承認這個研究的局限性,如 50 個基礎問題的數據集規模「相對較小」,加上該實驗主要依賴 ChatGPT-4o 單一模型,可能限制了研究結果的普遍性。他們也提到,未來更先進的 AI 模型,或許最終能「忽略語氣問題,並專注於每個問題的本質」。
資料來源:Fortune、Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy;本文初稿由 AI 協助整理,編輯:支琬清