成功 Success > 數位工具
feature picture
陶氏數位新聞研究中心

AI 搜尋錯誤率高達6成!一次看:8大工具誰最準?付費版更愛胡說八道?

2025-03-19 數位時代 林美欣
分享
收藏
已完成
已取消

重點一:AI 搜尋工具普遍表現不佳,錯誤回答率高達 60% 以上。



重點二:不要以為付費 AI 模型就很安全,研究發現,這些高級模型提供的錯誤答案比免費版更有信心且更多。



重點三:AI 搜尋工具常無視發布商的機器人排除協議,未正確引用原始內容。

研究發現,AI 搜尋工具正迅速增加受歡迎程度,但效能卻令人擔憂。

根據陶氏數位新聞研究中心(Tow Center for Digital Journalism)最新研究顯示,市面上常見的 8 款主流 AI 聊天機器人在資訊檢索測試中,超過 60% 的回答完全錯誤

其中,馬斯克(Elon Musk)的 Grok 3 更創下錯誤率高達 94% 的驚人紀錄。這些工具正從網際網路爬取和重新包裝內容,但呈現方式卻常常掩蓋了嚴重的資訊品質問題。

延伸閱讀:Perplexity、ChatGPT 只要一鍵就能搜尋,Google 會被 AI 搜尋取代嗎?

AI 搜尋錯誤率高得嚇人

陶氏數位新聞研究中心是由哥倫比亞大學新聞學研究所成立,該中心的測試結果顯示,目前最受歡迎的生成式 AI 搜尋工具表現不佳,整體而言超過 6 成的問題答案完全錯誤。測試涵蓋 8 主流 AI 搜尋工具,包括 ChatGPT 搜尋、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。

在所有測試工具中,Perplexity 表現最佳,但仍有 37% 的回答不正確;而表現最差的 Grok 3 則有高達 94% 的回答錯誤

更令人擔憂的是,這些 AI 工具在提供錯誤答案時往往表現出極高的信心,很少使用如「可能」、「似乎」等詞,也極少承認知識不足。ChatGPT 在 200 個回應中,僅 15 次表示缺乏信心,且從未拒絕提供答案。

AI工具錯誤率.jpg
陶氏數位新聞研究中心

研究方法

該研究團隊從 20 家新聞機構隨機選取了 200 篇文章(每家 10 篇),確保每篇文章摘錄的內容在傳統 Google 搜尋中,都能在前 3 個結果中找到原始來源。然後,研究人員向每個 AI 搜尋工具提供這些摘錄,要求識別對應文章的標題、原始發布來源、發布日期和網址。

研究人員根據三項屬性:正確文章、正確發布來源和正確網址,手動評估了聊天機器人的回應。按照這些參數,每個回應被標記為以下標籤之一:完全正確、正確但不完整、部分不正確、完全不正確、未提供或爬蟲被阻止。

AI 搜尋常犯的幾項錯誤

根據該研究,AI 搜尋工具在實際使用中展現出多項嚴重問題,包括:

未能正確連結原始來源: AI 聊天機器人經常錯誤引用文章。例如,DeepSeek 在 200 次查詢中有 115 次錯誤歸因摘錄來源。即使聊天機器人正確識別了文章,也常未能正確連結到原始來源,而是引導到 Yahoo News 或 AOL 等平台上的轉載版本。

延伸閱讀:AI 可以幫你速速寫履歷,但也有搞砸的風險!專家教你如何避免「踩雷」

付費模型「更有自信」胡說八道: 令人驚訝的是,付費版本如 Perplexity Pro(每月 20 美元,約新台幣 639 元)或 Grok 3(每月 40 美元,約新台幣 1,278 元)雖然比免費版答對了更多問題,但它們整體錯誤率反而更高,主要是因為它們傾向於提供明確但錯誤的答案,而非拒絕直接回答。

虛構或損壞的網址: 超過一半來自 Gemini 和 Grok 3 的回應引用了虛構或損壞的網址,導致錯誤頁面。Grok 3 在 200 個提示中有 154 個引用導致錯誤頁面,即使在正確識別文章時,它也經常連結到虛構的網址。

8 款聊天機器人搜尋正確度評比

如下表,Perplexity Pro 表現還算不錯,錯誤率約 40%;然而 Grok 3 的錯誤率高達 94%,是所有測試中最高的。

聊天機器人 錯誤率 是否為高級模型 是否公開其爬蟲程序的名稱 引用錯誤來源的次數
Perplexity 約 37% 57 (錯誤文章) + 27 (404 錯誤連結) = 84
Perplexity Pro 約 40% 是 ($20/月) 72 (錯誤文章)
Grok 2 約 53% 62 (錯誤文章) + 10 (404 錯誤連結) = 72
DeepSeek 約 57% 115 (錯誤文章)
Copilot 約 60% 72 (錯誤文章)
ChatGPT 約 61% 79 (錯誤文章) + 42 (缺失連結) = 121
Gemini 約 76% 127 (404 錯誤連結) + 22 (錯誤文章) = 149
Grok 3 94% 是 ($40/月) 117 (404 錯誤連結) + 26 (錯誤文章) = 143
付費模型.jpg
陶氏數位新聞研究中心

研究中也發現,多數機器人無視發布者的爬蟲限制,即使被封鎖仍獲取內容。例如,Perplexity Pro 正確識別了近三分之一本應無權訪問的 90 個摘錄。

而就算有合作關係,AI 也未必能 100% 準確識別其內容,像是《舊金山紀事報》(San Francisco Chronicle)允許 OpenAI 的爬蟲,但 ChatGPT 只正確識別了 10 個分享摘錄中的 1 個。

必須說明的是,「機器人排除協議」雖不具有法律約束力,但它是一種被廣泛接受的標準,用於指示網站哪些部分應該被抓取,哪些部分不應該被抓取。

AI 巨頭們怎麼說?

對於報告結果,研究中心指出,「我們聯繫了本報告中提到的所有人工智慧公司徵求意見,只有 OpenAI 和微軟做出了回應,但都沒有回答我們的具體發現或問題。」

OpenAI 指出:「我們透過幫助每周 4 億 ChatGPT 用戶透過摘要、引用、清晰連結和歸因發現優質內容來支持出版商和創作者。我們與合作夥伴合作,以提高內聯引用的準確性並尊重出版商的偏好,包括透過管理 robAI.txt 中的 OrobAI-Search 來增強它們在搜尋結果。」

微軟則表示:「微軟尊重 robots.txt 標準,並尊重那些不希望其網頁內容被該公司的生成式 AI 模型使用的網站提供的指示。」

本文出自 數位時代;資料來源:Tow Center for Digital JournalismTECHSPOTmashable

繼續閱讀 數位工作術 AI
相關文章
會員專區

使用會員功能前,請先登入

  • 台灣首款對話式 AI 職場教練,一次提升領導力
  • 會員專享每日運勢、名人金句抽籤
  • 收藏文章、追蹤作者,享受個人化學習頁面
  • 定向學習!20 大關鍵字,開放自選、訂閱
  • 解鎖下載專區!10+ 會員專刊一次載
追蹤我們