數位時代 林美欣

AI 搜尋錯誤率高達6成!一次看:8大工具誰最準?付費版更愛胡說八道?


研究發現,AI 搜尋工具正迅速增加受歡迎程度,但效能卻令人擔憂。
根據陶氏數位新聞研究中心(Tow Center for Digital Journalism)最新研究顯示,市面上常見的 8 款主流 AI 聊天機器人在資訊檢索測試中,超過 60% 的回答完全錯誤。
其中,馬斯克(Elon Musk)的 Grok 3 更創下錯誤率高達 94% 的驚人紀錄。這些工具正從網際網路爬取和重新包裝內容,但呈現方式卻常常掩蓋了嚴重的資訊品質問題。
AI 搜尋錯誤率高得嚇人
陶氏數位新聞研究中心是由哥倫比亞大學新聞學研究所成立,該中心的測試結果顯示,目前最受歡迎的生成式 AI 搜尋工具表現不佳,整體而言超過 6 成的問題答案完全錯誤。測試涵蓋 8 主流 AI 搜尋工具,包括 ChatGPT 搜尋、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。
在所有測試工具中,Perplexity 表現最佳,但仍有 37% 的回答不正確;而表現最差的 Grok 3 則有高達 94% 的回答錯誤。
更令人擔憂的是,這些 AI 工具在提供錯誤答案時往往表現出極高的信心,很少使用如「可能」、「似乎」等詞,也極少承認知識不足。ChatGPT 在 200 個回應中,僅 15 次表示缺乏信心,且從未拒絕提供答案。
研究方法
該研究團隊從 20 家新聞機構隨機選取了 200 篇文章(每家 10 篇),確保每篇文章摘錄的內容在傳統 Google 搜尋中,都能在前 3 個結果中找到原始來源。然後,研究人員向每個 AI 搜尋工具提供這些摘錄,要求識別對應文章的標題、原始發布來源、發布日期和網址。
研究人員根據三項屬性:正確文章、正確發布來源和正確網址,手動評估了聊天機器人的回應。按照這些參數,每個回應被標記為以下標籤之一:完全正確、正確但不完整、部分不正確、完全不正確、未提供或爬蟲被阻止。
AI 搜尋常犯的幾項錯誤
根據該研究,AI 搜尋工具在實際使用中展現出多項嚴重問題,包括:
未能正確連結原始來源: AI 聊天機器人經常錯誤引用文章。例如,DeepSeek 在 200 次查詢中有 115 次錯誤歸因摘錄來源。即使聊天機器人正確識別了文章,也常未能正確連結到原始來源,而是引導到 Yahoo News 或 AOL 等平台上的轉載版本。
付費模型「更有自信」胡說八道: 令人驚訝的是,付費版本如 Perplexity Pro(每月 20 美元,約新台幣 639 元)或 Grok 3(每月 40 美元,約新台幣 1,278 元)雖然比免費版答對了更多問題,但它們整體錯誤率反而更高,主要是因為它們傾向於提供明確但錯誤的答案,而非拒絕直接回答。
虛構或損壞的網址: 超過一半來自 Gemini 和 Grok 3 的回應引用了虛構或損壞的網址,導致錯誤頁面。Grok 3 在 200 個提示中有 154 個引用導致錯誤頁面,即使在正確識別文章時,它也經常連結到虛構的網址。
8 款聊天機器人搜尋正確度評比
如下表,Perplexity Pro 表現還算不錯,錯誤率約 40%;然而 Grok 3 的錯誤率高達 94%,是所有測試中最高的。
聊天機器人 | 錯誤率 | 是否為高級模型 | 是否公開其爬蟲程序的名稱 | 引用錯誤來源的次數 |
---|---|---|---|---|
Perplexity | 約 37% | 否 | 是 | 57 (錯誤文章) + 27 (404 錯誤連結) = 84 |
Perplexity Pro | 約 40% | 是 ($20/月) | 是 | 72 (錯誤文章) |
Grok 2 | 約 53% | 否 | 否 | 62 (錯誤文章) + 10 (404 錯誤連結) = 72 |
DeepSeek | 約 57% | 否 | 否 | 115 (錯誤文章) |
Copilot | 約 60% | 否 | 是 | 72 (錯誤文章) |
ChatGPT | 約 61% | 否 | 是 | 79 (錯誤文章) + 42 (缺失連結) = 121 |
Gemini | 約 76% | 否 | 是 | 127 (404 錯誤連結) + 22 (錯誤文章) = 149 |
Grok 3 | 94% | 是 ($40/月) | 否 | 117 (404 錯誤連結) + 26 (錯誤文章) = 143 |
研究中也發現,多數機器人無視發布者的爬蟲限制,即使被封鎖仍獲取內容。例如,Perplexity Pro 正確識別了近三分之一本應無權訪問的 90 個摘錄。
而就算有合作關係,AI 也未必能 100% 準確識別其內容,像是《舊金山紀事報》(San Francisco Chronicle)允許 OpenAI 的爬蟲,但 ChatGPT 只正確識別了 10 個分享摘錄中的 1 個。
必須說明的是,「機器人排除協議」雖不具有法律約束力,但它是一種被廣泛接受的標準,用於指示網站哪些部分應該被抓取,哪些部分不應該被抓取。
AI 巨頭們怎麼說?
對於報告結果,研究中心指出,「我們聯繫了本報告中提到的所有人工智慧公司徵求意見,只有 OpenAI 和微軟做出了回應,但都沒有回答我們的具體發現或問題。」
OpenAI 指出:「我們透過幫助每周 4 億 ChatGPT 用戶透過摘要、引用、清晰連結和歸因發現優質內容來支持出版商和創作者。我們與合作夥伴合作,以提高內聯引用的準確性並尊重出版商的偏好,包括透過管理 robAI.txt 中的 OrobAI-Search 來增強它們在搜尋結果。」
微軟則表示:「微軟尊重 robots.txt 標準,並尊重那些不希望其網頁內容被該公司的生成式 AI 模型使用的網站提供的指示。」
本文出自 數位時代;資料來源:Tow Center for Digital Journalism、TECHSPOT、mashable