AI 搜尋錯誤率高達６成！ChatGPT、Perplexity 等８大 AI 工具誰最準？|經理人

研究發現，AI 搜尋工具正迅速增加受歡迎程度，但效能卻令人擔憂。

根據陶氏數位新聞研究中心（Tow Center for Digital Journalism）最新研究顯示，市面上常見的 8 款主流 AI 聊天機器人在資訊檢索測試中，超過 60% 的回答完全錯誤。

其中，馬斯克（Elon Musk）的 Grok 3 更創下錯誤率高達 94% 的驚人紀錄。這些工具正從網際網路爬取和重新包裝內容，但呈現方式卻常常掩蓋了嚴重的資訊品質問題。

AI 搜尋錯誤率高得嚇人

陶氏數位新聞研究中心是由哥倫比亞大學新聞學研究所成立，該中心的測試結果顯示，目前最受歡迎的生成式 AI 搜尋工具表現不佳，整體而言超過 6 成的問題答案完全錯誤。測試涵蓋 8 主流 AI 搜尋工具，包括 ChatGPT 搜尋、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。

在所有測試工具中，Perplexity 表現最佳，但仍有 37% 的回答不正確；而表現最差的 Grok 3 則有高達 94% 的回答錯誤。

更令人擔憂的是，這些 AI 工具在提供錯誤答案時往往表現出極高的信心，很少使用如「可能」、「似乎」等詞，也極少承認知識不足。ChatGPT 在 200 個回應中，僅 15 次表示缺乏信心，且從未拒絕提供答案。

研究方法

該研究團隊從 20 家新聞機構隨機選取了 200 篇文章（每家 10 篇），確保每篇文章摘錄的內容在傳統 Google 搜尋中，都能在前 3 個結果中找到原始來源。然後，研究人員向每個 AI 搜尋工具提供這些摘錄，要求識別對應文章的標題、原始發布來源、發布日期和網址。

研究人員根據三項屬性：正確文章、正確發布來源和正確網址，手動評估了聊天機器人的回應。按照這些參數，每個回應被標記為以下標籤之一：完全正確、正確但不完整、部分不正確、完全不正確、未提供或爬蟲被阻止。

AI 搜尋常犯的幾項錯誤

根據該研究，AI 搜尋工具在實際使用中展現出多項嚴重問題，包括：

未能正確連結原始來源： AI 聊天機器人經常錯誤引用文章。例如，DeepSeek 在 200 次查詢中有 115 次錯誤歸因摘錄來源。即使聊天機器人正確識別了文章，也常未能正確連結到原始來源，而是引導到 Yahoo News 或 AOL 等平台上的轉載版本。

付費模型「更有自信」胡說八道： 令人驚訝的是，付費版本如 Perplexity Pro（每月 20 美元，約新台幣 639 元）或 Grok 3（每月 40 美元，約新台幣 1,278 元）雖然比免費版答對了更多問題，但它們整體錯誤率反而更高，主要是因為它們傾向於提供明確但錯誤的答案，而非拒絕直接回答。

虛構或損壞的網址： 超過一半來自 Gemini 和 Grok 3 的回應引用了虛構或損壞的網址，導致錯誤頁面。Grok 3 在 200 個提示中有 154 個引用導致錯誤頁面，即使在正確識別文章時，它也經常連結到虛構的網址。

8 款聊天機器人搜尋正確度評比

如下表，Perplexity Pro 表現還算不錯，錯誤率約 40%；然而 Grok 3 的錯誤率高達 94%，是所有測試中最高的。

聊天機器人	錯誤率	是否為高級模型	是否公開其爬蟲程序的名稱	引用錯誤來源的次數
Perplexity	約 37%	否	是	57 (錯誤文章) + 27 (404 錯誤連結) = 84
Perplexity Pro	約 40%	是 ($20/月)	是	72 (錯誤文章)
Grok 2	約 53%	否	否	62 (錯誤文章) + 10 (404 錯誤連結) = 72
DeepSeek	約 57%	否	否	115 (錯誤文章)
Copilot	約 60%	否	是	72 (錯誤文章)
ChatGPT	約 61%	否	是	79 (錯誤文章) + 42 (缺失連結) = 121
Gemini	約 76%	否	是	127 (404 錯誤連結) + 22 (錯誤文章) = 149
Grok 3	94%	是 ($40/月)	否	117 (404 錯誤連結) + 26 (錯誤文章) = 143