撰文 郝致琪
小心「髒資料」養出錯誤百出的 AI 模型!一表診斷:公司的資料成熟度有多高?
分享
半導體設計與軟體公司安謀(Arm)2025 年發布的《AI 就緒指數》報告指出,全球有 8 成以上的企業表示正在部署 AI 應用。然而,當企業迷信 AI 模型的強大生成能力、急於將 AI 應用落地,卻忽視了支撐模型運作的基礎設施與系統健康度,最後引入的不是一台自動印鈔機,而是一筆利息驚人的「高利貸」。
顧能(Gartner)2025 年警告,若企業只關注眼前的應用場景,卻忽略 AI 帶來的副作用,到了 2030 年將拖垮企業轉型速度。這筆債務主要來自 2 個隱形風險:AI 機器學習系統的技術債(technical debt)和資料完整度(data readiness)的嚴重不足。
急著導入 AI,卻忽視系統基礎建設
技術債,意指為了快速開發或搶先上線,採取短期可行但不利長期維運的設計,導致未來必須付出更高的時間與成本修補系統。
早在 Google 2015 年發表的《Hidden Technical Debt in Machine Learning Systems》就指出機器學習系統中,負責學習與預測的核心程式碼只占不到 5%,剩下的 95% 則是為了讓模型運作而搭建的龐大資料管線和膠水程式碼。問題在於,多數企業將資源集中於優化模型,卻以拼湊方式處理其餘系統基礎。
為了讓通用模型快速貼合業務需求,企業往往不斷外掛修正程式或例外規則,短期看似改善表現,長期下來,系統卻會變成一個沒人敢動的黑箱,一段外掛失效,可能影響多個流程;一次模型升級,就必須全面回歸測試。維運成本因此不斷攀升,卻無法換得更高的穩定性。顧能預估,到 2030 年,將有一半企業因 AI 技術債過重,被迫延後系統升級,甚至重建架構。
技術債之外,更深層的風險來自資料品質。多數企業的內部資料原本是為了人類閱讀或備份而存在,格式混亂、欄位定義模糊,甚至缺乏完整數位化,長期分散在各部門。Arm 報告揭露,有 46% 的領導者坦承資料品質和可取得性是 AI 導入的最大阻礙,更有 18% 的企業仍仰賴人工清理資料。
企業轉型最大瓶頸:模型再強也難敵髒資料干擾
這些無法被 AI 系統穩定理解、追溯與驗證的資料,對模型而言都是雜訊。表格缺乏欄位定義、過時卻未標示的數據,或混雜人工輸入錯誤與缺漏值的紀錄,都會直接影響模型判斷。美國國家標準與技術研究院在《AI 風險管理框架 1.0》中警告,當模型長期攝取充滿雜訊或過時的資料,不僅會產生錯誤預測,還會放大AI幻覺與偏見風險。
當資料缺乏統一標準與治理機制,各部門各自管理,AI系統便無法取得單一可信來源,形成典型的「資料孤島」。模型可能在單一部門表現良好,換到其他場景卻全面失效,再強大的模型也難以跨部門再應用。
技術債與髒資料的後果,最終會演變成管理災難。模型建議不可靠,決策資訊就會被扭曲;部門間資料無法流通,便難以跨部門協作。對此,麥肯錫發現,真正從AI獲利的企業,並非一味追逐最新模型,而是選擇回頭整頓資料基礎和系統架構,確保AI能被長期維運、驗證與問責,成為穩定創造價值的工具。
數位應用成熟度診斷表:你的企業能不能放心讓 AI 上線?
| 題號 | 問題 | 0分 | 1分 | 2分 |
|---|---|---|---|---|
| 1 | 是否有單一權威資料來源(SSOT)? | 多套系統,各說各話。 | 部分資料有主要來源,但仍需人工交叉確認。 | 只有一個官方版本,其餘僅供參考。 |
| 2 | 資料是否清楚標示更新時間和目前版本? | 資料來源與更新時間不明。 | 資料版本、命名混亂,難以判斷哪一版最新。 | 所有資料皆可回溯版本與時間。 |
| 3 | 使用資料時,是否經常需要人工補資料? | 常常要補、要猜,否則無法使用。 | 只有部分欄位需要人工處理。 | 幾乎不需要人工補資料即可使用。 |
| 4 | 不同系統中,相同名詞的意思是否一致? | 同一名詞在不同系統意思不同,需人工解釋。 | 大致一致,但仍有灰色地帶。 | 有明確定義,大家理解一致。 |
| 5 | 是否有人負責資料維運? | 沒有人真正負責。 | 有人負責,但非正式角色。 | 明確責任人與治理流程。 |
| 6 | 是否有資料偏誤檢查? | 完全未檢查。 | 僅在專案階段檢查。 | 定期監測偏誤與漂移。 |
| 7 | 是否有控管資料存取權限? | 誰都能存取。 | 基本權限,但無法追蹤存取紀錄審計。 | 分級權限+完整存取紀錄。 |
總分診斷(資料成熟度的3個級距,滿分14分)
| 分數區間 | 分類 | 說明 |
|---|---|---|
| 0~4分 | 資料混亂期(data-chaotic) | 資料零散、定義不一、信任不高,無法追溯。此階段導入 AI,只會把錯誤放大自動化擴散,AI幻覺、錯誤與錯誤決策幾乎不可避免。 |
| 5~9分 | 資料可用但高風險(data-fragile) | 可支援單一部門或試點,但高度依賴人工監管。AI能提升局部效率,但尚不足以進入核心流程。組織仍在「試AI」,而不是「用AI」。 |
| 10~14分 | AI 就緒(AI-ready) | 資料可治理、可維運、可被模型穩定使用。此階段AI不只是展示工具或效率加速器,AI開始真正進入核心工作流程,成為穩定的工作夥伴。 |
參考資料:〈Hidden Technical Debt in Machine Learning Systems〉, Google Research;〈AI Risk Management Framework 1.0〉, National Institute of Standards and Technology;整理/郝致琪