
只憑數字做決策的主管,小心了!忽視報表沒寫的資料,嚴重時恐鬧出人命


你可能聽過一個笑話:有位醉漢在路燈下找鑰匙,不是因為鑰匙掉在那,而是只有那裡夠亮、看得見。這個笑話道盡了無知的風險,當我們過度拘泥於現有的線索時,就會忽視尚未揭露的訊息,產生錯誤的推論。
2011 年英國推出犯罪電子地圖,使用者可在地圖上查閱任一地點附近的治安狀況,好處是民眾能在看似透明的資訊下,決定要在哪買房與租房,並在晚上避開犯罪率高的街道。但施行後發現,地圖中犯案數相當高的街道,只有一家酒吧、停車場和一座公寓,沒有太多聲色場所,相對單純。
為什麼會這樣?英國直線保險集團(Direct Line Insurance Group)指出,由於案件會顯示於地圖上,10% 民眾傾向不報案,避免房價下跌。因此,地圖顯示的可能是人們願意報案的區域,而非犯罪率高的地方,如果遺漏「10% 民眾不願報案」,誤以為地圖反映的就是真實,就會做出偏頗決策。
英國統計學家大衛‧漢德(David Hand)在《暗數據》一書中,將人們遺漏的資訊與數據稱為「暗數據」(dark data)。這個詞發想自「暗物質」,科學家認為宇宙由 27% 的暗物質組成,由於它不與光和電磁輻射作用,難以察覺其存在,但會改變星體的移動速度,如同生活中有許多未察覺的暗數據,會無形中影響我們的判斷。
企業常以數據作為決策的基準,例如銀行瀏覽信用卡的交易紀錄,以為目標客群喜歡刷卡買電影票,因此積極找影廳洽談合作。這個看似合理的行銷策略中,就藏著許多暗數據,一是部屬交給主管的資料,可能刪除了未開卡者的資料;二是資料僅反映刷卡購物者的習慣,遺漏偏好支付現金的人。
假使未開卡者的比例高於開卡者,銀行就要調整行銷模式,從鞏固既有客戶,改為開拓新藍海市場,了解未使用信用卡者的需求,擬定新方案。由此可知,忽略暗數據,小至行銷策略錯誤,大至讓企業喪失競爭優勢。面對仰賴數據的時代,我們該如何察覺暗數據?
漂亮的數據也別輕信,多方汲取、爬梳資料
懷疑是防範暗數據的不二法則,改變詮釋數據的角度,能幫助我們快速判斷暗數據是否藏在裡頭。比方說,某樣食品標榜「90% 不含脂肪」,聽起來可能很健康,但若改成「含脂肪 10%」,你還會想購買嗎?同理,某療法宣稱能讓人的罹癌風險減半,但如果是從 2% 減至 1%,可能會覺得效果小到無足輕重。
其次是弄清楚數據怎麼來的。微軟研究院的高級資深研究員里奇.卡魯安納(Rich Caruana)曾舉一個人工智慧(AI)出錯的例子,醫院透過 AI 預測肺炎病患的死亡率,出現驚人的結果:同時罹患氣喘和肺炎的死亡率,比單純罹患肺炎還低。這難道是神奇的生理機制嗎?檢視 AI 的判斷過程,會發現它忽視了不同治療方法的影響,醫師會判定氣喘病史的肺炎患者是死亡高危險群,將他送進加護病房,接受優於普通患者的治療,此舉反倒降低了他們的死亡率。
醫生若相信 AI 找出的相關性,讓同時罹患氣喘和肺炎的病人只接受普通治療,患者死亡率可能會攀升。漢德提醒, 看到驚豔的數據別高興過頭,試著爬梳數據的調查方式,覺得「怪」就要探究下去 ,即使研究結果符合常理,也要反覆確認是否有其他資料操弄,避免墜入偏見的陷阱。
拒答、漏填也是一種資訊,加強隱私讓他們願意說
另一個依賴數據的現象,是企業為了追求更好的銷售表現,經常展開市調。但在強調隱私的時代,人們不見得願意透露個資,漢德認為,略過拒答者或問卷中沒填到的欄位,容易產生「倖存者偏誤」(過度關注倖存者的經歷,無視罹難者狀況,而造成的錯誤結論),使得調查結果往往只能反映願意填寫問卷者的狀況,與真實情形可能有落差。
針對漏填資料者進行訪談,了解他們拒答的原因,是避免倖存者偏誤的根本做法。過往我們常以為,受訪者拒填問卷是太忙,或因粗心而漏填某些選項,但《暗數據》指出,資料遺漏的另一種可能是, 受訪者認為揭露這項訊息令他們難為情 ,例如低收入者不願透露年薪、自認肥胖者對體重數字很敏感,這種漏答狀況會影響調查結果。
在蒐集資料時,必須注意受訪者的填答心態,微幅調整調查方式,比如採用匿名填答,或在受訪者填答完後,進行資料加密,透過這些機制提高受訪者的填答意願,增加調查的可信度。
顧及隱私的調查法比較麻煩,《暗數據》試圖證明,取得一份正確資料並不容易,你除了要學會從既有資料覺察暗數據,還要留心調查過程的盲點。唯有對一切保持警覺,懂得隨時修正數據的意義,才能從中得到更多的啟發。
(本文取材自《暗數據》,大塊文化出版。)
