成功 Success > 決策技術
feature picture
1

一部劇狂增 300 萬訂戶!Netflix 的啟示:了解 3 件事,數據就能變黃金

採訪.撰文 林庭安
2022-03-14
分享
收藏
已完成
已取消

《紙牌屋》(House of Cards)是網飛(Netflix)最受歡迎的原創影集之一,至今已獲得 30 多項艾美獎提名,也是首部獲得艾美獎提名的網路原生影集。時間回到 2013 年,導演大衛芬奇(David Fincher)正到處兜售版權,電視台都要求看過試播再買版權,但 Netflix 卻憑著後台數據,就決定砸 1 億美元買下兩季。

根據當時 3300 萬的會員數據,他們透過交叉比對發現,喜歡 1990 年代 BBC 版《紙牌屋》的觀眾,也是導演芬奇與演員凱文.史貝西(Kevin Spacey)的粉絲,所以在看到導演及演員名單後,就決定買下版權。

播出後,該影集為 Netflix 帶進 300 萬新用戶,在影評網站 IMDb 上,也獲得 8.7 的高分。這是一個用數據做對決策的真實案例,時至今日,企業累積的數據也都足以做出像 Netflix 一樣的精準決策。

延伸閱讀:Netflix改排行榜規則!為何「累積觀看人數」成了無用指標?

一張發票告訴你的事:消費者心理與訴求

《解讀數據的技術》指出,企業應該透過分析消費者或使用者行為,去發現更多需求,利用洞察生產消費者想要的產品或服務。愈了解你的顧客,最終都會轉化成企業的銷售額。

不過,要從哪裡得知關於消費者的數據呢?其實,現在數據隨手可得,舉個最小也最常見的例子,就是發票明細。發票明細可以描繪出消費者與企業相遇的瞬間,串聯兩者之間的關係。

首先,明細記載著個人資料,讓企業能串聯消費行為。再來,發票載明了時間、地理位置、商品資訊等,它可以知道一名消費者在何時、何地、用什麼方式買了什麼東西。

麻布數據科技執行長陳振榮表示,企業想得知的資訊,不外乎是為什麼原本會買自家商品的人不買了,以及他去買了些什麼;或者是,這段期間新接觸的消費者是從哪裡來,「知道客層挪移,就知道怎麼跟新客群溝通,訴求的點也會不同。」

數據就像珠子,靠「人」串成珠寶

不過,大多數公司都沒有充分分析這些內部數據。《解讀數據的技術》把數據比喻成珠子,珠子種類、數量當然愈多愈好,但需要「匠人」把它串起來,才能成為珠寶。舉例來說,每場球賽,都會為運動員留下許多關於能力的紀錄,比方說棒球的打擊率、上壘率等,但在挖掘球星時,應該要關注哪種數據呢?

改編自真人真事的電影《魔球》(Moneyball),即是描述美國職棒奧克蘭運動家隊,靠著數據找出價值被低估的球員,用最少的預算創造 20 連勝,追平大聯盟的歷史紀錄。

球隊總經理比利.比恩(Billy Beane)跟其助理認為,贏球的關鍵不是擁有多少明星球員,而是有多少上壘數。

於是,他們用數學模型算出要進入季後賽所需的上壘數,再利用大數據找出最容易上壘,但價值卻被低估的球員,最終以最小投資獲取最大勝率。

當手邊握有許多數據時,你可以根據你的假設、目標,從中挖掘出所需資料,進而佐證假設是否可行、合理。然而,我們遇到的問題多半是,手邊有許多數據,但卻不知道能拿它來做什麼。比方說,每天製作的社群日誌、業務日誌,如何從中挖掘出洞見呢?

延伸閱讀:如何用數據分析行銷成效?行銷活動做得好不好,衡量這6個KPI

學會提問、建立假設,讓數據為你所用

《只要 Excel 六步驟,你也能做商業分析、解讀數據,學會用統計說故事》指出,想要用數據解決問題,就必須先學會提問,思考「為什麼會發生這樣的事情?原因是什麼?」

假如你知道氣候會影響銷售,但卻不知道經營的店鋪,是在天氣冷的時候生意比較好,還是在天氣熱的時候比較好。首先,必須先定義天氣冷熱,是有用溫度分,還是以季節?再來,區分不同類型的產品,看哪種賣得好、哪種賣不好。

接著再用資料驗證假設是否正確,如果覺得某項產品在下雨天賣得比較好,就要將天氣數據跟銷售時序數據結合在一起,觀察下雨量、氣溫等資料,是否跟該品項的營業額有相關。

而使用的分析方法不同,能解答的問題層級也有所不同,對一般工作者來說,其實只要能應用層級 1、2,就足以做出比他人更有說服力的報告、提案了。

更上層的分析,則是要靠大數據、機器學習、深度學習、資料探勘等新技術輔佐。《解讀數據的技術》指出,許多企業將數據視為「目的」,但是數據並非目的,只是一個「手段」,只有達到目標時,數據才會發光發熱。

而從數據本身到協助決策或解決問題,這之間的「加值」,必須得靠人來完成。有家銀行設計了一套大數據分析模式來防止客戶流失,所謂的流失,是指客戶把錢搬來搬去,或是展現離開銀行的跡象。

當分析模式找到客戶流失的證據後,正準備要寫信請客戶重新考慮時,銀行主管從數據端發現,從數據端來看,的確有流失的證據,但查找背後的原因時,發現那不是因為客戶對銀行或自家服務有不滿,而是那群人正在辦離婚,所以才要轉移資產。

《小數據獵人》指出,大數據在串起成千上萬個數據點來產生相關性的同時,固然可以很精確,但是人類行為總是有許多難以解釋的地方。簡單來說,大數據可以協助我們判讀一個現象或模式,但我們還是需要人來解讀,才能賦予數據意義。

從量化現狀到預測未來,數據分析都能做到
經理人
繼續閱讀 數據分析
相關文章
成功 Success > 決策技術
feature picture
2

「最近營業額下滑,怎麼辦?」老闆這樣問,背後至少有 3 個問題要解決

整理.撰文 吳美欣
2022-03-15
分享
收藏
已完成
已取消

二次大戰期間,戰況激烈,各國想要提升軍機在砲火下的生存率。當時,美國一群科學家記錄了倖存回來的飛機上留下的彈孔,有人主張要在彈孔密度最高的區域,加強防護裝置;有人認為應該先強化油箱與駕駛所在的關鍵位置。

正當大家爭論不休時,哥倫比亞大學統計學教授亞伯拉罕.沃爾德(Abraham Wald)卻說了句,「這些彈孔統計數據毫無參考價值。」因為能夠安全飛回來的飛機,表示機身上的彈孔落點,都不足以致命;真正有致命危險的彈孔數據,早就已經隨著飛機葬身海底了。

這個例子說明,從錯誤的假設出發,蒐集到錯誤數據,再怎麼分析也得不出結果。

《用數字做決策的思考術》提到,數據蒐集有 2 個目的,一個是驗證你預設好的「假說」、一個是建構原先沒有的假說,兩者要交互運用,來回驗證說法的準確性。譬如,在執行一項專案時,你可能會先藉由訪談建立初步假設,再發放問卷驗證自己的假說是否正確。

換句話說,數據分析是圍繞著問題意識打轉,蒐集數據的目的,是用來驗證問題、產生行動。因此,在蒐集數據前,第一步要先定義商業問題。

延伸閱讀:消費需求藏在數據裡!以人類學視角洞察數據的 3 種工具,幫你看穿消費者情感、思維

5W1H 讓問題具體化,才知道該蒐集什麼資料

《只要 Excel 六步驟,你也能做商業分析、解讀數據,學會用統計說故事》表示,可以適當運用 5W1H(who 誰、when 時間、where 地方、what 什麼事、why 為什麼發生、how 如何發生),針對問題提問。

假設公司業務部營業額下降要思考對策,但「營業額降低」只是問題呈現出來的結果,不能只就這個結果設想解決方案,應該先思考,發生的原因是什麼?

如果你認為主要原因是「新客戶開發數量不夠」,新客戶開發數量的問題,加入 5W1H 後,重新整理成「是否因為某地區(where)的業務離職(what),導致該區域新客戶量較少?」讓問題愈來愈具體。

所謂的「具體」,是指能運用資料分析來回答的問題。當我們懷疑「開發新客戶數量」與「營業額」有關時,就要觀察「業務陌生拜訪次數」、「拜訪後成交率」、「各客戶消費金額」等指標。

接著進行分析比較,觀察兩者走勢:比方從折線圖觀察,是否拜訪次數增加、成交率也跟著增加?或者,即使拜訪次數增多,成交率也沒有太大差異,藉此驗證假設是否正確。

如何問對問題:將商業思考拆解成可量化的數字
經理人

不是根據數據提出假說,而是有了假說才蒐集數據

有時現有資料無法釐清問題,或者資料有限,你得蒐集更多資料,或者修改假設,不見得分析一次就會成功。你也許會發現原先的假設與問題可能毫無關聯,但是依照結果,可以修改假設,一步步逼近問題核心。

《簡單用數據,做出好決策》表示,很多人以為,要觀察數據才能產生假說,但其實最佳來源是接近業務現場的人,產品經理、客服與銷售人員,因為他們才是在決策方針之下,實際行動的人。最好召集所有利害關係人,召開腦力激盪會議,分享他們認為什麼因素可能會造成目前的狀況。在這個階段,目標是要產生好幾個可能的假說。

美國數據管理顧問公司 Aryng 曾為一間金融服務機構諮詢,解決近期客戶流失的問題。在假說會議上,有業務員提出,風險政策改變,可能會導致某些潛在客戶失去資格,最後證實假說正確,但如果沒有業務相關經驗的人,只看數據就不會有人探究這項問題。

因此,在激盪會議上不該排除任何假說,更好的做法是,你可以依據假說的合理性、可行性,排定先後順序。在排序時,可以分派給每位參與者 100 點,讓他們分配點數投給每個假說,再根據每個假說獲得的總點數,排定優先順序。

在進行數據分析時,是採用「逆向思考法」,也就是先設定好目標再進行分析,有點類似先射箭再畫靶,而不是看到任何資料,就要立刻分析得出結論,在取得共識之後,才開始蒐集資料,減少過程中花費的時間與精力。

從證明或推翻假說的標準,界定該蒐集的資料範圍

在蒐集資料時,要先定義能證明或推翻假說的標準,界定每個假說所需的資料。這個階段常發生的錯誤是,每個人對問題的定義不一致。舉例來說,轉換率下降,是指這周、這個月,還是這季?下滑是與去年同期比較,還是與上個檔期比較?轉換率,是指顧客點擊、還是顧客必須完成交易?

因此,填寫資料規格時,就需要確定與這次分析有關的數據精細度,包括,時間(周、月、季、年)、地域大小、市場區隔(依消費特徵分、依人口統計特徵分)。根據你想要的結果,設想好資料格式,不同資料間才有比較基準,也方便後續彙整。

蒐集資料先以少量的資料進行驗證。留意資料中的空值(不存在於資料庫的資料,代表無意義的數值)與特殊數字,舉例來說,顧客資料裡的職銜名稱,顧客可能因為找不到符合選項,填寫「其他」,雖然不屬於空值,但是在做資料分析時,無法獲得更進一步的洞察。因此,在開始蒐集前,要先比對資料類型與你期望的是否一致。

你蒐集的是好資料嗎?
經理人

數據不怕少,而是怕不好

除此之外,也要檢測你的資料是否正確,《以 MARTECH 經營大數據會員行銷》提到,企業蒐集數據常遇到幾個問題:

1. 沒有資料(no data): 以前沒有設定目標,因此沒有保存所需的資料。

2. 過時的資料(out-of-date data): 雖然有保存資料,但資料已經過時,例如 5 年前的會員資料,不確定現在是否正確。

3. 不完整的資料(incomplete data): 資料欄位不完整,導致只有部分可以應用。例如,有姓名、電話、地址,但缺少交易項目與金額的欄目,須補齊才能運用。

4. 遺失的資料(missing data): 某些資料欄位空白,例如,某些地區的交易資料空白,無法確定是否發生交易、或者交易金額為零。可以選擇填入平均值,以降低對整體資料的影響;若是資料數夠多,也可以選擇刪除。

5. 稀少的資料(sparse data): 該記錄到的資料都有,但數據非常稀少,較不具分析價值。

6. 不精確的資料(inaccurate data): 因為定義不同,而產生不一樣的數據。例如,線上廣告透過不同監測軟體如 Google Analytics、Double Click、Tracking Pixel,出現的數據就不一樣。分析前,應該先了解衡量方法的差異。

延伸閱讀:資料科學家、分析師、工程師差在哪?一文搞懂你的資料團隊需要哪些人

整理過後,往往你會發現,很大一部分資料缺乏利用價值。不過作者高端訓指出,數據不怕少,而是「怕不好」。如果數據的用途,是運用在預測分析,即透過機器學習,預測出個別客戶還有可能會買什麼,愈多數據預測愈準確,因此企業需要持續蒐集資料;但如果是用在商業分析,了解顧客過去的消費行為、購買的原因,少量且精確的數據,比大量、未經整理的數據還要有分析價值,假使資料有問題,再怎麼分析,也難以解決問題。

繼續閱讀 數據分析
相關文章
成功 Success > 決策技術
feature picture
3

換一個 KPI,銷售額一飛衝天!亞馬遜如何找出「領先指標」?

整理.撰文 高士閔
2022-03-15
分享
收藏
已完成
已取消

英國士兵在兵營的腐朽木床上呼吸逐漸微弱,蝨子在他們身邊爬竄。護士弗羅倫斯.南丁格爾(Florence Nightingale)發現,軍人從戰場上活了下來,卻死在傷口感染,可怕程度相當於,每年就地槍決 1100 人。

然而,對見慣了戰場死亡數字的國防部長、軍務大臣來說,要說服他們改善醫療環境很難。因此,南丁格爾把「死於傷口感染的士兵數量」和「在戰場上陣亡的軍人數」擺在一起,證明環境的致死率比敵軍更強!成功打動政府,整建病房,令死亡率大幅降低。

《數據為王》解釋,脫離脈絡的數字無法引發行動,像是「明天早上氣溫 12 度、中午 23 度」,只有賦予它意義:「早晚溫差大」,數字才會有價值,變成「有用資訊」。但想要數字價值連城,還得增添具體方案,比如「明天溫差超過 10 度,出門建議洋蔥式穿法」。這種有利決策的資訊,被稱為「行動洞察」。南丁格爾正是把數字變為洞見,才能說服長官採納建議。

不過,該怎麼把數字變洞見呢?《簡單用數據,做出好決策》提及,最簡單的方法,就是先設立目的和假說,再用數字驗證是否成立。

延伸閱讀:行銷 4P 理論要改寫了?大數據這樣顛覆消費市場!

依購買紀錄歸納消費偏好,做到個人化推薦與回購提醒

《大數據學行銷》中有一個例子,台灣雀巢曾想開發咖啡機的新客源,所以把眼光放到尚未開拓的個人市場。一開始,他們訂下假設「台灣人喜歡在家煮咖啡」,但蒐集資料後發現,在家泡咖啡的人是少數,而且當時主要的獲利來源是膠囊,不是咖啡機。

有了新發現之後,他們又修正假設為「低價促銷咖啡機」「讓消費者持續補充膠囊」,最後才得出行動方針:主動與顧客維持長期的互動關係,並在每次膠囊快要用完時,提前告知。

除此之外,雀巢也依靠消費資料,分析每位客戶喜歡的口味、飲用習慣、下次購買時間,準確篩選出每一季膠囊快用完的顧客,並推薦對方喜歡的組合。結果當年冬季,雀巢依靠選出消費頻率高、預算充足及價格敏感的會員,寄送促銷方案,業績就成長 30%。

《亞馬遜逆向工作法》指出,不要期待一個問題能在 24 小時得到解答。洞察是磨出來的,亞馬遜當初為了從書商變為電商,也是一路犯錯。

找對影響產出的「領先指標」,讓亞馬遜飛速成長

一開始,亞馬遜想做 the everything store(什麼都賣的商店),認為「顧客有愈多選擇,銷售額愈高」,所以把「亞馬遜提供多少商品」列為指標。由於每個商品都有自己的「產品詳情頁面」,包含價格、圖片、顧客評論等等。追蹤產品頁面的數量,也就是假設,頁面數量愈多,代表產品品項愈多,顧客選擇愈多,銷售額愈高。

不過,隨著詳情頁面數量飆升,銷售額卻沒同步成長。分析後顯示,一些品項的需求很低,有頁面也沒有人瀏覽;或者,庫存空間有限,熱門商品的數量受到限制,想買卻缺貨。

延伸閱讀:台灣3M一推新產品,就能賣到缺貨!高層揭露「年年都有爆紅新品」的法則

修正長征就此展開,從「詳情頁面數量」變成「詳情頁面瀏覽量」,因為被搜尋、瀏覽過的商品,才可能賣出去;後來「瀏覽量」又改為「有庫存的產品詳情頁面的瀏覽量比例」,畢竟光有買氣沒有貨也沒意義;最後,終於找出「快速出貨庫存」,把庫存量維持在 24 小時內出貨,避免庫存成本太高,銷售額也一飛沖天!

關鍵是,要不厭其煩地,假設、驗證、修正,不斷重來,直到找出數字真正的意義,再依據它提出洞見,制定行動。

產品是成長無虞還是需要擔心?
經理人
繼續閱讀 數據分析
相關文章
成功 Success > 決策技術
feature picture
4

NBA 球星得分愈多,代表球技愈高超?4 步驟判斷,從此告別「假數據」困擾

整理.撰文 盧廷羲
2022-03-15
分享
收藏
已完成
已取消

經理人大多認同「數字會說話」的概念。不論是說服客戶、內部提案、計算成本,都仰賴各種數據。然而,有些時候,明明手握一組看起來很可靠的數字,卻不見得是事實,因為人在解讀數據的過程會有偏誤。

例如,在軍隊和家裡面,哪一個環境比較安全?美國曾在 2010 年統計,國家有 143 萬名軍人,其中 3482 人死亡,平均每 1000 人有 2.4 人死亡。同一年,全美國,平均每 1000 人則是 8.2 人死亡,在家裡死亡的人竟然是軍人的 3 倍。

然而,軍隊與社會大眾屬於「不同樣本」,根本不適合拿來比較。現役軍人擁有良好的醫療照護體系,兵強馬壯;國家人民包含老人、小孩、病患,死亡率本來就偏高。

也就是說,如果你看到這個例子,就全盤接受「軍隊比在家安全」的論點,就可能掉入了數字的陷阱。

《解讀新聞數字》補充,數據本身是「無機物」,賦予這些無機物意義的,是處理數據的人。人從觀察、調查、取樣、分析、計算,一連串的過程中,都有可能出現偏誤,導致數據結果不準確。

延伸閱讀:決策總是不公平?歡迎來到偏誤與雜訊包圍的真實世界!

精確的數字,不代表資料可信

《一眼就突破盲點的思考力》指出,要先區分數字的「精確度」和「精準度」。有一個偏見是,人們看到精確的數字,就以為它也很準確。

舉例來說,你看到新聞報導「這個月車市,電動車占了高達 32.6% 的銷售量。」乍看之下,資料顯示電動車熱銷,但數字並沒有說明調查範圍、實際數量,這有可能只是某家電動車經銷商的報告。即使有精準的百分比,也不代表資料可靠度。

面對數據,應該抱持什麼心態解讀,才不會被數字誤導、迷惑?首先,提醒自己,數據不是客觀的,它通常意味著某種主張或論點,看待它的同時,要先思考這組數字,是否有別的成因、可能性,以避免被矇蔽。英國一名嫌犯丹尼斯.亞當斯(Dennis Adams)被判有罪,理由是現場找到符合他的 DNA。即便他有不在場證明,而且被害人敘述的嫌犯,容貌比亞當斯年輕了 20 歲。

在這個故事裡,DNA 是唯一的數據,但它代表事實嗎?後來,法院發現亞當斯有一位弟弟,他的 DNA 也與現場證據匹配。也就是說,盡量思考數字的來源與其他可能性,才不會落入數據即事實的迷思。

只看自己想看到的資料,反容易受騙

在行為經濟學上,人們會出現各種偏誤,都會影響判斷力。像是採櫻桃偏誤(cherry picking),指的是人只挑選符合你期待的資料,而忽略正反面意見的論證。這就好比,你在火車上看到一座城市,只能從窗戶中看到片面的風景,很容易忽略細節。比方說,你偏愛 NBA 的某位球星,在評估他的球技時,很可能就只引用他的得分或強項的數據,而忽略了失誤數據。

那麼,往後看到一組數字,是否有簡單的步驟來分析、評斷?《數字偏見》說明 4 項步驟:

首先是「誰傳遞這項訊息?」謹慎留意數字的資料來源,並嘗試找尋其他的來源,像是有沒有其他調查或統計方式。其次是「這組數字如何標準化?」例如,它用什麼方法調查、如何量化,有沒有一定的標準程序。

第三是「數字如何被分析?」比方說,各組數據之間是否有明確的因果關係,有沒有其他因素會影響數據結果。最後是「數字如何被呈現?」像是檢查國人年薪的平均數(易受極端值影響),也許就不如中位數來得具代表性。

延伸閱讀:分析能力馬上提升!善用 5 種圖表,看出統計資料背後的祕密

面對數據,先別急著下定論,把自己離數字抽離一點,就不容易被「假數據」矇蔽。

數據會騙人?
經理人
繼續閱讀 數據分析
相關文章
成功 Success > 決策技術
feature picture
5

總統大選前,240 萬與 3000 人次的民調哪個比較準?答案可能跟你想的不一樣

整理.撰文 簡鈺璇
2022-03-15
分享
收藏
已完成
已取消

總統選舉的民調預測,A 民調的有效問卷數有 240 萬人,B 民調只問了 3000 人,哪家民調的預測比較準確呢?大部分人會選前者,因為樣本數愈大誤差愈小,愈接近真實。

1936 年時任美國總統小羅斯福(Franklin Roosevelt)正與共和黨員阿爾弗雷德‧蘭登(Alfred Landon)競選總統。知名雜誌《文學文摘》根據 240 萬人的郵寄民調的結果,篤定蘭登會勝過小羅斯福。民調公司蓋洛普(Gallup)據說只做 3000 人次訪談,卻推測小羅斯福會勝出。

選舉結果出來,跌破眾人眼鏡,小羅斯福連任成功。為什麼 240 萬個樣本會「輸」給 3000 人訪談?

延伸閱讀:俄烏戰爭|從喜劇演員變烏克蘭總統!澤倫斯基到底是何來歷?憑什麼拿下 9 成支持率?

思考數據蒐集過程中,可能的「漏網之魚」

《臥底經濟學家的 10 堂數據課》指出,《文學文摘》忽視「樣本偏誤」(根據缺乏代表性的樣本推論出一般性的結論)的陷阱,他們透過汽車監理站的資料庫及電話簿名單來寄送問卷,卻遺漏了非開車者、家中無電話者的意見。相反的,蓋洛普花很多時間篩選出能代表母體的樣本,最後以小於 800 倍的樣本數在民調預測中勝出。

英國統計學家大衛‧漢德(David Hand)建議,分析資料時最重要的是先問「這筆資料中,有哪些是我們忽視的、沒有的?」在他的著作《暗數據》一書中,將人們遺漏的資訊與數據稱為「暗數據」(dark data),會在無形中影響我們的判斷。

漢德列舉 3 種數據隱藏起來的情況:

1. 知道有遺漏的數據: 常見的是訪談或研究中,出現資料不全的狀況,例如:針對台北市民進行電訪,有半數人拒接電話。

2. 研究只納入部分的數據: 像是樣本選取的標準不一,造成難以代表全體的狀況。例如:某美白產品只選擇膚況優者參與實驗。

3. 不知道有遺漏的數據: 此為網路問卷常有的狀況,讓網民自願填寫,無法得知誰沒有回應。

追蹤數據遺失的原因,判斷剔除會否影響結果

為了減少數據隱藏或遺漏的狀況,在蒐集數據時就需考慮抽樣的樣本能否代表母體。如果某研究要調查某國 40 歲以上、40 歲以下者的消費習慣,比起網路徵求填答者,更好方式是依母體年齡分布(假設 40 歲以上人數有 60%、40 歲以下 40%)的比例來抽樣,也就是說研究抽取的分析樣本中,40 歲以上要有 60%、40 歲以下則要有 40%,才能確保樣本代表性。

不僅在抽樣、問卷設計階段可能忽略某些數據,實際調查時也可能遺失數據。《暗數據》指出,應追蹤遺漏的原因,判斷該數據是否會影響分析結果。

延伸閱讀:別讓報表騙了你!數據分析的基本功:弄懂每個數字從何而來

舉例來說,執行減肥飲食對體重影響的研究時,一位受試者因為減重效果不好而退出實驗,另一位因為搬家而不能繼續參與。《暗數據》認為,後者退出原因與體重變化無關,且搬家為偶發事件,直接剔出可能不影響實驗結果,但前者數據刪除會造成研究對象集中在減重顯著者上,導致結果偏頗。

遇到這種狀況,研究者可以增加誘因(給予參與獎勵、保密體重資料)說服退出者繼續參與,或利用統計軟體的「遺漏值分析」及「插補法」,在已知資料中尋找與退出者特徵相似的資料,推敲出缺漏資料的數值,會比直接刪除遺漏值更準確一點。

數據會騙人?
經理人
繼續閱讀 數據分析
相關文章
成功 Success > 決策技術
feature picture
6

天氣變冷,啤酒銷量就會下滑?搞錯因果關係,有數據也無法找到答案

整理.撰文 高士閔
2022-03-15
分享
收藏
已完成
已取消

只要進入好大學,未來的收入就會提高?讓孩子看電視,會降低他們的學習力?定期接受健康檢查,就會變長壽?如果以上問題,你的答案都為「是」,就是混淆了「因果關係」與「相關關係」。

根據《用數字做決策的思考術》的解釋,「因果性」是在兩件事項之中,一件事為原因,另一件是結果的狀態;「相關性」是指,兩個變數之間具有某種規則和共變性。比如說,當氣溫變高,啤酒的銷售額也會提升;氣溫變低,啤酒銷售量會下滑,就表示,「氣溫」和「啤酒的銷售額」相關。

回到開頭的例子,定期健康檢查和長壽的關係不是因果,而是常做健康檢查的人,注重身體健康,所以容易長壽;也不是進入好大學就能提高收入(因果),而是考入好大學代表學生有一定潛能,更容易出人頭地(相關)。好大學、健康檢查不是原因,本身注意健康、學生能力好才是。

延伸閱讀:《造局者》:電商就要能刷卡?跳脫「理所當然」,反而容易勝出

看似相關或因果的事件,可能只是巧合

這表示我們應該用更嚴謹的態度檢視兩件事的關係。《統計的藝術》提及,當我們說 X 導致 Y 時,並不表示每當 X 發生,Y 也會發生;或者,只有在 X 發生時,Y 才會發生。更多情況是,每當 X 發生時,Y「近乎每次」都會發生,這也提醒我們,判斷因果要更審慎。

在某些情況下,我們很容易將相關性誤認為因果關係:

1. 巧合: 《一眼就突破盲點的思考力》中有一個有趣的例子,「電影明星尼可拉斯.凱吉(Nicolas Cage)每年演出的電影數量」和「該年掉入游池溺斃的人數」高度一致,所以凱吉演出愈多部電影,愈多人溺斃嗎(因果)?當然不是,一切只是巧合。哈佛大學甚至做了研究,還出書證明凱吉和溺斃沒關係,可知巧合多容易被誤認為因果或相關。

2. 反向因果關係(reverse causality): 就是 X 發生在 Y 之後,便以為 Y 導致 X,但其實是 X 導致 Y。比如每天早上刷完牙才去上班,難道是「刷牙」導致了「上班」?不,甚至有些人是因為要出門上班才刷牙。

3. 第三變數: 指 X 和 Y 兩件事同時發生,以為是 X 導致 Y 或 Y 導致 X,其實存在另一個變數 Z,是 Z 導致 X 和 Y。舉例來說,冰淇淋的銷售量會隨著穿著短褲的人數增加而增加。不是「愈多人穿短褲」導致「愈多人買冰淇淋」,而是兩者發生的共同原因是「夏天氣溫較高」。

如果混淆了因果和相關,比方廣告預算愈多,銷售額愈高,容易導致錯誤的商業決策。所以,較嚴謹的做法是進行隨機對照實驗(RCT,randomized controlled trial),或者稱 A/B 測試(A/B testing),就是把受試者「隨機」分為兩組,兩組只有一變數不同,如果導致不同結果,便可以稱該變數導致某結果,或變數和結果有因果關係。

利用 A/B 測試,確認因果關係

前美國總統巴拉克.歐巴馬(Barack Obama)的競選團隊,便是利用 RCT 測試哪一種首頁的註冊率最高。結果相比原本想選擇的「影片」和「望向遠方的獨照」,「歐巴馬全家福」(果)的註冊人數多了 288 萬,並多募得 6000 萬美元的政治獻金。

如果環境不允許,或是沒有資源做隨機對照實驗,《數據分析的力量》建議用「自然實驗(natural experience)」替代,就是進行一系列假設、驗證,釐清因果關係。

延伸閱讀:想解決問題,第一步該怎麼做?你該學會的「假說思考法」

舉例來說,想知道改變自付額,對醫療服務的使用頻率的影響。可以先假設「如果自付額會影響醫療服務的利用,70 歲以上的人,應該會比 70 歲以下的人,更常使用」,因為日本法令規範,70 歲開始,自付額由 3 成降為 1 成。查詢公開資料後發現,隨著年紀愈大,醫療服務的使用者也愈多。但到了 70 歲,原本緩慢上升的曲線突然大跳躍!這個「斷層」代表有變數發生,而 69~70 歲比較普遍的改變,就是自付額的高低。自付額和醫療服務的使用頻率有因果關係,得證。

前因一定導致後果?
經理人
繼續閱讀 數據分析
相關文章
會員專區

使用會員功能前,請先登入

  • 台灣首款對話式 AI 職場教練,一次提升領導力
  • 會員專享每日運勢、名人金句抽籤
  • 收藏文章、追蹤作者,享受個人化學習頁面
  • 定向學習!20 大關鍵字,開放自選、訂閱
  • 解鎖下載專區!10+ 會員專刊一次載
追蹤我們