商業 Business > 數位轉型
feature picture
經理人118期

用數據磨練商業 sense!11 個實用統計學觀念,讓你的決策更精準

2022-10-27 整理·撰文 張玉琦、簡鈺璇

統計是一門蒐集、彙整、分析資料的科學,更是企業常用的分析工具。亞馬遜(Amazon)能在你瀏覽時,推薦你「買了這本書的人也買了這些書」,用的是相關性分析;美國總統歐巴馬(Barack Obama)的競選團隊,知道哪個版面的網站能讓選民增加捐款金額,利用的是隨機對照實驗;市場調查能用少數人的意見推算出整個市場的看法,依據的是抽樣調查的原理。

延伸閱讀:想做資料分析,不能只靠工程師!管其毅:建立數據團隊前,主管必懂的 2 個觀念

達特茅斯學院教授查爾斯.惠倫(Charles Wheelan)在《聰明學統計的13又1/2堂課》一書中,列舉出學統計的目的,其中包括:

  1. 分析數據,將資料做出摘要;
  2. 做出更好的決定;
  3. 辨識出能提升做每一件事效果的模式;
  4. 評估政策、計畫與其他創新事項的效用。

聽起來是不是很熟悉?彙整數字做出決定、找出做事更有效的方法、評估計畫的效用,這些不就是經理人的工作嗎?別害怕數學,從統計學的幾個入門觀念學起,一步步磨練商業決策的眼光:

1. 大數法則(law of large numbers)

樣本數愈大,樣本的算術平均值就會愈接近母群體的真實數值。

《聰明思考》把它引申用在生活中,意即人們對某件事的觀察,可以當作是從母群體中抽樣,例如今天A餐廳真難吃、某候選人的面試表現佳,要了解這些評估是否正確,必須要有夠多的樣本,也就是更多的資料輔助判斷。

以聘雇人才來看,面試只能呈現候選人的片段資訊(部分樣本),未必能得到對方完整的圖像,建議搭配筆試、書面資料做綜合判斷。值得注意的是,樣本數愈大也不一定愈接近真實,要留意「抽樣偏誤」問題,也就是樣本要能夠真實反映母體。如果調查工廠中偏好彈性工時的員工,只調查業務部門的員工,就有「抽樣偏誤」狀況,要對調查結果的可性度存疑。

2. 平均數(average)

統計觀念4_平均數.PNG
經理人118期

客單價就是消費產業最重視的平均值之一,以「銷售總額÷來客數」。客單價的重要性在於,提高客單價就能在來客數(分母)相同的情況下,拉高營業額(分子)和利潤。百貨公司的周年慶滿千送百、便利商店推出的集點活動,都是為了拉高客單價所進行的促銷活動。

3. 中位數(median)

統計觀念5_中位數.PNG
經理人118期

中位數的優點是可以去除極端值的影響。舉例來說,百貨公司新引進了一個超高檔品牌,拉高了整層樓的平均營收,看起來好像整層樓的業績成長,但是如果將各專櫃的營收由小而大排列,從中位數就可知道,大部分品牌的營收其實沒有成長。

4. 眾數(mode)

統計觀念6_眾數.PNG
經理人118期

平均數、中位數和眾數都是用來描述數據的方法,眾數也不受極端值的影響,最適合用來表達具有「集中」趨勢的數據。比方說,製鞋廠從客戶的銷售資料中發現,銷量最高的鞋子尺碼是 23.5 號(眾數為 23.5,此時計算鞋碼的平均數和中位數都沒有意義),因此鞋廠應該集中資源生產 23.5 號的鞋。

5. 機率(probability)

統計觀念_機率與期望值.PNG
經理人118期

機率是用 0~1 來表示事件的可能發生的程度:0 代表不會發生,全部的可能性加起來為1。

以棒球為例,打者的打擊率為三成,表示他有三成機會打出安打,七成機會沒打出安打,而安打加沒有安打的機率應該等於 1。擲一次骰子,可能出現 1 到 6 點,出現任一點的機會為 1/6,全部的可能性加起來等於 1。機率適合用來規畫工作進程、預測業務進度,避免做出過於樂觀的判斷。

假定廣告公司內部提案的通過率為七成,通過的案子馬上被客戶接受的機率是五成,這表示每一個提案要獲得公司內部與客戶認可的機率是 0.7x0.5=0.35。用機率的方式思考,由於提案成功率只有三成五,所以提案時應該要多準備幾個備案;而提 3 件案子只通過 1 件,也都屬於正常情況,用不著氣餒。

6. 期望值(expected value)

統計觀念_ 機率與期望值2.PNG
經理人118期

期望值是機率的應用,將「事件的機率」×「可能得到的報酬」,求得做這件事的期望價值。

假設你擲出骰子幾點就可以得到幾元,那麼擲一次骰子的期望值,就是將所有可能性的期望值算出來相加,也就是 1 點 1 元(1/6x1=1/6)加上 2 點 2 元(1/6x2=2/6)加 3 點 3 元(1/6x3=3/6)加 4 點 4 元(1/6x4=4/6)加 5 點 5 元(1/6x5=5/6)加 6 點 6 元(1/6x6=6/6)的總和 3.5 元,這表示你擲一次骰子的期望值就是 3.5 元。

期望值可用來衡量決策,如果某件事的期望值低於做這件事的成本,就沒有做的價值。再以廣告提案為例,假定最終通過客戶審核可賺得 100 萬元的話,我們可算出提案成功的期望值就是 100 萬 x0.5=50 萬,提案在社內通過的期望值則為 50 萬 x0.7=35 萬。這表示你最初的提案有 35 萬元的價值,也表示若提案的成本超過 35 萬,你也許根本不應該接下案子。

延伸閱讀:用數據分析來說話,更能服人!資料分析師的 2 個技巧,偷學起來

7. 常態分布(normal distribution)

呈現連續變數性質的工具,像是人類身高、機器每周生產產品的數量,這些資料都有平均值,如果將資料展開,將縱軸視為數據量(機率值)、橫軸顯示數據與平均數之間的離散值(標準差),就可以畫出以平均值為中心的常態分布圖,常態分布會符合「68、95、99.7法則」(參見【圖1】)。

《多模型思維》指出,常態分布能夠判斷資料的分布狀況,推論群體差異的範圍,避免受「極端數據」誤導。《聰明思考》舉例,如果一位籃球員上周的三分球投籃命中率是50%,這周滑落到10%,你會責怪他大幅退步,但對應常態分布圖,才發現他的命中率平均值是13%,其實這周才是他的正常發揮。若將極端狀況視為常態,就容易做錯決策。

另一種判斷失誤是,人們常以為大洪水、恐怖攻擊、金融危機等極端事件會呈現「常態分布」,發生機率趨近於零,不用提前做準備。然而,實際上極端事件會是「厚尾分布」(參見【圖2】 )。

《思考的框架》指出,在呈現常態分布的世界裡,你不會看到身高比平均高 10 倍的人,但在厚尾分布裡,你會經常遇到比一般人高 10 倍、100 倍的人。換句話說,在厚尾分布中,極端事件發生可能性比想像中高出 10 倍、100 倍,大家必須為這些「黑天鵝事件」預先準備。

【圖1】常態分布【圖2】厚尾分布.jpg
經理人

8. 標準差(standard deviation)

標準差則是用來表示大多數的資料距離平均值有多遠。當資料呈現常態分布,那麼距離平均值一個標準差的範圍內,應該聚集了 68% 的資料(如下圖),兩個標準差內聚集了 95% 的資料,三個標準差內包含了 99.7% 的資料。假如你身高 181 公分,台灣男性平均身高為 172 公分,標準差為 4 公分,表示你的身高大於兩個標準差,算非常高。

常態分布和標準差 all.jpg
經理人118期

同理,當你在挑選運送商品的貨運公司時,如果有兩家公司的平均送達天數都是 3 天,但是 A 公司的標準差是 0.5 天,B 公司的標準差是 1.5 天,這就表示:A 公司有 68% 的機會,會在 3±0.5=2.5~3.5 天內送達商品,B 公司有 68% 的機會,會在 3±1.5=1.5~4.5 天內送達。要是你想要商品都在 4 天內送達,就應該選 A 公司。

9. 次數分配表(frequency table)和直方圖(histogram)

記錄組別和次數的表格,稱為次數分配圖。利用組別和相對次數的數據製作成長條圖,又稱直方圖,長條之間不會有間隔。

將資料分門別類,然後依照類別分組填入次數(頻率),即為次數分配表(圖表1-1)。再以組別為橫軸,相對次數(或次數)為縱軸,即可將次數分配表「視覺化」,畫出的長條圖稱為直方圖(圖表1-2),可以直接看出樣本的分布。

統計觀念1.PNG
經理人118期

次數分配表和直方圖可用來進行 ABC 分析法,據以研擬商品策略:
1. 將次數分配表依照營業額的高低重新排列商品順序;
2. 求取各類商品占整體營業額的比率;
3. 從營業額最高的商品開始,依序累計各商品的比率(累計比率;圖表1-1最右欄);
4. 在直方圖(圖表1-2);上以累積比率為第二縱軸,製作折線圖(圖表1-3)。

統計觀念2.PNG
經理人118期
統計觀念3.PNG
經理人118期

根據 ABC 分析法,累積比率在 70% 以下的商品歸為 A 類,70%~90% 的歸為 B 類,其他的歸為 C 類。從圖表可知,A 類的 3 種麵包(吐司、熱狗麵包、菠蘿麵包)合計約占營業額的七成,應該優先主打 A 類商品,生產線也要優先生產A類商品。

10. 相關關係(correlation)

分析數據通常是為了「調查相關程度」,比方說「廣告費用」與「產品營收」是否相關,如果廣告增加、營收跟著增加,兩者就呈現正相關,反之則為負相關。我們該如何確認相關性呢?

第一步是收集數據,將每月廣告費用及產品營收資料整理起來。再利用「相關係數」評判兩者的相關程度。《7小時,統計學從天書變故事書》提到,手動估算的算式很複雜,建議應用Excel的「CORREL」函數算出相關係數,也可以畫出「散布圖」來判斷兩者的關係程度(參見【圖3】)。

不過,《多模型思維》指出,並不是每筆資料都會呈現「線性相關」模型(y=mx+b)(參見【圖4】)──也就是斜率固定(m)、第一個變數因第二個變數變化而造成的變化量,與第二個變數的變化量成固定比例。

生活上更常出現的是「非線性相關」模型,一種是曲線上彎的「凸函數」(參見【圖5】),斜率不斷增加,也就是增加變數值時,函數會大幅增加,像是指數成長模型,每年投資10萬元在年利率5%的投資工具,第一年只增加5000元,但在第14年至第15年,總資產超過20萬元。

另一種是曲線往下彎的「凹函數」(參見【圖6】),斜率不斷減少,代表擁有的東西愈多,每增加一單位帶來的價值愈少,這稱為「報酬遞減效應」。

當我們具備「非線性模型」概念時,就能跳脫「員工人數增加,生產量必然增加」的線性思維,將資源配置在合適之處,避免報酬遞減效應,或是利用複利效應創造更高的報酬。

【圖3】用「散布圖」釐清相關關係【圖4】線性模型【圖5】非線性模型:凸函數【圖6】非線性模型:凹函數
經理人

11. 因果關係(causality)

「成績愈好的學生,學習時間愈長,兩者呈正相關,可否直接解釋成「因為學生成績好,所以樂於延長學習時間」呢?答案是不行,因為兩者關係可能是「學生學習時間長,所以成績更好」。《7小時,統計學從天書變故事書》指出,「因果關係」定義比「相關關係」更為嚴苛。

相關關係是「一方關係改變,另一方也會改變」,是「A→B」也是「B→A」,兩者沒有主從之分;但因果關係有「方向性」,必須是「A→B」,不會是「B→A」。所以有相關關係,未必會有因果關係。
就算看似是「A→B」單向關係,也要釐清是否有「干擾因子」(參見【圖7】),例如醫學界認為人因為愛喝咖啡(A),所以容易罹患心臟病(B),後來發現咖啡愛好者抽菸且不愛運動比例高,抽菸才是導致心臟病的原因,喝咖啡只是干擾因子。

延伸閱讀:別讓報表騙了你!數據分析的基本功:弄懂每個數字從何而來

該如何確認因果關係呢?《因果螺旋》提到,實驗法是很好的工具,透過控制「原因變項」,再觀察後續事件的發生狀況。假設要判斷看電視時間和學業成績是否有因果關係,可以把願意參與的學生,隨機分配在「長時間看電視組」「短時間看電視組」,經過一年再測驗他們的學業成績。

由於看電視實驗介入在先、學業成績在後,因果時序很明確,加上受試者是隨機分配,也就是其他可能影響學業成績的變項(年齡、智力程度)分布是2組相近的,所以得出結果能夠用來判斷看電視是否影響課業表現。

實驗法也可以用在網站點擊率測試,將不同文章在網路上刊登同樣時間,看哪個效果最好。學會釐清因果關係,就能針對各種情境採取正確的因應手段。

【圖7】4種「錯判」因果關係情境.jpg
經理人

本篇不提供合作夥伴轉載使用

繼續閱讀 數位化
相關文章
會員專區

使用會員功能前,請先登入

  • 台灣首款對話式 AI 職場教練,一次提升領導力
  • 會員專享每日運勢、名人金句抽籤
  • 收藏文章、追蹤作者,享受個人化學習頁面
  • 定向學習!20 大關鍵字,開放自選、訂閱
  • 解鎖下載專區!10+ 會員專刊一次載
追蹤我們