Managertoday 經理人

資料視覺化的第二堂課 - 資料整理

2019-11-14 00:49:18
Managertoday
https://bnextmedia.s3.hicloud.net.tw/image/album/2016-12/img-1482320649-88465@900.jpg
漂亮資料三特點『乾淨』、『完整』、「有意義」在上一篇文章中,我們介紹了商業領域如何運用資料視覺化提升公司經營品質,但還沒有碰到實際操作的部分。要如何在你的辦公室、經營團隊,甚至是整間公司、集團內施行資料導向的經營方式呢?接下來的文章帶大家一步一步學習。!

(本文由Microsoft贊助)

在上一篇文章中,我們介紹了商業領域如何運用資料視覺化提升公司經營品質,但還沒有碰到實際操作的部分。要如何在你的辦公室、經營團隊,甚至是整間公司、集團內施行資料導向的經營方式呢?接下來的文章帶大家一步一步學習。

第一步:確認資料來源、以及分析目的

任何的資料分析及視覺化,第一步都需要有「乾淨」、「完整」和「有意義」的資料。這三個要素缺一不可。為什麼呢?首先,如果一份資料不乾淨,裡面有各種雜訊,例如該是數字的欄位卻有文字,記錄金額的欄位有時候有逗號分隔、有時候有金錢符號,紀錄地址的欄位格式不一致(一下有縣市、一下沒有),這樣在資料分析的時候,就無法計算出正確的答案。

要怎麼確保資料發生這些「不乾淨」的問題呢?最重要的是在上游,也就是資料搜集的地方做好規範和把關。整個工作團隊應該就資料類型及格式討論出具體規範;在撰寫搜集資料的程式,或是設計消費者調查問卷的時候,明確設定資料類型要是哪些特定類型,並在發生錯誤時發出警告訊息,讓系統維護人員能第一時間發現異狀,以避免過一段時間之後難以追溯問題是怎麼發生的。

visio

第二步:Excel是好東西,善用Excel軟體整理數據

但如果目前手上的資料就只有不乾淨的資料,卻被上司要求進行資料分析和視覺化,該怎麼辦呢?這時候可以運用Excel等試算表軟體的功能,把不乾淨的資料修改成乾淨的狀態。

(Excel 是最常見的工具,現在的Excel 已經可以處理更大量的資料,速度也很快,建議可以從Excel學習整理。另外Visio也吃Excel的資料,在使用上可以更得心應手)

例如,Excel有「尋找/取代」的功能,一般使用者通常只會輸入想要尋找/取代的文字,但如果運用尋找/取代的「正規表示法」功能,就能達到非常強大的資料清理效果。

例如,如果要把地址中的「路段」資料,從地址欄位中取出,就無法單純輸入特定文字,而是要判斷路段資料介於哪些資料之間:通常路段資料都是在行政區資料之後,巷弄號資料之前。這時候我們就可以在正規表示式的欄位中輸入「.* 區(.*[路街]). * [巷弄號]」(該正規表示式只是概念性的表達,具體要如何設定需視特定情況作微調),就可取出路段的資料了。只要熟練正規表示式,要處理電子郵件、電話等具結構的資料,都不再是令人困擾的問題。

visio

第三步:確認資料無斷層、保持資料完整性!

確定搜集來的資料夠乾淨之後,接下來需要做的工作是:盡量讓你手上的資料保持「完整」。「完整」乍看之下很容易,但在長時間搜集、維護資料的前提之下,其實要達成並不容易。試想以下情況:工作團隊決定長時間搜集產品顧客滿意度資料,制定了具體的資料搜集規範,交由組上負責資料分析的成員負責。結果一年之後該成員離職,交接的時候遺漏掉搜集資料的環節,偏偏又沒人記得監督資料搜集的工作(時間一久大家都忘記這個例行公事),結果這個資料集就只有一年的量。之後如果又要重啟資料搜集計畫,被遺忘的這段期間就導致「不完整」的資料。

除了人事因素以外,資料搜集程式發生故障、硬體環境失常(電力、網路等中斷),都可能導致資料不完整的情況發生。我們只能在問題發生之前盡量避免:如果資料是由人力搜集,需要確保該人力因離職等因素中斷資料搜集任務時,有其他候補人力能馬上接替執行任務;資料搜集程式必須加入「failsafe」功能,在遇到不可預期的錯誤時馬上重新執行;執行資料搜集任務的主機和伺服器要能配備備用電力、網路等設施。如此才能最大程度確保搜集來的資料不會出現空白。

但還是要面對手邊資料不完整、卻被要求分析的情況。這時候,我們需要盡量模擬短缺的資料,需要用上的技術就是「迴歸分析」。迴歸分析是運用數學方法,利用現有的資料找出規律的方式。使用Excel跑迴歸分析應該是上班族最好上手的方法,這時候就需要用到「增益集」中的「分析工具箱」,這個工具箱裡有各種資料分析的功能,包括迴歸分析。具體的使用方法依不同情況而異,而且牽涉一些數學的基本觀念,在此便不贅述,想深入研究的讀者可以利用網路資源上手。

visio

第四步:確認分析目的,確保蒐集資料時不做白工!

最後一個要素,也是決定資料分析和視覺化能否有效的最關鍵因素,就是「有意義」。即使搜集來的資料夠乾淨、也沒有缺漏的問題,但如果當初設計問卷或資料搜集程式的時候,沒有想清楚這份資料是要解決什麼問題,或者搜集來的資料能否計算出想要的答案,就隨意設定幾個欄位開始資料搜集任務,那最後取得的資料集,可能也是成堆的「資料廢物」。

因此,多多參考優秀的問卷設計,閱讀資料分析的入門書籍,理解資料科學家如何從冷冰冰的「資料」中,抽取出能實際應用在「真實世界」的知識,是非常重要的。甚至你可以諮詢公司其他部門的統計專家,了解他們是如何處理每天遇到的資料分析問題,對解決你手邊的資料分析任務都是一大幫助。

我們這次處理了資料分析和視覺化的第一步,也是最容易被大家忽略、但至關重要的一步:資料搜集和維護。只要確保資料能保持「乾淨」、「完整」和「有意義」,接下來的資料分析就會順利很多。下一篇文章,我們就會正式介紹,如何使用微軟資料的流程圖與圖表軟體Visio,進行資料分析和視覺化。

延伸閱讀
資料視覺化的第一堂課 - 三種你必須先搞懂的資料類型!
資料視覺化的第三堂課 - Visio 的入門課
資料視覺化的第四堂課 - 快速上手!
資料視覺化的第五堂課 - 資料蒐集整理實戰!
資料視覺化的第六堂課 - 資料的呈現透過 Visio 也可以這麼的簡單
資料視覺化的第七堂課 - 組織圖與 KPI 的結合