Managertoday 經理人

資料視覺化的第五堂課 - 資料蒐集整理實戰!

2019-11-19 03:35:10
Managertoday
https://bnextmedia.s3.hicloud.net.tw/image/album/2017-02/img-1487732350-38325@900.jpg
進入實戰階段,使用政府開放資料,示範如何運用前面三篇文章教的概念,進行資料搜集、整理和最後的視覺化。

(本文內容由Microsoft提供)

在上一篇資料視覺化的第四堂課 - 快速上手資料視覺化的第四堂課 - 快速上手文章中,我們介紹了「Visio」這套資料視覺化工具有哪些常用範本,如何幫助我們將資料、用視覺要素呈現不同資料間的關係,讓資料視覺化更輕鬆、直觀。這次,我們要進入實戰階段,使用政府開放資料,示範如何運用前面三篇文章教的概念,進行資料搜集、整理和最後的視覺化。

我們這次使用的資料,和國際貿易產業很有關係,如果你剛好常使用政府的海關資料,分析台灣進出口貨品,那你就賺到了:我們以下將運用台灣財政部關務署的台灣進出口統計資料,分析北美洲三國美國、加拿大和墨西哥,對台灣出口貨品主要屬於哪些分類。

用公部門資料庫打造資料視覺化思維

回到資料視覺化的第二堂課裡談到的資料取得跟清理,我們需要完成這兩個步驟,並確保完成兩個步驟後資料還是完整、正確的,才有辦法進行最後一個步驟「資料分析和視覺化」。因此,在資料取得和清理花的功夫,其實應該要不小於資料分析和視覺化。

要取得台灣進出口資料,我們需要到財政部關務署的統計資料庫查詢網站,這個網站開放一般民眾免費使用,且不需要申請會員,有興趣的讀者可以自行到該網站,實際操作資料查詢和下載的步驟。(建議讀者可以跟著此篇文章一起操作,加深您的印象!資料視覺化的訣竅之一就是練習)

到了統計資料庫之後,我們選擇左側功能列中的「進、出口貨物數量、價值查詢」,再從展開的附屬功能列中,點選「貨物、數量、價值、國家(地區)查詢」,右邊就會出現台灣進、出口貨物數量、價值查詢的頁面。

在這裡,我們需要仔細觀察查詢頁面,因為每一個可以選擇的條件,都會決定我們取得什麼樣的資料,以及取得的資料代表什麼意義。我們能選擇七個條件,分別是進出口別、資料週期、資料期間、貨品別(稅則/貨品分類)、國家(地區)別、幣別和排列方式。調整任一條件,你下載到的資料就會截然不同。

例如,你如果要分析台灣整體進出口狀況,在資料週期中選擇「按年」,會比預設的「按月」更佳,因為按年的資料量較大,一點開就是一整年的進出口資料,代表性就會比較強。此外,只有一個月的資料,可能就會忽略具季節性的貨品,例如夏季水果、冬季禦寒衣物等。

另一個關鍵條件,是貨品別(稅則/貨品分類):這個欄位讓使用者選取,你要用哪一種貨品分類查詢進出口資料。關務署共提供 6 種貨品分類,依序是 21 類、2 碼、4 碼、6 碼、8 碼和 11 碼,最前面的分類最粗略,用往後面分類越細緻:21 類就是把台灣進出口貨物分成 21 個大類,2 碼則分成 90 幾類,4 碼、6 碼區分的類別更多,到了 8 碼則將所有貨品分成數千類。

要選擇哪一種分類方式,端看你要分析什麼議題:如果是要了解台灣各產業進出口情況,那用 21 類分類就綽綽有餘;如果是要分析美國出口到台灣的商品中,哪些佔台灣進口比例最高,就需要使用到 6 碼、甚至 8 碼的分類,才能具體鎖定到特定商品。由於我們要分析北美洲各國對台灣出口貨品主要屬於哪些分類,這裡選擇 21 類。

還有一點小提醒:
幣別的地方讓使用者選擇下載資料中的金額,是以新台幣或美元為單位。很多時候,你不會記得自己是選哪一個選項,不過下載的資料裡會幫你標記,讓你事後可以查看。但是有些資料庫不會在下載的資料中,幫你標記你是選哪個幣別,假設過一段時間後你又要使用這筆資料,可能已經忘記資料內的金額是新台幣、美元還是人民幣計價了。

因此,建議大家可以養成好習慣,在存放下載資料的資料夾內,新增另一個文字檔,紀錄從當初下載資料時選擇了哪些條件,也就是「資料的基本資料」。這樣在資料分析的時候,才不會因為自己的疏忽砸了自己的腳。

全部條件選好後,就可以點選查詢了。查詢結果頁面的右上角,可以選擇匯出至 Excel 或匯出至 csv。csv 是我比較推薦的格式,因為少了 Excel 樣式,容量通常會比較小,也比較好進行資料分析。

Microsoft

用資料處理軟體打開下載好的檔案後,你會看到 2855筆資料,每一筆紀錄 21 類貨品各國出口到台灣的金額。

Microsoft

那麼要怎麼計算出我們想要的結果「歐洲各國對台灣出口貨品主要屬於哪些產業」呢?我們要使用資料處理軟體的資料篩選和「樞紐分析」功能,先把資料中 21 類貨品的合計進口金額篩選出來,再把這些合計金額當作分母,分別除上 21 類貨品世界各國出口到台灣的金額,最後再將計算結果中的歐洲各國篩選出來,用進口占比做排序,就能得到我們要的分析結果了。

以上的資料處理都能用 Excel 實作,我這裡用自己較熟悉的統計軟體 R 語言,進行資料處理的步驟,但讀者可以自行選用熟悉的資料統計工具。最後,我們會得到美國、加拿大和墨西哥三個國家,對台灣出口 21 類貨品,佔 21 類貨品總進口金額的比例是多少。

Microsoft

可以看到,加拿大對台灣出口的貨品中,木及木製品的台灣進口市佔率最高,代表就比例而言,加拿大的木及木製品是台灣從加拿大進口最仰賴的貨品種類。美國則是藝術品、珍藏品及古董,比例高達 61.6%,代表台灣進口的藝術品、珍藏品及古董中,就金額而言有六成來自美國,可見美國是台灣古董市場最倚重的進口來源。墨西哥對台灣出口的貨品占比相對低,最高的也只有 0.4%,反映墨西哥和台灣的貿易關係薄弱。

有了這份資料,我們就可以對台灣與北美洲三國的貿易情況有更深的了解。在下一篇文章,會由 Visio MVP 王仲麒老師為大家介紹,如何把以上分析好的數據,運用 Visio 做出簡單易懂的視覺化呈現。

延伸閱讀
資料視覺化的第一堂課 - 三種你必須先搞懂的資料類型!
資料視覺化的第二堂課 - 資料整理
資料視覺化的第三堂課 - Visio 的入門課
資料視覺化的第四堂課 - 快速上手!
資料視覺化的第六堂課 - 資料的呈現透過 Visio 也可以這麼的簡單
資料視覺化的第七堂課 - 組織圖與 KPI 的結合