領導 Leadership > 團隊管理
feature picture
shutterstock

資料科學家、分析師、工程師差在哪?一文搞懂你的資料團隊需要哪些人

2021-05-03 張維元

要完成一個好的資料專案,靠的不能只是一個厲害的強者,需要的是一支合作無間的資料團隊。資料思維是一種跨領域宏觀視野下的資料應用。我們可以觀察近期幾個市場熱門的議題來,都不乏大數據應用的身影。其中, 跨領域的整合也是另一個重要的應用關鍵。 無論資料的多寡,資料專案都是建基在資訊、統計、視覺化等不同的領域專業上面。不過現實層面上來說,很難有人可以同時具備那麼多能力,因此在資料專案中更需要團隊合作。

一個完整的資料科學團隊,除了要有特定領域的專家之外,還需要以下 3 種角色組成:資料科學家(Data Scientist)、資料分析師(Data Analyst),及資料工程師(Data Engineer)。

延伸閱讀:消費需求藏在數據裡!以人類學視角洞察數據的 3 種工具,幫你看穿消費者情感、思維

資料科學家發現問題,提出問題然後設計方法,並且對可取得的資料進行分析。資料分析師配合進行統計方面的工作,如實驗設計,數據分析等。資料工程師配合程式實作方面的工作,如大數據的收集與整理,算法的部署等。下面這張圖是來自於 Swami Chandrasekaran 的 Becoming a Data Scientist – Curriculum via Metromap 一文,裡面畫上了一個資料科學家所需要具備的能力。

Becoming a Data Scientist – Curriculum via Metroma

資料科學家 Data Scientist

2012 年,哈佛商業評論認為 Data Scientist 資料科學家將會是 21 世紀最「性感」的工作,美國知名人力資源網站 Glassdoor 日前也發表評論,認為資料科學家將會是 2016 年最棒的工作。

(2016 年最棒的工作是什麼?答案是資料科學家)

那究竟什麼是資料科學家呢?他又在團隊裡扮演什麼樣的角色?

我認為資料科學家是一個資料團隊中的核心,需要綜合統籌的能力,從觀察資料、發現問題到組織整個資料團隊。可以視為是資料應用專案中的小組長,擁有相關領域的各種技能,哪個需要就往那裡搬,能獨立承擔從數據處理,分析探索到實踐應用直到最終產生價值。簡單來說, 資料科學家就是「用資料解決真實問題的人」

也正因如此,資料科學家必須要與其他角色溝通,更強調的是多元的能力。從處理資料的工程,到分析資料的建模都需要涉略,以及擁有發現 insight 的思維。聽起來好像什麼都要會,不過實際上很難有人可以樣樣精通,所以團隊才顯得更為重要。身為一個好的資料科學家,必須要能夠駕馭一支資料團隊。

不斷掌握新的技術及觀點也是很重要的,因為在這個瞬息萬變的技術世界中,唯有持續的學習才能不會淘汰。

主要工作:資料驅動、解決更複雜的資料問題

觀察資料,從中發現有趣的/需要解決的問題,通常這個過程稱為資料驅動(Data Driven);然後和工程師商量如何從資料庫中建立分析架構。最終,與統計學家用各種統計模型/資料探勘/機器學習的技術進一步分析資料,同時產生一份資料報告。可以視為是資料分析師的進階版,解決分析師難以解決的複雜問題。終極目標是找出藏在資料背後的秘密,然後可以自動的預測未來趨勢。

所需技術:跨領域專長,統計知識與程式基礎兼具

需要牽涉到各種不同的領域,從基本簡單的數學理論、大量資料、程式設計到統計、機器學習與資料視覺化等等。除了要統計分析技術之外,也需要能用將理論以程式化的方式實現。

資料分析師 Data Analyst

資料分析師通常是指根據資料進行解釋的工作者,一般會通過「蒐集 -> 整理 -> 分析 -> 結果」的步驟。最常見的技能是利用常見的商業統計軟體(例如: SQL,R,SAS,Excel)產出統計報告且進行解釋。資料分析師所做的一切都是為了回答問題,通常被稱為是問題驅動(Problem Driven)。資料分析師在資料工程師提供的資料基礎之上進行探索性分析,目的是找到問題的正確答案。

主要工作:完成例行任務、提供決策依據

通常這個這個職位是有例行性任務的,定期出一個報告來分析季度數據,提供管理層決策參考。

所需技術:操作統計軟體、對數字有敏感度

需要具有操作統計軟體的基本技能,往往對數字及資料有一定的敏感度。

延伸閱讀:白天、黑夜,推薦你不同餐點!麥當勞投資 90 億都「改造」在哪?

資料工程師 Data Engineer

資料工程師主要的角色,是進行資料的架構設計,專注於環境與平台的架設。其所做的一切都為了讓資料可以容易地被使用,負責建立和維持公司資料儲存的技術基準,策劃硬體和軟體的結構,確保資料儲存系統可以支持未來的資料量和分析需求。最終目標是把資料整理好,能夠達成儲存成本低,查詢效率高的結果。隨著巨量資料的需求,現在的資料通常會存在很多的雜訊及干擾,需要花更多的精力在資料清理。

主要工作:設計資料架構、產出資料集

收集資料,管理資料,設計一個好的架構提供資料存取,針對需求設計產出的資料集。

所需技能:蒐集資料、架設資料庫相關知識

資料爬蟲,資料庫架構,資料前處理(資料清理、轉換),資料建模,分散式系統等等。

(本文由「資料科學家的工作日常」授權刊登)

相關文章
會員專區

使用會員功能前,請先登入

  • 台灣首款對話式 AI 職場教練,一次提升領導力
  • 會員專享每日運勢、名人金句抽籤
  • 收藏文章、追蹤作者,享受個人化學習頁面
  • 定向學習!20 大關鍵字,開放自選、訂閱
  • 解鎖下載專區!10+ 會員專刊一次載
追蹤我們