
2016年數(shù)據(jù)科學家將扮演什么角色?
數(shù)據(jù)科學家已被譽為2016年美國最好的工作,但是這一崗位的定義和所要求的技能卻一直在變化。技術進步與商業(yè)需求不斷驅(qū)動數(shù)據(jù)科學崗位的演化,其所處的行業(yè)也是日新月異。在本文中,我們將更加仔細地審視2016年數(shù)據(jù)科學家將扮演的角色。
Dave Holtz寫道,“數(shù)據(jù)科學家”常用作“一攬子頭銜”(blanket title)的統(tǒng)稱,描述一組截然不同的工作崗位。他將這個現(xiàn)象的原因,歸結為數(shù)據(jù)科學領域仍處在早期發(fā)展階段,對其定義不夠準確。如果接受數(shù)據(jù)科學是一個“跨學科領域”這種大而全的說法,那么數(shù)據(jù)科學家的工作就是從不同形式的大量數(shù)據(jù)中提取知識或洞察。我們已經(jīng)處在大數(shù)據(jù)時代,這是無法改變的事實。隨著數(shù)據(jù)量與日俱增,從這些數(shù)據(jù)中提取出價值的工作只會慢慢變得更加復雜和困難。
大數(shù)據(jù)經(jīng)濟背后的邏輯,正在以無法想象或預測的方式重塑我們的生活;我們做出的每一個電子操作都將產(chǎn)生數(shù)據(jù),并留下與自己生活相關的蛛絲馬跡。作為消費者經(jīng)濟的參與者,我們訪問任何網(wǎng)站或電子服務時,所產(chǎn)生的數(shù)據(jù)都會被挖掘,而數(shù)據(jù)科學家就要通過計算機科學、數(shù)據(jù)分析和復雜的商業(yè)知識,來收集、清洗、分析我們提供的數(shù)據(jù),并據(jù)此進行預測。下面的圖表列出了一名數(shù)據(jù)科學家所需要的技能集。我們可以發(fā)現(xiàn),與一般意義上的大數(shù)據(jù)開發(fā)者或商業(yè)分析師不同,這個崗位的職責要求掌握多種技能集。
圖1:數(shù)據(jù)科學家的技能集
Rivera 和 Haverson認為,之前的數(shù)據(jù)專業(yè)人員關注的是數(shù)據(jù)的流動過程和解釋,而數(shù)據(jù)科學家更注重數(shù)學視角 —— 聚焦于從歷史數(shù)據(jù)和當前數(shù)據(jù)中洞察出未來的模式。如果僅從字面上理解這兩個詞,“科學”意味著通過系統(tǒng)研究獲得的知識;“數(shù)據(jù)”則是由定性化或定量化變量組成的信息集合。因此,數(shù)據(jù)科學家的字面定義應該是:一個系統(tǒng)性地研究信息的組織與性質(zhì)的人。盡管統(tǒng)計人員和其他研究數(shù)據(jù)分析的人也扮演著重要的角色,但是Anjul Bhambari所描述的數(shù)據(jù)科學家既是分析師,又是藝術家,其角色注定是變革傳統(tǒng)數(shù)據(jù)的分析和使用方法。
商業(yè)社交網(wǎng)站LinkedIn的成功,很好地證明了數(shù)據(jù)科學家為商業(yè)智能所帶來的重大利好。作為一家?guī)缀跫兇庖蕾嚻?.8億名用戶相互聯(lián)系所產(chǎn)生數(shù)據(jù)的企業(yè),LinkedIn正在利用受過正規(guī)培訓、有著強烈好奇心的數(shù)據(jù)科學家們不斷探索大數(shù)據(jù)的世界。LinkedIn與Facebook、Google等其他大型知識型企業(yè)都在利用數(shù)據(jù)科學家對大量的雜亂數(shù)據(jù)進行結構化,確定數(shù)據(jù)的價值大小,以及變量之間的系統(tǒng)性關系。
KPMG近期對企業(yè)高管的一項調(diào)查顯示,99%的受訪者認為大數(shù)據(jù)分析對于制定次年的戰(zhàn)略非常重要。預計到2020年,每天產(chǎn)生的企業(yè)數(shù)據(jù)將超過240EB,在這一時代背景下,對于掌握了從數(shù)據(jù)中提取價值洞見能力的數(shù)據(jù)科學家的需求比以往更加重要…但是,Venture Beat公司的Travis Wright在一篇文章中提到,對數(shù)據(jù)科學家的需求遠遠超過了供給,如果想跟上新型數(shù)據(jù)經(jīng)濟的步伐,僅美國的公司就需要雇傭14-19萬名數(shù)據(jù)科學家。
令人諷刺的是,關于數(shù)據(jù)科學家的平均收入的數(shù)據(jù)卻存在許多相互沖突的地方。不過,比較明顯的是平均收入與對數(shù)據(jù)科學家的高需求是正相關的。如果雇主要求員工能夠熟練使用數(shù)據(jù)挖掘算法、精通像R和Python這樣的語言、又具備處理大型數(shù)據(jù)庫(SQL或類似數(shù)據(jù)庫)的經(jīng)驗,還得開發(fā)Java應用、處理NoSQL數(shù)據(jù)庫(引用自某個職位要求,上述要求只占十分之一)——此外,還要能夠?qū)⒁陨线@些清楚地傳達給非技術同事,那么平均12萬美元的薪資看上去也就不那么過分了。
盡管數(shù)據(jù)科學家的角色與傳統(tǒng)意義上的數(shù)據(jù)分析崗位有重合之處,但是區(qū)別也尤其明顯。一名數(shù)據(jù)分析師或數(shù)據(jù)架構師能夠從大規(guī)模數(shù)據(jù)集中提取信息。但是他們只掌握SQL查詢命令和對數(shù)據(jù)進行切片的分析包。借助對機器學習的深刻了解和編程開發(fā)等方面的知識,數(shù)據(jù)科學家可以隨心所欲地處理數(shù)據(jù),挖掘出更深的洞見。他們擺脫了這些程序的束縛。普通的數(shù)據(jù)分析師會觀察過去發(fā)生的事情,但是數(shù)據(jù)科學家必須具備長遠的眼光,展望未來。通過應用先進的統(tǒng)計知識和復雜的數(shù)據(jù)建模,他們必須挖掘出數(shù)據(jù)中隱藏的模式,對未來做出預測。數(shù)據(jù)科學家所需要的技能成功的數(shù)據(jù)分析需要做到能夠清洗、集成和轉變數(shù)據(jù) —— 這些都是數(shù)據(jù)科學家必須掌握的重要技能。將科學背景與計算分析技能結合在一起之后,你就能夠“勝人一籌”。下面的圖2列出了數(shù)據(jù)科學通常關注的幾個領域。
圖2.數(shù)據(jù)科學關注的領域
不過我們還是要更細致地探討一下成為數(shù)據(jù)科學家所需要的實際技能。Mark van Rijmenam是Data Floq公司的CEO,為了能夠開發(fā)出提出正確的問題并尋找正確答案的算法,他建議數(shù)據(jù)科學家掌握以下技能:統(tǒng)計技能、數(shù)學和倫理學技能,并且具備構建預測性模型的豐富經(jīng)驗。
來自LinkedIn的Ferris Jumah更是將所要求的技能進行了歸類,盡管數(shù)據(jù)科學家可能需要的技能和擔任的崗位角色紛繁復雜。
數(shù)據(jù)科學家必須做到:
以數(shù)學思維看待數(shù)據(jù)。學習諸如機器學習、數(shù)據(jù)挖掘、數(shù)據(jù)分析和統(tǒng)計學等技能十分重要。數(shù)據(jù)科學家需要從數(shù)學的角度對數(shù)據(jù)進行解釋和分析。
使用一門常用語言,進行數(shù)據(jù)訪問、探索和建模。掌握一門統(tǒng)計編程語言將是關鍵。R、Python或MATLAB等語言,以及類似SQL等數(shù)據(jù)庫查詢語言是最受追捧的技能。數(shù)據(jù)提取、探索和假設檢驗是數(shù)據(jù)科學實踐的核心。
具備很強的計算機科學和軟件工程背景。這需要掌握包括Java、C++或算法知識和Hadoop。這些技能將用于利用數(shù)據(jù)來設計系統(tǒng)架構。
與使用標準工具的普通程序員不同,數(shù)據(jù)科學家一般會使用各種各樣的工具,而且工具時刻在更新。這是因為數(shù)據(jù)科學領域正在快速發(fā)展,許多新工具還遠未成熟。盡管如此,下面我們還是精選了一些數(shù)據(jù)科學家常用的工具:
數(shù)據(jù)分析
在這方面,使用的工具其實就是數(shù)據(jù)科學家用于提取和分析數(shù)據(jù)的編程語言。一般來說是Python、R和SQL。
數(shù)據(jù)科學家可以選擇自己用于提取和分析數(shù)據(jù)的數(shù)據(jù)庫。處理合理大小的數(shù)據(jù)集時,最流行的選擇是MySQL。進入大數(shù)據(jù)領域之后,他們通常會轉向使用Hive或Redshift。
數(shù)據(jù)可視化方面最常提及的工具,是D3.js和Tableau。只要是你能想象出來的數(shù)據(jù)可視化方式,數(shù)據(jù)科學家都可以利用D3.js實現(xiàn)。Tableau是目前市面上最流行的數(shù)據(jù)可視化工具,支持從數(shù)百個輸入源匯集數(shù)據(jù),并輕松地將這些數(shù)據(jù)轉換成可視圖表。
這或許是每天新增工具最多的一個領域了。知名度最高、使用最廣泛的工具可能是Scikit-learn,它利用Python進行機器學習。然后當然還有Spark MLlib,這是Apache推出的針對Spark和Hadoop的機器學習庫。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10