
2016年數(shù)據(jù)科學(xué)家將扮演什么角色?
數(shù)據(jù)科學(xué)家已被譽(yù)為2016年美國最好的工作,但是這一崗位的定義和所要求的技能卻一直在變化。技術(shù)進(jìn)步與商業(yè)需求不斷驅(qū)動(dòng)數(shù)據(jù)科學(xué)崗位的演化,其所處的行業(yè)也是日新月異。在本文中,我們將更加仔細(xì)地審視2016年數(shù)據(jù)科學(xué)家將扮演的角色。
Dave Holtz寫道,“數(shù)據(jù)科學(xué)家”常用作“一攬子頭銜”(blanket title)的統(tǒng)稱,描述一組截然不同的工作崗位。他將這個(gè)現(xiàn)象的原因,歸結(jié)為數(shù)據(jù)科學(xué)領(lǐng)域仍處在早期發(fā)展階段,對其定義不夠準(zhǔn)確。如果接受數(shù)據(jù)科學(xué)是一個(gè)“跨學(xué)科領(lǐng)域”這種大而全的說法,那么數(shù)據(jù)科學(xué)家的工作就是從不同形式的大量數(shù)據(jù)中提取知識或洞察。我們已經(jīng)處在大數(shù)據(jù)時(shí)代,這是無法改變的事實(shí)。隨著數(shù)據(jù)量與日俱增,從這些數(shù)據(jù)中提取出價(jià)值的工作只會慢慢變得更加復(fù)雜和困難。
大數(shù)據(jù)經(jīng)濟(jì)背后的邏輯,正在以無法想象或預(yù)測的方式重塑我們的生活;我們做出的每一個(gè)電子操作都將產(chǎn)生數(shù)據(jù),并留下與自己生活相關(guān)的蛛絲馬跡。作為消費(fèi)者經(jīng)濟(jì)的參與者,我們訪問任何網(wǎng)站或電子服務(wù)時(shí),所產(chǎn)生的數(shù)據(jù)都會被挖掘,而數(shù)據(jù)科學(xué)家就要通過計(jì)算機(jī)科學(xué)、數(shù)據(jù)分析和復(fù)雜的商業(yè)知識,來收集、清洗、分析我們提供的數(shù)據(jù),并據(jù)此進(jìn)行預(yù)測。下面的圖表列出了一名數(shù)據(jù)科學(xué)家所需要的技能集。我們可以發(fā)現(xiàn),與一般意義上的大數(shù)據(jù)開發(fā)者或商業(yè)分析師不同,這個(gè)崗位的職責(zé)要求掌握多種技能集。
圖1:數(shù)據(jù)科學(xué)家的技能集
Rivera 和 Haverson認(rèn)為,之前的數(shù)據(jù)專業(yè)人員關(guān)注的是數(shù)據(jù)的流動(dòng)過程和解釋,而數(shù)據(jù)科學(xué)家更注重?cái)?shù)學(xué)視角 —— 聚焦于從歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)中洞察出未來的模式。如果僅從字面上理解這兩個(gè)詞,“科學(xué)”意味著通過系統(tǒng)研究獲得的知識;“數(shù)據(jù)”則是由定性化或定量化變量組成的信息集合。因此,數(shù)據(jù)科學(xué)家的字面定義應(yīng)該是:一個(gè)系統(tǒng)性地研究信息的組織與性質(zhì)的人。盡管統(tǒng)計(jì)人員和其他研究數(shù)據(jù)分析的人也扮演著重要的角色,但是Anjul Bhambari所描述的數(shù)據(jù)科學(xué)家既是分析師,又是藝術(shù)家,其角色注定是變革傳統(tǒng)數(shù)據(jù)的分析和使用方法。
商業(yè)社交網(wǎng)站LinkedIn的成功,很好地證明了數(shù)據(jù)科學(xué)家為商業(yè)智能所帶來的重大利好。作為一家?guī)缀跫兇庖蕾嚻?.8億名用戶相互聯(lián)系所產(chǎn)生數(shù)據(jù)的企業(yè),LinkedIn正在利用受過正規(guī)培訓(xùn)、有著強(qiáng)烈好奇心的數(shù)據(jù)科學(xué)家們不斷探索大數(shù)據(jù)的世界。LinkedIn與Facebook、Google等其他大型知識型企業(yè)都在利用數(shù)據(jù)科學(xué)家對大量的雜亂數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,確定數(shù)據(jù)的價(jià)值大小,以及變量之間的系統(tǒng)性關(guān)系。
KPMG近期對企業(yè)高管的一項(xiàng)調(diào)查顯示,99%的受訪者認(rèn)為大數(shù)據(jù)分析對于制定次年的戰(zhàn)略非常重要。預(yù)計(jì)到2020年,每天產(chǎn)生的企業(yè)數(shù)據(jù)將超過240EB,在這一時(shí)代背景下,對于掌握了從數(shù)據(jù)中提取價(jià)值洞見能力的數(shù)據(jù)科學(xué)家的需求比以往更加重要…但是,Venture Beat公司的Travis Wright在一篇文章中提到,對數(shù)據(jù)科學(xué)家的需求遠(yuǎn)遠(yuǎn)超過了供給,如果想跟上新型數(shù)據(jù)經(jīng)濟(jì)的步伐,僅美國的公司就需要雇傭14-19萬名數(shù)據(jù)科學(xué)家。
令人諷刺的是,關(guān)于數(shù)據(jù)科學(xué)家的平均收入的數(shù)據(jù)卻存在許多相互沖突的地方。不過,比較明顯的是平均收入與對數(shù)據(jù)科學(xué)家的高需求是正相關(guān)的。如果雇主要求員工能夠熟練使用數(shù)據(jù)挖掘算法、精通像R和Python這樣的語言、又具備處理大型數(shù)據(jù)庫(SQL或類似數(shù)據(jù)庫)的經(jīng)驗(yàn),還得開發(fā)Java應(yīng)用、處理NoSQL數(shù)據(jù)庫(引用自某個(gè)職位要求,上述要求只占十分之一)——此外,還要能夠?qū)⒁陨线@些清楚地傳達(dá)給非技術(shù)同事,那么平均12萬美元的薪資看上去也就不那么過分了。
盡管數(shù)據(jù)科學(xué)家的角色與傳統(tǒng)意義上的數(shù)據(jù)分析崗位有重合之處,但是區(qū)別也尤其明顯。一名數(shù)據(jù)分析師或數(shù)據(jù)架構(gòu)師能夠從大規(guī)模數(shù)據(jù)集中提取信息。但是他們只掌握SQL查詢命令和對數(shù)據(jù)進(jìn)行切片的分析包。借助對機(jī)器學(xué)習(xí)的深刻了解和編程開發(fā)等方面的知識,數(shù)據(jù)科學(xué)家可以隨心所欲地處理數(shù)據(jù),挖掘出更深的洞見。他們擺脫了這些程序的束縛。普通的數(shù)據(jù)分析師會觀察過去發(fā)生的事情,但是數(shù)據(jù)科學(xué)家必須具備長遠(yuǎn)的眼光,展望未來。通過應(yīng)用先進(jìn)的統(tǒng)計(jì)知識和復(fù)雜的數(shù)據(jù)建模,他們必須挖掘出數(shù)據(jù)中隱藏的模式,對未來做出預(yù)測。數(shù)據(jù)科學(xué)家所需要的技能成功的數(shù)據(jù)分析需要做到能夠清洗、集成和轉(zhuǎn)變數(shù)據(jù) —— 這些都是數(shù)據(jù)科學(xué)家必須掌握的重要技能。將科學(xué)背景與計(jì)算分析技能結(jié)合在一起之后,你就能夠“勝人一籌”。下面的圖2列出了數(shù)據(jù)科學(xué)通常關(guān)注的幾個(gè)領(lǐng)域。
圖2.數(shù)據(jù)科學(xué)關(guān)注的領(lǐng)域
不過我們還是要更細(xì)致地探討一下成為數(shù)據(jù)科學(xué)家所需要的實(shí)際技能。Mark van Rijmenam是Data Floq公司的CEO,為了能夠開發(fā)出提出正確的問題并尋找正確答案的算法,他建議數(shù)據(jù)科學(xué)家掌握以下技能:統(tǒng)計(jì)技能、數(shù)學(xué)和倫理學(xué)技能,并且具備構(gòu)建預(yù)測性模型的豐富經(jīng)驗(yàn)。
來自LinkedIn的Ferris Jumah更是將所要求的技能進(jìn)行了歸類,盡管數(shù)據(jù)科學(xué)家可能需要的技能和擔(dān)任的崗位角色紛繁復(fù)雜。
數(shù)據(jù)科學(xué)家必須做到:
以數(shù)學(xué)思維看待數(shù)據(jù)。學(xué)習(xí)諸如機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)分析和統(tǒng)計(jì)學(xué)等技能十分重要。數(shù)據(jù)科學(xué)家需要從數(shù)學(xué)的角度對數(shù)據(jù)進(jìn)行解釋和分析。
使用一門常用語言,進(jìn)行數(shù)據(jù)訪問、探索和建模。掌握一門統(tǒng)計(jì)編程語言將是關(guān)鍵。R、Python或MATLAB等語言,以及類似SQL等數(shù)據(jù)庫查詢語言是最受追捧的技能。數(shù)據(jù)提取、探索和假設(shè)檢驗(yàn)是數(shù)據(jù)科學(xué)實(shí)踐的核心。
具備很強(qiáng)的計(jì)算機(jī)科學(xué)和軟件工程背景。這需要掌握包括Java、C++或算法知識和Hadoop。這些技能將用于利用數(shù)據(jù)來設(shè)計(jì)系統(tǒng)架構(gòu)。
與使用標(biāo)準(zhǔn)工具的普通程序員不同,數(shù)據(jù)科學(xué)家一般會使用各種各樣的工具,而且工具時(shí)刻在更新。這是因?yàn)閿?shù)據(jù)科學(xué)領(lǐng)域正在快速發(fā)展,許多新工具還遠(yuǎn)未成熟。盡管如此,下面我們還是精選了一些數(shù)據(jù)科學(xué)家常用的工具:
數(shù)據(jù)分析
在這方面,使用的工具其實(shí)就是數(shù)據(jù)科學(xué)家用于提取和分析數(shù)據(jù)的編程語言。一般來說是Python、R和SQL。
數(shù)據(jù)科學(xué)家可以選擇自己用于提取和分析數(shù)據(jù)的數(shù)據(jù)庫。處理合理大小的數(shù)據(jù)集時(shí),最流行的選擇是MySQL。進(jìn)入大數(shù)據(jù)領(lǐng)域之后,他們通常會轉(zhuǎn)向使用Hive或Redshift。
數(shù)據(jù)可視化方面最常提及的工具,是D3.js和Tableau。只要是你能想象出來的數(shù)據(jù)可視化方式,數(shù)據(jù)科學(xué)家都可以利用D3.js實(shí)現(xiàn)。Tableau是目前市面上最流行的數(shù)據(jù)可視化工具,支持從數(shù)百個(gè)輸入源匯集數(shù)據(jù),并輕松地將這些數(shù)據(jù)轉(zhuǎn)換成可視圖表。
這或許是每天新增工具最多的一個(gè)領(lǐng)域了。知名度最高、使用最廣泛的工具可能是Scikit-learn,它利用Python進(jìn)行機(jī)器學(xué)習(xí)。然后當(dāng)然還有Spark MLlib,這是Apache推出的針對Spark和Hadoop的機(jī)器學(xué)習(xí)庫。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03