
“大數(shù)據(jù)之父”達(dá)文波特:成功的數(shù)據(jù)科學(xué)家不一定要有研究生學(xué)位
2006年6月,喬納森?高德曼(Jonathan Goldman)進(jìn)入商務(wù)社交網(wǎng)站LinkedIn工作。作為斯坦福大學(xué)物理學(xué)博士,他醉心于無處不在的鏈接和豐富的用戶資料。雖然這兩者通常只能形成混亂的數(shù)據(jù)和淺顯的分析,但當(dāng)他著手挖掘人際聯(lián)系時(shí),卻從中發(fā)現(xiàn)了“新大陸”。
他開始構(gòu)建理論、檢驗(yàn)預(yù)設(shè),并研究出了模型。通過這些模型,他可以預(yù)測出某賬號(hào)所歸屬的人際網(wǎng)絡(luò)。高德曼覺得,在探索基礎(chǔ)之上形成的新功能也許能為用戶提供價(jià)值。
幸運(yùn)的是,LinkedIn的聯(lián)合創(chuàng)始人兼時(shí)任CEO雷德?霍夫曼(現(xiàn)執(zhí)行總裁),在貝寶(PayPal)的工作經(jīng)驗(yàn)讓他對(duì)分析學(xué)的威力深信不疑,因此,他給了高德曼高度的自主權(quán)。
他給予高德曼一個(gè)不同于傳統(tǒng)產(chǎn)品發(fā)布套路的新方式—在網(wǎng)站黃金頁面以廣告的形式掛出小型加載模塊。這一測試最終大放異彩,成為了我們現(xiàn)在熟知的“你可能認(rèn)識(shí)的人”。
傳統(tǒng)的信息管理和數(shù)據(jù)分析主要用于支撐內(nèi)部決策,而大數(shù)據(jù)在這方面有所不同。當(dāng)然,在多數(shù)情況下,大數(shù)據(jù)也會(huì)有此用途,特別是在大企業(yè)內(nèi)。不過,數(shù)據(jù)科學(xué)家通常致力于面向客戶的產(chǎn)品和服務(wù),而不是創(chuàng)建為高管制定內(nèi)部決策提供建議的報(bào)表或報(bào)告。
數(shù)據(jù)科學(xué)家這一概念直到2008年,才由D.J. 帕蒂爾和杰夫?哈默巴赫爾創(chuàng)造,這個(gè)職位因?yàn)楸贿_(dá)文波特喻為“21世紀(jì)最性感的職業(yè)”而為更多人所熟知。那么,成為一名數(shù)據(jù)科學(xué)家,需要怎樣的潛質(zhì)和能力?
數(shù)據(jù)科學(xué)家的特征
我們可以用這樣一張圖表,來展示數(shù)據(jù)科學(xué)家必備的技能結(jié)構(gòu):
1、要想成為數(shù)據(jù)科學(xué)家,先去做黑客吧!
由于大數(shù)據(jù)技術(shù)是一種新興技術(shù),而且很難將其提取出來用于分析,所以,要想成為一位成功的數(shù)據(jù)科學(xué)家,就必須具備一些黑客的特征。
首先,你必須具備編碼或編程能力。“你會(huì)編寫代碼嗎”,這是一位首席科學(xué)家在招聘時(shí)向數(shù)據(jù)科學(xué)家提出的第一個(gè)問題。如果你具備任何編程語言方面的經(jīng)驗(yàn),那將大有裨益,尤其是腳本語言,如 Python、 Hive 和Pig,或者有時(shí)會(huì)生成的語言,如 Java。這些腳本語言相對(duì)容易編寫,還能將大型數(shù)據(jù)處理問題分布于分布式 MapReduce 框架中。
數(shù)據(jù)科學(xué)中的黑客還需要熟悉常用的大數(shù)據(jù)技術(shù),最重要的是 Hadoop/MapReduce,包括如何實(shí)施和擴(kuò)展它們,以及是否需要在所在地點(diǎn)或云計(jì)算中提供這些技術(shù)。這些技術(shù)都是一些新技術(shù),還在不斷變化,所以數(shù)據(jù)科學(xué)家必須具備開放性思維,而且要特別開放,以學(xué)習(xí)新工具和新方法。
最后,對(duì)黑客技術(shù)做一個(gè)總結(jié),很多大企業(yè)不愿意雇用黑客是有原因的。在本文中,黑客技術(shù)通常被定義為一種創(chuàng)新的快速計(jì)算,但這一術(shù)語還有一層“不太合法”的意味,即傾向于避開計(jì)算行為的正常規(guī)則。就當(dāng)前大數(shù)據(jù)技術(shù)低下的情形而言,后一種意義的黑客技術(shù)可能是必需的。然而,值得注意的是,黑客特征在數(shù)據(jù)科學(xué)家特征中并不占主導(dǎo)地位,你可能會(huì)為此后悔。鐵桿黑客帶來的麻煩遠(yuǎn)比他們帶來的益處要多得多。而且,他們也未必有興趣為大型官僚組織效力。
2、成功的數(shù)據(jù)科學(xué)家,不一定要有研究生學(xué)位
在數(shù)據(jù)科學(xué)家的特征中,科學(xué)家這一特征不一定意味著必須是實(shí)戰(zhàn)科學(xué)家。然而, 2012 年,我對(duì) 30 名數(shù)據(jù)科學(xué)家進(jìn)行了采訪,結(jié)果發(fā)現(xiàn),57% 取得了科學(xué)和技術(shù)領(lǐng)域的博士學(xué)位, 90% 至少在科學(xué)或技術(shù)領(lǐng)域獲得過一個(gè)高級(jí)學(xué)位,最常見的是實(shí)驗(yàn)物理學(xué)博士,其中還包括生物學(xué)、生態(tài)學(xué)或社會(huì)科學(xué)等高級(jí)學(xué)位,而且這些領(lǐng)域通常涉及大量的計(jì)算機(jī)工作。
數(shù)據(jù)科學(xué)是否需要這些領(lǐng)域詳細(xì)的相關(guān)知識(shí)呢? 絕對(duì)不需要。對(duì)實(shí)驗(yàn)物理學(xué)博士而言,重要的不是學(xué)位或相關(guān)的具體知識(shí),而是完成數(shù)據(jù)科學(xué)任務(wù)所需的能力和態(tài)度,其能力包括開展實(shí)驗(yàn)、設(shè)計(jì)實(shí)驗(yàn)裝置,以及利用數(shù)據(jù)來收集、分析和描述結(jié)果的能力??茖W(xué)家分析的數(shù)據(jù)不可能是真正的數(shù)據(jù)科學(xué)家,就連大學(xué)也很少接觸到真正的大數(shù)據(jù),但它很可能是一種非結(jié)構(gòu)化的數(shù)據(jù)。
進(jìn)行大數(shù)據(jù)分析的科學(xué)家可能會(huì)具備的特征有:基于證據(jù)做決策、即興創(chuàng)作、急躁以及自己動(dòng)手的寬慰感。在大數(shù)據(jù)工作的早期階段,這些技能很重要。在這一階段中,數(shù)據(jù)科學(xué)家必須執(zhí)行一些開創(chuàng)性工作,而在后期,這些工作可能會(huì)通過軟件輕松地完成??茖W(xué)家也可能是快速學(xué)習(xí)者,能迅速地吸收和掌握新技術(shù)。
應(yīng)當(dāng)指出的是,許多成功的數(shù)據(jù)科學(xué)家根本沒有研究生學(xué)位,他們的大多技能都是自學(xué)而來的,因?yàn)橐郧暗拇髮W(xué)并不提供這方面的課程。例如,領(lǐng)先的數(shù)據(jù)科學(xué)家杰夫 · 哈默巴赫(Jeff Hammerbacher)在 Facebook 工作時(shí)與當(dāng)時(shí)就職于領(lǐng)英的帕蒂爾(DJ Patil)創(chuàng)造了數(shù)據(jù)科學(xué)家這一術(shù)語,而那時(shí)他只有本科學(xué)位。大數(shù)據(jù)文化是一種任人唯才的文化,而不是一種強(qiáng)調(diào)具備某種數(shù)據(jù)科學(xué)學(xué)位的文化。
3、你得是一位可信的顧問
正如傳統(tǒng)的定量分析師一樣,數(shù)據(jù)科學(xué)家需要具備良好的人際溝通技能。然而,正如傳統(tǒng)的數(shù)據(jù)分析師一樣,他們不可能具備這些技能。因?yàn)槿绻銓⒋蟛糠志Ψ旁谟?jì)算機(jī)和統(tǒng)計(jì)數(shù)據(jù)上,就不會(huì)對(duì)人際關(guān)系產(chǎn)生太大的興趣。
不過,良好的人際溝通技能肯定是必要的。數(shù)據(jù)科學(xué)家要為高管制定內(nèi)部決策提供建議;在以數(shù)據(jù)為產(chǎn)品的企業(yè)里,數(shù)據(jù)科學(xué)家還要為負(fù)責(zé)產(chǎn)品和營銷的管理者就數(shù)據(jù)產(chǎn)品和服務(wù)的機(jī)會(huì)提出建議。最早一批數(shù)據(jù)科學(xué)家中的帕蒂爾參與創(chuàng)造了這一術(shù)語,他常喜歡說,數(shù)據(jù)科學(xué)家必須“站在橋上”,近距離地向船長提出建議。如果數(shù)據(jù)科學(xué)家和決策者之間存在中介的話,決策者可能無法了解關(guān)鍵決策涉及的所有重要數(shù)據(jù)和問題。
有證據(jù)表明,這些技巧很重要。高德納公司(Gartner)的研究發(fā)現(xiàn),“70%~80% 的企業(yè)智能商業(yè)項(xiàng)目的失敗”是因?yàn)椤癐T 部門和業(yè)務(wù)部門之間缺乏溝通,未能提出正確的問題,或未能考慮到企業(yè)的真正需求”。智能商業(yè)項(xiàng)目通常涉及的都是一些小數(shù)據(jù),而不是大數(shù)據(jù)。然而,某些項(xiàng)目之所以失敗是因?yàn)樽陨泶嬖趩栴}。毫無疑問,缺乏溝通的小數(shù)據(jù)和大數(shù)據(jù)項(xiàng)目會(huì)引發(fā)大問題。
4、先成為定量分析師
在大數(shù)據(jù)被獲取并被“馴服”之后,即從非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)之后,必須用傳統(tǒng)的方式對(duì)其進(jìn)行分析。因此,數(shù)據(jù)科學(xué)家還需要承擔(dān)起定量分析師的工作,了解他們身邊的各種數(shù)學(xué)和統(tǒng)計(jì)技能,并能夠輕松地向非技術(shù)人員做解釋。我和一些作者已經(jīng)合著了很多關(guān)于這些統(tǒng)計(jì)技能的書籍,所以在這里就不再詳述這些技能了。
然而,小型非結(jié)構(gòu)化數(shù)據(jù)的分析和大數(shù)據(jù)的分析之間存在一些差異。其一是,對(duì)于較大的群體來說,小樣本統(tǒng)計(jì)推斷出的結(jié)果可能不太重要。隨著大數(shù)據(jù)的出現(xiàn),企業(yè)往往會(huì)對(duì)整體數(shù)據(jù)進(jìn)行分析,因?yàn)樗鼈兙邆溥@種技術(shù)。如果你不是從一個(gè)樣本來推斷整個(gè)群體的結(jié)果,也就不用擔(dān)心統(tǒng)計(jì)數(shù)據(jù)之類的概念,換句話說,小樣本統(tǒng)計(jì)就是所觀察到的結(jié)果代表群體的概率,因?yàn)樗鼈兙褪且粋€(gè)群體。盡管如此,但我相信,在許多情況中,我們?nèi)詫⒗^續(xù)使用樣本統(tǒng)計(jì)。例如,向所有美國或其他國家公民征詢他們對(duì)政治或社會(huì)問題的看法是不可行的,所以我們還是會(huì)利用樣本調(diào)查來解決這類問題。即使你利用大量的網(wǎng)絡(luò)數(shù)據(jù)來分析這一問題,但仍然只能代表特定時(shí)間內(nèi)某些用戶的意見。
兩者之間的另一個(gè)不同之處是,大家普遍偏愛大數(shù)據(jù)的可視化分析。至于原因,我想沒有人能完全解釋清楚。大數(shù)據(jù)分析結(jié)果往往以可視化的形式表現(xiàn)出來,現(xiàn)在,可視化分析有很多優(yōu)勢:易于高管理解,容易引起注意。不利的一面是,它們一般不適宜于表達(dá)復(fù)雜的多元關(guān)系和統(tǒng)計(jì)模型。換句話來說,大多數(shù)可視化數(shù)據(jù)是為了進(jìn)行描述性分析,而不是預(yù)測性或指令性分析。然而,它們可以同時(shí)顯示大量的數(shù)據(jù),如圖 4-1 所示,這幅圖呈現(xiàn)的是銀行賬戶關(guān)閉因素的可視化分析。我發(fā)現(xiàn),與許多其他復(fù)雜的大數(shù)據(jù)可視化分析一樣,這一可視化分析也很難解釋。我有時(shí)會(huì)想,很多大數(shù)據(jù)的可視化分析僅僅是因?yàn)榭梢赃M(jìn)行分析而被創(chuàng)建的,而并不是為了清晰地呈現(xiàn)一個(gè)問題。
為什么可視化分析常見于大數(shù)據(jù)中呢?有幾種可能的解釋。
這表明,由于捕捉結(jié)構(gòu)化數(shù)據(jù)所付出的努力太多,所以很少有時(shí)間和精力來開展復(fù)雜的多元統(tǒng)計(jì)分析,只能建立一個(gè)簡單的頻率統(tǒng)計(jì),然后基于頻率統(tǒng)計(jì)進(jìn)行繪制。這種現(xiàn)象常見于數(shù)據(jù)科學(xué)家群體中,但沒有人知道這種方法的重要性和普遍性。
另一種解釋是,大數(shù)據(jù)和更吸引人的可視化分析幾乎同時(shí)出現(xiàn)。最后一種解釋是,大數(shù)據(jù)工作是一種探索性和反復(fù)性的工作,因此需要可視化分析來探索數(shù)據(jù),并向管理者和決策者傳達(dá)初步調(diào)查結(jié)果。
我們可能永遠(yuǎn)不會(huì)知道哪個(gè)解釋更為重要,但事實(shí)是,數(shù)據(jù)科學(xué)家需要以可視化的方式來顯示數(shù)據(jù)和分析結(jié)果。
5、做既能精通又能跨界的業(yè)務(wù)專家
數(shù)據(jù)科學(xué)家對(duì)業(yè)務(wù)的運(yùn)作要有深入的了解,或者至少應(yīng)該了解其中的部分環(huán)節(jié)。例如,企業(yè)如何賺錢?競爭對(duì)手是誰?企業(yè)如何在行業(yè)中成功推出產(chǎn)品和服務(wù)?能夠利用大數(shù)據(jù)和分析來解決的關(guān)鍵問題是什么?這些都是一個(gè)有效率的數(shù)據(jù)科學(xué)家應(yīng)該回答的問題。
掌握與業(yè)務(wù)相關(guān)的知識(shí)可以使數(shù)據(jù)科學(xué)家做出假設(shè)并迅速對(duì)其進(jìn)行測試,為關(guān)鍵的功能和業(yè)務(wù)問題提供解決方案;否則,他將難以為業(yè)務(wù)增加附加值。正是對(duì)業(yè)務(wù)問題的分析使這些關(guān)于數(shù)據(jù)或傳統(tǒng)數(shù)據(jù)分析的知識(shí)得以發(fā)揮作用,因此,相關(guān)業(yè)務(wù)領(lǐng)域的興趣和經(jīng)驗(yàn)很重要。當(dāng)然, 數(shù)據(jù)科學(xué)家有時(shí)也會(huì)在各個(gè)行業(yè)之間來回轉(zhuǎn)換,但沒有人會(huì)精通所有領(lǐng)域。然而,重要的是,他們需要對(duì)所從事的新業(yè)務(wù)抱有強(qiáng)烈的好奇心和興趣。 顯而易見,數(shù)據(jù)科學(xué)家通常都是極其聰明的人,如果他們對(duì)某個(gè)新業(yè)務(wù)感興趣,很快就會(huì)掌握相關(guān)的知識(shí)。如果你面試的是另一個(gè)行業(yè)的數(shù)據(jù)科學(xué)家,請(qǐng)確保他對(duì)其所從事的行業(yè)感興趣,而且具備解決問題的能力。
當(dāng)然,這個(gè)技能結(jié)構(gòu)對(duì)有志成為數(shù)據(jù)科學(xué)家的人才來說,是一種參考。任何人都很難同時(shí)在這五個(gè)方向都出類拔萃。通用電氣公司全球研究中心的分析學(xué)技術(shù)的負(fù)責(zé)人格拉伯是這樣說的:“在通用電氣公司,我們發(fā)現(xiàn)具備 2~3 個(gè)領(lǐng)域的專業(yè)技能的數(shù)據(jù)科學(xué)家是最有成效的”。你要做的,是在一支團(tuán)隊(duì)中找到自己的位置,發(fā)揮自己的創(chuàng)造性,并且不斷學(xué)習(xí)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03