
如何成為一名合格的數(shù)據(jù)科學家
本文獨家探討了IT行業(yè)發(fā)展最快、業(yè)內(nèi)討論最多的角色之一--數(shù)據(jù)科學家。根據(jù)CNN報道,數(shù)據(jù)科學家是2012年度最佳的新工作之一,《哈佛商業(yè)評論》的評論文章甚至稱其為21世紀“最性感”的工作。數(shù)據(jù)科學家的工作是使用數(shù)據(jù)分析作為交易工具,在浩如煙海的數(shù)據(jù)容量中發(fā)掘有意義的關聯(lián)數(shù)據(jù),并將其轉(zhuǎn)化為有利可圖的商業(yè)洞察力。
經(jīng)過為期數(shù)月的高失業(yè)率和仍然搖擺不定的經(jīng)濟態(tài)勢之后,從就業(yè)市場上得到的任何好消息都能迅速獲得關注,但即便是這樣,對于大家都關注著一個突然非常“in”的工作職務:數(shù)據(jù)科學家這樣的事情,似乎沒能完全解釋得清。
根據(jù)CNN報道,數(shù)據(jù)科學家是2012年度最佳的新工作之一,《哈佛商業(yè)評論》的評論文章甚至稱其為21世紀“最性感”的工作。
數(shù)據(jù)科學家的巨大誘惑力直接根源于市場對大數(shù)據(jù)與分析的強烈興趣。數(shù)據(jù)科學家的工作是使用數(shù)據(jù)分析作為交易工具,在浩如煙海的數(shù)據(jù)容量中發(fā)掘有意義的關聯(lián)數(shù)據(jù),并將其轉(zhuǎn)化為有利可圖的商業(yè)洞察力。
此外,那些適應多維度工作崗位,糅合計算機科學,掌握先進的定量概念、業(yè)務領域知識和溝通技巧的人常常是鶴立雞群、鳳毛麟角。隨著數(shù)據(jù)科學家的供不應求,數(shù)據(jù)工作者的收入達到了6位數(shù)字,人力資源公司Modis高級副總裁Matthew Ripaldi表示。
招聘人員同樣表示數(shù)據(jù)科學家崗位飛速增長,即便工作職位的數(shù)量并不那么驚人?!爱斘覀儍赡昵伴_始尋找符合該職位要求的人時,僅僅只有8個工作崗位,但現(xiàn)在工作崗位有42個。”Tom Silver表示,他在工作搜索網(wǎng)站Dice.com擔任北美地區(qū)高級副總裁?!?3000個工作崗位中的42個,實在是不算龐大,但我決不會懷疑這個崗位在未來的快速發(fā)展”。
眾人矚目之外,有任何數(shù)據(jù)和計算機工作背景的人自然會心生懷疑,誰會成為數(shù)據(jù)科學家,我能不能成為數(shù)據(jù)科學家?筆者在此試著解答一些最基本的問題。
數(shù)據(jù)科學家是什么?
這個看似簡單的問題的答案,取決于你問的對象。網(wǎng)址縮短服務Bit.ly公司首席科學家Hilary Manson對數(shù)據(jù)科學家的定義獲得了廣泛接受與認可: 數(shù)據(jù)科學家指能獲取、清洗、探索、建模與解釋數(shù)據(jù)的人。
位于新墨西哥州圣達菲的咨詢機構(gòu)Hired Brains公司首席執(zhí)行官兼首席分析師 Neil Raden則更為深入,他將數(shù)據(jù)科學家分成兩種類型。
第一種類型--他們是真正的科學家,研究創(chuàng)造算法和方法,發(fā)表論文,并積極參與這些規(guī)則的溝通。這些單個的人物常見于以算法和方法為核心的研究機構(gòu)和學術機構(gòu)(想想谷歌、亞馬遜和華爾街),Raden表示。
第二種類型--這個類型的人群更接近于我們今天提到的雇傭市場上的人--他們不是科學家而是數(shù)據(jù)從業(yè)者,Raden補充道。他們都是統(tǒng)計學與數(shù)學建模及開發(fā)領域的專家,掌握并采用定量分析方法,設計、測試和部署模型。
預測分析服務提供商Opera解決方案研發(fā)中心全球負責人Jacob Spoelstra,也把在Opera工作的人大致歸類為數(shù)據(jù)科學家,以及由他本人與同事負責的其他工作。
Opera公司的“數(shù)據(jù)科學家”--與Raden分類的第一種類型人群十分符合--在機器學習(能力)的水平上工作,開發(fā)統(tǒng)計模型和模式識別算法,從海量數(shù)據(jù)流中發(fā)現(xiàn)和提取智能預測。他們將分析發(fā)現(xiàn)轉(zhuǎn)化為直接行動,通過減少財務欺詐或檢測高風險抵押貸款等類似措施,幫助提升業(yè)務。Spoelstra估計,類似谷歌這樣的公司雇傭了數(shù)百位這種類型的數(shù)據(jù)科學家,而Opera公司近700位雇員中,有三分之一是機器學習(能力)領域的專家。
同時,天才分析(Talent Analytics)公司CEO Greta Roberts堅信當前對數(shù)據(jù)科學家工作的理解實際上包含四大功能角色。一項針對數(shù)據(jù)科學家的調(diào)查詢問了他們?nèi)绾畏峙?1項分析功能的時間,出現(xiàn)了四個集群:數(shù)據(jù)準備人員(他們花費絕大部分時間,進行數(shù)據(jù)的采集、制備和分析);程序員(他們創(chuàng)建程序并做相應的一些分析);管理人員(他們專注于數(shù)據(jù)管理、管控、展示、詮釋與設計);最后一種為通才(什么都干,什么都只會一點點)。
“當我最開始聽說這些的時候,我認為’沒有人符合該定義--他們怎么可能?’”Robert說,“因為這是一個新角色,我覺得人們把什么職責都扔給了他。當你過度指定,最終只能得到一個空集”。許多商業(yè)人士視作數(shù)據(jù)科學家的,實際上是一個團體的人表現(xiàn)出的各種各樣的功能。盡管現(xiàn)在依然缺乏符合這些角色的人,實際情況也與“鳳毛麟角”相去甚遠,有太多的人擁有這樣的天賦,成長為一個或多個所需的角色。
必要的技能與憑據(jù)是什么?
正如Robert表明的那樣,詳細的數(shù)據(jù)科學技能如雨后春筍般在網(wǎng)絡上列出,列表令人生畏。絕大多數(shù)指定經(jīng)驗要求先進的數(shù)學和統(tǒng)計分析(包括對類似R、SAS和Stata工具等的掌握)、創(chuàng)建程序(包括C、C++、Python和Java語言)、SQL數(shù)據(jù)庫、平臺如Hadoop/MapReduce、數(shù)據(jù)挖掘和建模、數(shù)據(jù)虛擬化、創(chuàng)造性和溝通能力與商務理解力。
當然,數(shù)據(jù)科學家的確需要與先前的數(shù)據(jù)分析人員決然不同的能力與技巧,這是事實。Raden承認,例如,他們需要有能力處理當前各種各樣的有效數(shù)據(jù),并且最終分析數(shù)組可以采用,Raden表示。
他們需要掌握編程技巧,也要有定量方法和調(diào)查與建模方向的背景;在涉及到數(shù)據(jù)的時候,他們必須能夠辨別什么數(shù)據(jù)是有意義的,什么數(shù)據(jù)是無意義的,Raden補充道。高效的數(shù)據(jù)科學家還需要足夠的業(yè)務領域知識,在復雜學科上與缺乏相應背景工具和方法的人順暢溝通的能力,他說。
到底是什么導致數(shù)據(jù)科學家優(yōu)于其他分析人士呢?Ripaldi解釋,是溝通能力--通常的C系列--數(shù)據(jù)告訴他們結(jié)果,以及針對此結(jié)果應該如何采取行動。“你可以分析所有你想要的數(shù)據(jù),但如果你不能清晰的表達出數(shù)據(jù)告訴你的東西,你就不能算作是數(shù)據(jù)科學家”,他說。畢竟,我們的目標是推進經(jīng)營戰(zhàn)略,如減少客戶流失,提供跨渠道,化解金融風險。
然后再一次,Robert看到了這些需求本身存在的固有的沖突,她坦陳,“他們不得不能夠坐在那里,在一段時間內(nèi)尋找數(shù)據(jù),然后翻轉(zhuǎn)開關,化身為能引人入勝的主持人?這完全是兩個不同的人?!?/span>
Opera--也雇傭了各種各樣機器學習(能力)的數(shù)據(jù)科學家--在尋找這樣的人,他們擁有定量領域背景,有數(shù)學和統(tǒng)計概念資質(zhì),能夠?qū)⑦@些概念以計算機程序進行實例化,接受大容量數(shù)據(jù)流并對解決實際商業(yè)問題有一定興趣。
“我們對那些需要學習機器學習算法的人感到自在,如果他們對數(shù)學和解決問題的能力表現(xiàn)出色?!監(jiān)pera分析部門全球負責人Joseph Milanna表示,“他們可能不是一名合格的數(shù)學家或已經(jīng)建立了神經(jīng)網(wǎng)絡,但他們應該表現(xiàn)出激情與興趣,這樣我們才會選擇他”。
擁有怎樣的背景,才能成為一名數(shù)據(jù)科學家?
在Opera,大多數(shù)成功的申請者都擁有更高水平的學術培訓甚至擁有PhD。“鑒于在機器學習科學和其他新出現(xiàn)的新型技術的進步,科學家的確需要更高水平的訓練,浸淫最新思想成果”,Milanna說。即便是在求職搜索網(wǎng)站Dice,半數(shù)的數(shù)據(jù)科學家都指定要求必須具備PhD學位,Silver表示,“這不是絕對必要的,但卻是主要的獎勵”,他補充。
Opera雇員跨越了各種各樣的數(shù)據(jù)驅(qū)動型學科,包括計算機科學、電子工程、統(tǒng)計學、機械工程和心理學。這樣跨學科的知識大有裨益,Milanna強調(diào)。例如,他已經(jīng)看到了來自水文學的分子式應用于股票市場交易信號。
對于更大的數(shù)據(jù)科學家池,Raden堅信PhD學位不是必要的。如果一個人現(xiàn)在的工作室商業(yè)智能和定量分析,并且在那之前表現(xiàn)出了先進的數(shù)學和統(tǒng)計建模能力,就可以成長為企業(yè)的數(shù)據(jù)科學家,為企業(yè)提供如預測建模和大數(shù)據(jù)等類似關鍵領域的指導與培訓。
Roberts表示同意,專注于特定技能和學歷。某些時候可能會成為潛在求職者思考的代理人?!八麄冋緢D衡量的是‘你喜歡學習嗎?’但一堆方法可以用來獲取該結(jié)論”,她表示。在天才分析(Talent Analytics)公司的調(diào)查中,數(shù)據(jù)科學家的先天特性包括好奇心、創(chuàng)造力、客觀、有條理地思考能力與對細節(jié)的專注力,她強調(diào)。Milanna和Spoelstra也同意該觀點,他們尋找候選人的最重要的天然特質(zhì)也包括好奇心、邏輯思維、常識力、毅力、實用性和良好的判斷力。
毫無疑問對數(shù)據(jù)科學家的需求只會不斷增長,但由于該角色相對新潮,隨著時間的推移,數(shù)據(jù)科學家的定義只會變化更多,不管是這些專業(yè)人士的工作范圍,還是企業(yè)組織、實現(xiàn)并發(fā)展所需人才的方法。
“對于處在IT行業(yè)、項目管理和產(chǎn)品管理的人士來說,這是一個巨大的發(fā)展機遇,他們不再害怕學習他們行業(yè)相關的知識,也不用擔心開夜車來整理頭緒、解決問題。”
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03