
如何區(qū)分?jǐn)?shù)據(jù)科學(xué)家、數(shù)據(jù)工程師與數(shù)據(jù)分析師
與其他一些相關(guān)工程職位一樣,數(shù)據(jù)科學(xué)家的影響力與互聯(lián)網(wǎng)同進(jìn)同退。數(shù)據(jù)工程師和數(shù)據(jù)分析師與數(shù)據(jù)科學(xué)家攜手共同完成這幅“大數(shù)據(jù)時(shí)代”巨作。他們共同努力擬定數(shù)據(jù)平臺(tái)要求,基礎(chǔ)和高級(jí)算法,提供數(shù)據(jù)分析和展示所需的可視化工具,并將價(jià)值創(chuàng)造以易于理解,富于見(jiàn)解的方式反饋給其他部門。
三者之間的定義又是如何界定的呢?
數(shù)據(jù)科學(xué)家是什么樣一個(gè)存在呢?
通常情況下,數(shù)據(jù)科學(xué)家有數(shù)學(xué)或物理方面的高等學(xué)位。有博士學(xué)位的情況并不少見(jiàn),碩士學(xué)位僅是一個(gè)前提條件。數(shù)據(jù)科學(xué)家精通統(tǒng)計(jì)建模以及如何構(gòu)建與定制高級(jí)數(shù)學(xué)算法。這既在他們專業(yè)范圍內(nèi),也是他們所擅長(zhǎng)的地方。我聽(tīng)到過(guò)有人這樣形容一個(gè)數(shù)據(jù)科學(xué)家“ 軟件工程技能牛過(guò)多數(shù)人的酷炫統(tǒng)計(jì)學(xué)家”。但是,當(dāng)你問(wèn)這些數(shù)據(jù)科學(xué)家怎么會(huì)從事這個(gè)職業(yè)時(shí),途徑是多種多樣的。這是一個(gè)相對(duì)較新的職位,因而我們也無(wú)法根據(jù)時(shí)間歷史來(lái)追蹤一個(gè)數(shù)據(jù)科學(xué)家專業(yè)技能是如何進(jìn)步的。數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的定義有點(diǎn)相互重疊。
除了研究先進(jìn)算法,數(shù)據(jù)科學(xué)家對(duì)AB測(cè)試親力親為并且擁有博學(xué)的多變量測(cè)試和實(shí)驗(yàn)設(shè)計(jì)知識(shí)。一個(gè)專業(yè)能力非常強(qiáng)的數(shù)據(jù)科學(xué)家能在模型建成后對(duì)其進(jìn)行改進(jìn)和改制,而能力鶴立雞群的數(shù)據(jù)科學(xué)家則能根據(jù)你的商業(yè)問(wèn)題定制合適模型。
我結(jié)合加工的說(shuō):所謂數(shù)據(jù)科學(xué)家,是指運(yùn)用統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、分布式處理等技術(shù),從大量數(shù)據(jù)中提取出對(duì)業(yè)務(wù)有意義的信息,以易懂的形式傳達(dá)給決策者,并創(chuàng)造出新的數(shù)據(jù)運(yùn)用服務(wù)的人才。
數(shù)據(jù)工程師如何定義呢?
數(shù)據(jù)工程師一般被定義成“深刻理解統(tǒng)計(jì)學(xué)科的明星軟件工程師”。如果你正為一個(gè)商業(yè)問(wèn)題煩惱,那么你需要一個(gè)數(shù)據(jù)工程師。這些伙計(jì)就是那些能提供可建模數(shù)據(jù)所需平臺(tái)的人。他們的核心價(jià)值在于他們借由清晰數(shù)據(jù)創(chuàng)建數(shù)據(jù)管道的能力。充分了解文件系統(tǒng),分布式計(jì)算與數(shù)據(jù)庫(kù)是成為一位優(yōu)秀數(shù)據(jù)工程師的必要技能。
數(shù)據(jù)工程師對(duì)演算法有相當(dāng)好的理解。因此,數(shù)據(jù)工程師理應(yīng)能運(yùn)行基本數(shù)據(jù)模型。商業(yè)需求的高端化催生了演算高度復(fù)雜化的需求。很多時(shí)候,這些需求超過(guò)了數(shù)據(jù)工程師掌握知識(shí)范圍,這個(gè)時(shí)候你就需要打電話尋求數(shù)據(jù)科學(xué)家的幫助。
數(shù)據(jù)分析師如何理解呢?
數(shù)據(jù)分析師能洞悉一個(gè)方程式的商業(yè)意義。他們知道如何提出正確的問(wèn)題,非常善于數(shù)據(jù)分析,數(shù)據(jù)可視化和數(shù)據(jù)呈現(xiàn)。不管是給另一個(gè)數(shù)據(jù)分析師還是C級(jí)執(zhí)行做演講,數(shù)據(jù)分析師都是數(shù)據(jù)提取,模式識(shí)別以及從大量數(shù)據(jù)中洞察問(wèn)題方面的能手。
如果你或者你的公司正考慮順應(yīng)這股大數(shù)據(jù)浪潮的發(fā)展,你應(yīng)該從明確你想利用大數(shù)據(jù)解決所面臨的商業(yè)問(wèn)題處下手。接著找出你真正的需求:是數(shù)據(jù)采集,檢索,倉(cāng)儲(chǔ)還是數(shù)據(jù)分析?然后編寫相應(yīng)的職位描述并做好準(zhǔn)備,為了在這場(chǎng)大數(shù)據(jù)游戲中脫穎而出,你可能需要雇傭不止一個(gè)人。
從事這三者都要具備哪些技能呢?
數(shù)據(jù)科學(xué)家所需的技能如下:
計(jì)算機(jī)科學(xué)
一般來(lái)說(shuō),數(shù)據(jù)科學(xué)家大多要求具備編程、計(jì)算機(jī)科學(xué)相關(guān)的專業(yè)背景。簡(jiǎn)單來(lái)說(shuō),就是對(duì)處理大數(shù)據(jù)所必需的Hadoop、Mahout等大規(guī)模并行處理技術(shù)與機(jī)器學(xué)習(xí)相關(guān)的技能。
數(shù)學(xué)、統(tǒng)計(jì)、數(shù)據(jù)挖掘等
除了數(shù)學(xué)、統(tǒng)計(jì)方面的素養(yǎng)之外,還需要具備使用SPSS、SAS等主流統(tǒng)計(jì)分析軟件的技能。其中,面向統(tǒng)計(jì)分析的開(kāi)源編程語(yǔ)言及其運(yùn)行環(huán)境“R”最近備受矚目。R的強(qiáng)項(xiàng)不僅在于其包含了豐富的統(tǒng)計(jì)分析庫(kù),而且具備將結(jié)果進(jìn)行可視化的高品質(zhì)圖表生成功能,并可以通過(guò)簡(jiǎn)單的命令來(lái)運(yùn)行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴(kuò)展機(jī)制,通過(guò)導(dǎo)入擴(kuò)展包就可以使用標(biāo)準(zhǔn)狀態(tài)下所不支持的函數(shù)和數(shù)據(jù)集。
數(shù)據(jù)可視化(Visualization)
信息的質(zhì)量很大程度上依賴于其表達(dá)方式。對(duì)數(shù)字羅列所組成的數(shù)據(jù)中所包含的意義進(jìn)行分析,開(kāi)發(fā)Web原型,使用外部API將圖表、地圖、Dashboard等其他服務(wù)統(tǒng)一起來(lái),從而使分析結(jié)果可視化,這是對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō)十分重要的技能之一。
數(shù)據(jù)工程師需具備的技能
數(shù)學(xué)及統(tǒng)計(jì)學(xué)相關(guān)的背景
對(duì)于大多數(shù)互聯(lián)網(wǎng)大公司來(lái)說(shuō),對(duì)于數(shù)據(jù)工程師的要求都是希望是統(tǒng)計(jì)學(xué)和數(shù)學(xué)背景的碩士或博士學(xué)歷,只有具備一定的理論知識(shí),才能理解模型、復(fù)用模型甚至創(chuàng)新模型,來(lái)解決實(shí)際問(wèn)題。
計(jì)算機(jī)編碼能力
實(shí)際開(kāi)發(fā)能力和大規(guī)模的數(shù)據(jù)處理能力是作為大數(shù)據(jù)工程師的一些必備要素,因?yàn)樵S多數(shù)據(jù)的價(jià)值來(lái)自于挖掘的過(guò)程,你必須親自動(dòng)手才能發(fā)現(xiàn)金子的價(jià)值。
舉例來(lái)說(shuō),現(xiàn)在人們?cè)谏缃痪W(wǎng)絡(luò)上所產(chǎn)生的許多記錄都是非結(jié)構(gòu)化的數(shù)據(jù),如何從這些毫無(wú)頭緒的文字、語(yǔ)音、圖像甚至視頻中攫取有意義的信息就需要大數(shù)據(jù)工程師親自挖掘。即使在某些團(tuán)隊(duì)中,大數(shù)據(jù)工程師的職責(zé)以商業(yè)分析為主,但也要熟悉計(jì)算機(jī)處理大數(shù)據(jù)的方式。
對(duì)特定應(yīng)用領(lǐng)域或行業(yè)的知識(shí)
數(shù)據(jù)工程師這個(gè)角色很重要的一點(diǎn)是,不能脫離市場(chǎng),因?yàn)榇髷?shù)據(jù)只有和特定領(lǐng)域的應(yīng)用結(jié)合起來(lái)才能產(chǎn)生價(jià)值。所以,在某個(gè)或多個(gè)垂直行業(yè)的經(jīng)歷能為應(yīng)聘者積累對(duì)行業(yè)的認(rèn)知,對(duì)于之后成為數(shù)據(jù)工程師有很大幫助,因此這也是應(yīng)聘這個(gè)崗位時(shí)較有說(shuō)服力的加分項(xiàng)。
數(shù)據(jù)分析具備的技能
懂業(yè)務(wù)
從事數(shù)據(jù)分析工作的前提就會(huì)需要懂業(yè)務(wù),即熟悉行業(yè)知識(shí)、公司業(yè)務(wù)及流程,最好有自己獨(dú)到的見(jiàn)解,若脫離行業(yè)認(rèn)知和公司業(yè)務(wù)背景,分析的結(jié)果只會(huì)是脫了線的風(fēng)箏,沒(méi)有太大的使用價(jià)值。
懂管理
一方面是搭建數(shù)據(jù)分析框架的要求,比如確定分析思路就需要用到營(yíng)銷、管理等理論知識(shí)來(lái)指導(dǎo),如果不熟悉管理理論,就很難搭建數(shù)據(jù)分析的框架,后續(xù)的數(shù)據(jù)分析也很難進(jìn)行。另一方面的作用是針對(duì)數(shù)據(jù)分析結(jié)論提出有指導(dǎo)意義的分析建議。
懂分析
指掌握數(shù)據(jù)分析基本原理與一些有效的數(shù)據(jù)分析方法,并能靈活運(yùn)用到實(shí)踐工作中,以便有效的開(kāi)展數(shù)據(jù)分析。基本的分析方法有:對(duì)比分析法、分組分析法、交叉分析法、結(jié)構(gòu)分析法、漏斗圖分析法、綜合評(píng)價(jià)分析法、因素分析法、矩陣關(guān)聯(lián)分析法等。高級(jí)的分析方法有:相關(guān)分析法、回歸分析法、聚類分析法、判別分析法、主成分分析法、因子分析法、對(duì)應(yīng)分析法、時(shí)間序列等。
懂工具
指掌握數(shù)據(jù)分析相關(guān)的常用工具。數(shù)據(jù)分析方法是理論,而數(shù)據(jù)分析工具就是實(shí)現(xiàn)數(shù)據(jù)分析方法理論的工具,面對(duì)越來(lái)越龐大的數(shù)據(jù),我們不能依靠計(jì)算器進(jìn)行分析,必須依靠強(qiáng)大的數(shù)據(jù)分析工具幫我們完成數(shù)據(jù)分析工作。
懂設(shè)計(jì)
懂設(shè)計(jì)是指運(yùn)用圖表有效表達(dá)數(shù)據(jù)分析師的分析觀點(diǎn),使分析結(jié)果一目了然。圖表的設(shè)計(jì)是門大學(xué)問(wèn),如圖形的選擇、版式的設(shè)計(jì)、顏色的搭配等等,都需要掌握一定的設(shè)計(jì)原則。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03