
數(shù)據(jù)科學(xué)家與數(shù)據(jù)工程師
數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的主要區(qū)別,可以用ETL和DAD的區(qū)別來解釋。
ETL(提取/變換/載入)是數(shù)據(jù)工程師,還有數(shù)據(jù)架構(gòu)師或數(shù)據(jù)庫管理員(DBA)的職責。
DAD(發(fā)現(xiàn)/獲取/提煉)是數(shù)據(jù)科學(xué)家的職責。
數(shù)據(jù)工程師往往把重點放在軟件工程、數(shù)據(jù)庫設(shè)計、生產(chǎn)環(huán)境代碼上,并確保數(shù)據(jù)在來源(在那里它被收集)和目的地之間平穩(wěn)地流動(在目的地那里通過統(tǒng)計摘要提取和處理,或通過數(shù)據(jù)科學(xué)算法產(chǎn)生結(jié)果,并最終轉(zhuǎn)移到源或其他地方)。數(shù)據(jù)科學(xué)家卻需要了解數(shù)據(jù)的流動和如何優(yōu)化(尤其是使用Hadoop時)。實際上不是優(yōu)化數(shù)據(jù)流本身,而是數(shù)據(jù)處理的步驟,從數(shù)據(jù)中提取出價值。數(shù)據(jù)科學(xué)家與工程師和商業(yè)人員一起工作,定義指標、設(shè)計數(shù)據(jù)收集方案,并確保數(shù)據(jù)科學(xué)流程與企業(yè)數(shù)據(jù)系統(tǒng)(存儲、數(shù)據(jù)流)有效地集成。對于在小公司工作的數(shù)據(jù)科學(xué)家,尤其如此,這也是數(shù)據(jù)科學(xué)家應(yīng)該能編寫可被工程師重復(fù)使用的代碼的原因。
有時數(shù)據(jù)工程師也操作DAD,有時數(shù)據(jù)科學(xué)家也操作ETL,但這并不常見,且他們通常是在公司內(nèi)部才這么做。例如,數(shù)據(jù)工程師可以做一些統(tǒng)計分析,以優(yōu)化一些數(shù)據(jù)庫流程,而數(shù)據(jù)科學(xué)家可以做一些數(shù)據(jù)庫管理,以管理一個保存匯總信息的、小型的、本地的私有數(shù)據(jù)庫。
DAD包含以下內(nèi)容。
發(fā)現(xiàn):識別良好的數(shù)據(jù)源和指標。有時(與數(shù)據(jù)工程師和業(yè)務(wù)分析師一起工作),對應(yīng)該創(chuàng)建的數(shù)據(jù)提出需求。
獲?。韩@取數(shù)據(jù),有時通過API、網(wǎng)絡(luò)爬蟲、互聯(lián)網(wǎng)下載或數(shù)據(jù)庫,有時是從內(nèi)存數(shù)據(jù)庫獲取數(shù)據(jù)。
提煉:從數(shù)據(jù)中提取信息,做出決策,增加投資回報率,并采取行動(比如,在自動投標系統(tǒng)中,確定最佳的投標價格)。它包括以下內(nèi)容。
— 通過創(chuàng)建數(shù)據(jù)字典和進行探索性分析,對數(shù)據(jù)進行探索。
— 清洗數(shù)據(jù)雜質(zhì)。
— 通過數(shù)據(jù)匯總進一步提煉數(shù)據(jù),有時是通過多層匯總或分層匯總來實現(xiàn)的。
— 對數(shù)據(jù)進行統(tǒng)計分析(有時會采取像實驗設(shè)計這樣的做法,所以在前面的“獲取”階段也可以進行),自動和手動都可以。可能需要設(shè)計統(tǒng)計模型,也可能不需要。
— 在某些自動過程中呈現(xiàn)結(jié)果或集成結(jié)果。
數(shù)據(jù)科學(xué)是計算機科學(xué)、商業(yè)工程、統(tǒng)計學(xué)、數(shù)據(jù)挖掘、機器學(xué)習(xí)、運籌學(xué)、六西格瑪、自動化和行業(yè)知識的交叉點。這些不同的領(lǐng)域,加上業(yè)務(wù)的愿景和行動,匯集了一系列的技術(shù)、流程和方法。數(shù)據(jù)科學(xué)是連接不同組件的過程,有助于業(yè)務(wù)優(yōu)化,并消除那些降低業(yè)務(wù)效率的孤島。它也有自己獨特的核心,(例如)包括以下主題。
高級可視化。
分析即服務(wù)(AaaS)和API服務(wù)。
大規(guī)模數(shù)據(jù)集的聚類與分類。
計算大數(shù)據(jù)的相關(guān)性和R平方。
任何數(shù)據(jù)庫、SQL或NoSQL都應(yīng)該有的11個特征。
快速特征選擇。
Hadoop/Map-Reduce。
網(wǎng)絡(luò)拓撲。
大數(shù)據(jù)中關(guān)鍵詞的相關(guān)性。
在常規(guī)空間、超平面、球面上或單純形上的線性回歸。
無模型置信區(qū)間。
特征的預(yù)測能力。
無模型的統(tǒng)計建模。
大數(shù)據(jù)“詛咒”。
MapReduce不能做的事。
請記住,一些雇主尋找的是具備豐富統(tǒng)計知識的Java或數(shù)據(jù)庫開發(fā)人員。這些開發(fā)人員是非常罕見的,所以雇主反而有時會試圖雇用數(shù)據(jù)科學(xué)家,但希望他在開發(fā)生產(chǎn)代碼方面很優(yōu)秀。所以職位到底是需要具備統(tǒng)計知識的Java開發(fā)者,還是具有較強的Java技術(shù)的統(tǒng)計學(xué)家,你應(yīng)該事先詢問雇主(如果可能的話,在電話面試的過程中去詢問)。然而,有時招聘經(jīng)理不知道他真正想要的是什么,如果你告訴他你的專業(yè)知識所帶來的附加價值,你可能會說服他雇用你,哪怕欠缺他們預(yù)期的某些技能。對于雇主,招聘Java軟件工程師,再要他們學(xué)習(xí)統(tǒng)計學(xué),比反過來更容易。
數(shù)據(jù)科學(xué)家與統(tǒng)計學(xué)家
許多統(tǒng)計學(xué)家認為,數(shù)據(jù)科學(xué)是關(guān)于分析數(shù)據(jù)的,但它遠不止分析數(shù)據(jù)。數(shù)據(jù)科學(xué)還涉及實現(xiàn)算法、自動處理數(shù)據(jù),并提供自動化的預(yù)測和行動,比如:
分析美國宇航局的照片,以尋找新的行星或小行星。
自動報價系統(tǒng)。
自動駕駛(飛機和汽車)。
在Amazon.com或Facebook上推薦書和朋友。
針對所有酒店客房的客戶定制(實時)定價系統(tǒng)。
在計算化學(xué)中模擬用于癌癥治療的新分子。
流行病的早期檢測。
(實時)估計美國所有房屋的價值(Zillow.com)。
高頻交易。
為用戶和網(wǎng)頁匹配谷歌廣告,以最大限度地提高轉(zhuǎn)化率。
為所有谷歌搜索返回高度相關(guān)的結(jié)果。
信用卡交易評分(欺詐檢測)。
稅收欺詐檢測與恐怖行為檢測。
天氣預(yù)報。
所有這些都涉及統(tǒng)計科學(xué)和TB級的數(shù)據(jù)。大多數(shù)做這些類型的項目的人,并不稱自己為統(tǒng)計學(xué)家。他們稱自己為數(shù)據(jù)科學(xué)家。
幾個世紀以來,統(tǒng)計學(xué)家一直在收集數(shù)據(jù)并進行線性回歸分析。300年前、20年前、現(xiàn)在或在2015年由統(tǒng)計學(xué)家進行的DAD,跟如今數(shù)據(jù)科學(xué)家進行的DAD大相徑庭。關(guān)鍵是,最終隨著越來越多的統(tǒng)計學(xué)家學(xué)會這些新技術(shù),而更多的數(shù)據(jù)科學(xué)家學(xué)會統(tǒng)計科學(xué)知識(采樣、實驗設(shè)計、置信區(qū)間——不只是第5章中描述的那些),數(shù)據(jù)科學(xué)家和統(tǒng)計學(xué)家之間的邊界將變得更加模糊。事實上,我可以看到另一種數(shù)據(jù)科學(xué)家正在興起:具備深厚統(tǒng)計知識的數(shù)據(jù)科學(xué)家。
數(shù)據(jù)科學(xué)家和計算機科學(xué)家的區(qū)別是,數(shù)據(jù)科學(xué)家有更強大的統(tǒng)計學(xué)背景,特別是在計算統(tǒng)計方面,但有時則是在實驗設(shè)計、采樣和蒙特卡洛模擬方面。
數(shù)據(jù)科學(xué)家與業(yè)務(wù)分析師
業(yè)務(wù)分析師專注于數(shù)據(jù)庫設(shè)計(高層次的數(shù)據(jù)庫建模,包括指標定義、儀表盤設(shè)計、檢索和生成管理報告,并設(shè)計報警系統(tǒng))、評估各種業(yè)務(wù)項目和支出的投資回報率及預(yù)算問題。一些業(yè)務(wù)分析師從事營銷或財務(wù)的規(guī)劃、優(yōu)化和風(fēng)險管理工作。許多業(yè)務(wù)分析師從事高層次的項目管理工作,直接向公司主管匯報。
有些任務(wù)也由數(shù)據(jù)科學(xué)家完成,特別是在較小的公司:指標的創(chuàng)建和定義、高層次的數(shù)據(jù)庫設(shè)計(收集什么樣的數(shù)據(jù)以及如何收集),或計算營銷,甚至增長黑客(最近創(chuàng)造的一個詞,來形容一種角色,它能夠快速增加公司互聯(lián)網(wǎng)訪問流量,擴大公司或產(chǎn)品的影響力,這種工作涉及較強的工程和分析技能)。
數(shù)據(jù)科學(xué)家讓業(yè)務(wù)分析師有提升空間,例如,幫助將報表制作過程自動化,使數(shù)據(jù)提取速度更快。數(shù)據(jù)科學(xué)家還可以教給業(yè)務(wù)分析師FTP和基礎(chǔ)的UNIX指令知識:ls -l、rm -i、head、tail、cat、cp、mv、sort、grep、uniq -c及管道和重定向操作符(|, >)。然后,可以在數(shù)據(jù)庫服務(wù)器上編程或安裝一段代碼(業(yè)務(wù)分析師通常是通過瀏覽器或工具,如Toad或Brio訪問服務(wù)器),以檢索數(shù)據(jù)。所有的業(yè)務(wù)分析師都必須做的是:
1.創(chuàng)建SQL查詢(甚至要有可視化工具),并保存為SQL文本文件。
2.將它上傳到服務(wù)器并運行程序(例如,一個Python腳本,讀取SQL文件并執(zhí)行它,檢索數(shù)據(jù),并將結(jié)果存儲在CSV文件中)。
3.輸出結(jié)果(CSV文件)到業(yè)務(wù)分析師的電腦中,做進一步分析。
對于業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家,這樣的合作是雙贏的。在實踐中,這樣的合作已經(jīng)幫助業(yè)務(wù)分析師提取的數(shù)據(jù)比他們過去所使用的數(shù)據(jù)要大100倍,而且提取速度快10倍。
總之,數(shù)據(jù)科學(xué)家并不是業(yè)務(wù)分析師,但前者可以極大地幫助后者,包括幫助業(yè)務(wù)分析師將任務(wù)自動化。此外,如果數(shù)據(jù)科學(xué)家能帶來額外的價值,具備額外的經(jīng)驗,他更容易找到工作,特別是在只有一個職位預(yù)算的公司,當雇主不能確定是雇用業(yè)務(wù)分析師(開展整體分析和數(shù)據(jù)任務(wù))還是數(shù)據(jù)科學(xué)家(有商業(yè)頭腦,可以執(zhí)行一些通常分配給業(yè)務(wù)分析師的任務(wù))時。在一般情況下,業(yè)務(wù)分析師是優(yōu)先聘請的,但如果數(shù)據(jù)和算法變得過于復(fù)雜,也會雇用數(shù)據(jù)科學(xué)家。如果你創(chuàng)建自己的創(chuàng)業(yè)公司,你需要扮演兩個角色:數(shù)據(jù)科學(xué)家和業(yè)務(wù)分析師。
13個真實世界情景中的數(shù)據(jù)科學(xué)應(yīng)用
現(xiàn)在讓我們看看13個在真實世界情景下的例子,了解現(xiàn)代數(shù)據(jù)科學(xué)家可以幫助我們做些什么。這些例子將有助于你學(xué)習(xí)如何專注于一個問題和如何形式化一個問題,以及如何仔細評估所有潛在問題——總之,是學(xué)習(xí)數(shù)據(jù)科學(xué)家在提出解決方案之前,如何定位問題和進行戰(zhàn)略性思考。你也會看到為什么一些廣泛使用的技術(shù),如標準回歸,可能并不適合所有情況。
數(shù)據(jù)科學(xué)家的思維方式不同于工程師、運籌學(xué)專業(yè)人士、計算機科學(xué)家。雖然運籌學(xué)涉及很多分析,但這一領(lǐng)域的焦點是具體業(yè)務(wù)優(yōu)化層面,如庫存管理和質(zhì)量控制。運籌學(xué)涉及國防、經(jīng)濟、工程、軍事等領(lǐng)域。它采用馬爾可夫模型、蒙特卡洛模擬、排隊論、隨機過程,以及(由于歷史原因)Matlab和Informatica工具。
數(shù)據(jù)科學(xué)會遇到兩種基本類型的問題。
1.內(nèi)部數(shù)據(jù)科學(xué)問題,如損壞的數(shù)據(jù)、粗心的分析或使用不恰當?shù)募夹g(shù)。內(nèi)部問題不是針對業(yè)務(wù)而言,而是針對數(shù)據(jù)科學(xué)社區(qū)。因此,解決辦法包括訓(xùn)練數(shù)據(jù)科學(xué)家更好地工作,要他們遵循最佳做法。
2.業(yè)務(wù)應(yīng)用問題是現(xiàn)實世界中的問題,因此要尋求解決方案,如欺詐檢測,或識別一個因素是原因還是結(jié)果。這些可能涉及內(nèi)部或外部(第三方)數(shù)據(jù)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03