
阿隆·梅-拉茲,副總裁數(shù)據(jù)與洞察,銀行Hapoalim
幾個(gè)星期前,我?guī)е业墓烦鋈ド⒉綍r(shí),偶然發(fā)現(xiàn)了我的鄰居。她來(lái)自統(tǒng)計(jì)學(xué)背景,她問(wèn)我在數(shù)據(jù)世界中的不同角色,試圖找出她下一步的職業(yè)發(fā)展方向。在我概述了每一個(gè)工作角色的各種責(zé)任后,我看到她相當(dāng)困惑?!拔也恢肋@個(gè)領(lǐng)域如此分散”,她說(shuō)。她不是唯一一個(gè)。
在過(guò)去的幾年里,與數(shù)據(jù)相關(guān)的職位被認(rèn)為是就業(yè)市場(chǎng)上最熱門的職位。需求一直在快速增長(zhǎng),預(yù)計(jì)短期內(nèi)不會(huì)改變。當(dāng)每個(gè)人都想加入黨并進(jìn)入這個(gè)迷人的領(lǐng)域時(shí),首先了解各種R&R(角色和責(zé)任)是至關(guān)重要的。在這個(gè)快速指南中,我將盡我最大的努力,通過(guò)結(jié)晶不同位置的本質(zhì)來(lái)消除混亂。
所以我們開(kāi)始吧。
數(shù)據(jù)分析師的主要職責(zé)是識(shí)別重要的業(yè)務(wù)問(wèn)題,然后處理和使用數(shù)據(jù),使組織能夠做出更明智的數(shù)據(jù)驅(qū)動(dòng)決策。
這個(gè)角色需要一套廣泛的技能,從收集大量數(shù)據(jù)到組織數(shù)據(jù)以獲得洞察力。數(shù)據(jù)分析師必須同時(shí)具備分析和技術(shù)能力,并應(yīng)熟悉ETL工具、數(shù)據(jù)可視化和語(yǔ)言/技術(shù),如:R、Python、SQL、SAS等。
雖然這個(gè)角色不像列表中的其他角色那樣具有技術(shù)性,但業(yè)務(wù)分析師在數(shù)據(jù)世界中扮演著重要的角色,作為技術(shù)角色和業(yè)務(wù)方/管理層之間的紐帶。他們必須對(duì)其特定行業(yè)(例如:醫(yī)療保健、保險(xiǎn)、金融)和業(yè)務(wù)流程有深刻的理解。
由于業(yè)務(wù)分析師是業(yè)務(wù)方和管理層的中間人,他們需要能夠生成報(bào)告,具有良好的數(shù)據(jù)可視化技能,并且顯然是一流的溝通者。
數(shù)據(jù)工程師是群里的“建設(shè)者”。一些人將它們稱為數(shù)據(jù)領(lǐng)域的DevOps。我見(jiàn)過(guò)不同的公司對(duì)這個(gè)角色的定義非常不同,,但在我看來(lái),數(shù)據(jù)工程師為其他角色(如數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師)的成功工作奠定了基礎(chǔ)。為了實(shí)現(xiàn)這一目標(biāo),數(shù)據(jù)工程師肩負(fù)著為組織構(gòu)建和維護(hù)大數(shù)據(jù)生態(tài)系統(tǒng)的重要責(zé)任,同時(shí)確保它的健壯性和平穩(wěn)運(yùn)行。
數(shù)據(jù)工程師需要非常了解數(shù)據(jù)系統(tǒng),如:Hadoop、Hive、MongoDB、MySQL等。他們還應(yīng)該有數(shù)據(jù)流工具、ETL工具和數(shù)據(jù)建模的實(shí)踐經(jīng)驗(yàn)。
嗯,我最初想把這個(gè)職位留到最后,因?yàn)樗@然是最受歡迎的職位--不僅在數(shù)據(jù)世界,而且在技術(shù)社區(qū)。然而,我確實(shí)相信這個(gè)列表中所有角色之間的協(xié)作對(duì)一個(gè)組織的成功有很大的貢獻(xiàn)。也就是說(shuō),我認(rèn)為它吸引這么多專業(yè)人士的原因在于,數(shù)據(jù)科學(xué),顧名思義,是三個(gè)關(guān)鍵領(lǐng)域的結(jié)合點(diǎn):編程、統(tǒng)計(jì)和商業(yè)知識(shí)。它還涉及大量的創(chuàng)造力,因?yàn)閿?shù)據(jù)科學(xué)家從一個(gè)商業(yè)問(wèn)題開(kāi)始,需要使用各種先進(jìn)的技術(shù),如預(yù)測(cè)分析,找到回答它的最佳路徑。他們致力于為觀察進(jìn)行研究,如果不對(duì)數(shù)據(jù)進(jìn)行深入分析,就無(wú)法達(dá)到認(rèn)識(shí)到數(shù)據(jù)的模式、聯(lián)系和行為的地步,然后能夠認(rèn)識(shí)到如何利用這些來(lái)為他們工作的組織造福。
數(shù)據(jù)科學(xué)家應(yīng)該是統(tǒng)計(jì)學(xué)和數(shù)學(xué)方面的專家,當(dāng)然還有編程語(yǔ)言方面的專家,比如:Python、R、Scala。
另一個(gè)需要的角色,它與數(shù)據(jù)工程/數(shù)據(jù)科學(xué)有一些重疊。
機(jī)器學(xué)習(xí)工程師負(fù)責(zé)彌合數(shù)據(jù)科學(xué)家和技術(shù)之間的差距,這將有助于將數(shù)據(jù)科學(xué)家的成果交付給生產(chǎn)或?yàn)榻M織服務(wù)。他們通過(guò)構(gòu)建數(shù)據(jù)管道、將模型轉(zhuǎn)移到生產(chǎn)中、公開(kāi)API、訓(xùn)練模型和執(zhí)行A/B測(cè)試來(lái)實(shí)現(xiàn)這一目標(biāo)。
ML工程師需要對(duì)各種機(jī)器學(xué)習(xí)庫(kù)(例如:Tensorflow,NLTK)有深入的了解,有編碼經(jīng)驗(yàn),在SQL、Rest API和其他互補(bǔ)技術(shù)方面有很強(qiáng)的知識(shí)。
雖然在過(guò)去的幾年里,大部分的焦點(diǎn)都轉(zhuǎn)移到了人工智能上,但我們不能忘記商業(yè)智能的重要性。人工智能和BI都是現(xiàn)代組織成功和決策的關(guān)鍵。
BI開(kāi)發(fā)人員通常負(fù)責(zé)開(kāi)發(fā)和維護(hù)BI接口:數(shù)據(jù)可視化和儀表板、報(bào)告和查詢工具。就所需技能而言,這里有一些對(duì)BI開(kāi)發(fā)人員有用的技能:SQL、對(duì)OLAP和ETL的深刻理解,以及BI系統(tǒng)的經(jīng)驗(yàn):Power BI、Qlik Sense或其他。
這個(gè)角色是名單上的老兵。DBA在建立和維護(hù)數(shù)據(jù)庫(kù)方面起著關(guān)鍵作用。通過(guò)負(fù)責(zé)組織數(shù)據(jù)庫(kù)的健康,DBA基本上負(fù)責(zé)公司最有價(jià)值的資產(chǎn)之一。DBA的活動(dòng)包括:管理對(duì)數(shù)據(jù)庫(kù)的訪問(wèn)(授權(quán)/撤銷等)、計(jì)劃和歸檔備份例程(和恢復(fù))、計(jì)劃和執(zhí)行安裝和升級(jí)、監(jiān)視數(shù)據(jù)庫(kù)并優(yōu)化其性能。
DBA顯然需要掌握他們所負(fù)責(zé)的數(shù)據(jù)庫(kù)。
簡(jiǎn)而言之,ETL開(kāi)發(fā)人員負(fù)責(zé)將數(shù)據(jù)從源數(shù)據(jù)庫(kù)傳輸?shù)侥繕?biāo)數(shù)據(jù)庫(kù)的過(guò)程,包括監(jiān)視和測(cè)試過(guò)程的性能,并在需要時(shí)修復(fù)它。在大規(guī)模系統(tǒng)中,這一過(guò)程發(fā)生得非常頻繁,因此至關(guān)重要。
ETL開(kāi)發(fā)人員必須有以下經(jīng)驗(yàn):ETL工具(流行的有:Talend、Informatica、Datastage)、SQL、腳本語(yǔ)言和建模工具。
我認(rèn)為這個(gè)角色和接下來(lái)的角色是團(tuán)隊(duì)的粘合劑。數(shù)據(jù)架構(gòu)師基本上是技術(shù)粘合劑,領(lǐng)導(dǎo)所有的架構(gòu)活動(dòng)。這包括創(chuàng)建藍(lán)圖和設(shè)計(jì)文檔,以指定數(shù)據(jù)庫(kù)流程和集成點(diǎn),評(píng)估和批準(zhǔn)合適的工具,供工程師部署和使用。數(shù)據(jù)架構(gòu)師還應(yīng)該充當(dāng)“守門人”,確保組織的數(shù)據(jù)愿景得到執(zhí)行,顯然需要采取安全措施。
在我看來(lái),數(shù)據(jù)架構(gòu)師一定是個(gè)無(wú)所不能的人。這意味著在數(shù)據(jù)技術(shù)和最佳實(shí)踐方面有深入的知識(shí),并跟上最新的進(jìn)展。
數(shù)據(jù)產(chǎn)品負(fù)責(zé)人負(fù)責(zé)領(lǐng)導(dǎo)組織的數(shù)據(jù)戰(zhàn)略,并在利用數(shù)據(jù)和與愿景一致方面監(jiān)督產(chǎn)品組合。
首先,數(shù)據(jù)產(chǎn)品所有者就是產(chǎn)品所有者。一般來(lái)說(shuō),產(chǎn)品所有者定義路線圖,與內(nèi)部和外部利益相關(guān)者合作,以確保它向前推進(jìn),并作為“項(xiàng)目的粘合劑”發(fā)揮作用。在所有這些活動(dòng)之上,數(shù)據(jù)產(chǎn)品所有者負(fù)責(zé)確保組織最大化數(shù)據(jù)的價(jià)值,以實(shí)現(xiàn)最佳的業(yè)務(wù)結(jié)果。在某些情況下,這意味著通過(guò)展示利用數(shù)據(jù)的好處來(lái)影響高級(jí)管理層,并確保它在整個(gè)公司得到廣泛執(zhí)行和接受。
數(shù)據(jù)人才不再只被科技公司獵殺。如今,大多數(shù)公司已經(jīng)理解了數(shù)據(jù)的力量及其對(duì)組織發(fā)展的重要性。請(qǐng)記住,公司對(duì)上述不同角色的定義和范圍可能有所不同。
如前所述,雖然每個(gè)人可能都聽(tīng)說(shuō)過(guò)數(shù)據(jù)科學(xué)家的角色,但還有更多的角色組成了數(shù)據(jù)世界。每一個(gè)都有其特定的挑戰(zhàn)和所需的技能。如果您想在數(shù)據(jù)領(lǐng)域找到一份工作,請(qǐng)確保您非常熟悉各種角色以及它們之間的差異,這些差異有時(shí)可能很微妙,甚至可能重疊。
那么,你還在等什么?
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場(chǎng)景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實(shí)際問(wèn)題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價(jià)值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案 ...
2025-09-09