
我最近寫了一篇題為數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和其他數(shù)據(jù)職業(yè)的文章,解釋說,在這篇文章中,我盡了最大努力簡明扼要地定義和區(qū)分了五種流行的數(shù)據(jù)相關(guān)職業(yè)。在那篇文章中,每一個職業(yè)都得到了非常高水平的單句總結(jié),數(shù)據(jù)科學(xué)家被描述如下,以供參考:
數(shù)據(jù)科學(xué)家主要關(guān)注數(shù)據(jù)、從數(shù)據(jù)中提取的洞察力以及數(shù)據(jù)可以講述的故事。
除了我為每個職業(yè)寫的額外的幾個段落之外,我試圖提出一個單一的總體差異特性,其中五個可以一起工作成一個流程圖,也許由一個有抱負(fù)的數(shù)據(jù)專業(yè)人員使用,以幫助確定哪個職業(yè)可能最適合他們。
我收到了一些讀者的反饋,這些反饋表明,我過于關(guān)注預(yù)測分析,將其作為數(shù)據(jù)科學(xué)家職業(yè)的一個定義性特征,我對這一特征的依賴可能會讓人覺得數(shù)據(jù)科學(xué)家比其他任何事情都更擅長預(yù)測分析--而其他數(shù)據(jù)專業(yè)人員可能根本不會這樣做。
這種建設(shè)性的批評很自然地讓我思考:數(shù)據(jù)科學(xué)家與其他數(shù)據(jù)專業(yè)人員的區(qū)別還在于什么?數(shù)據(jù)科學(xué)家使用的技術(shù)技能、特定的技術(shù)語言、系統(tǒng)和工具很多。數(shù)據(jù)科學(xué)家--以及其他各種專業(yè)人員--也有許多軟技能,用于在他們的職業(yè)生涯中出類拔萃。但是,成功的數(shù)據(jù)科學(xué)家的一些固有特征是什么,要么是隨著數(shù)據(jù)科學(xué)家進(jìn)入這個行業(yè)而來的,要么是他們進(jìn)入這個行業(yè)后可以發(fā)展的?
以下是我提出的五件事,作為一個整體,有助于將數(shù)據(jù)科學(xué)家與其他職業(yè)區(qū)分開來。
讓我們首先指出,所有的數(shù)據(jù)科學(xué)家角色都是不同的,但它們都有一些共同的連接線程,希望這些點有助于連接這些線程中的一些線程。
這個特性的焦點是我受到一些抨擊的原因。然而,我要在這里加倍說明,預(yù)測分析思維模式是數(shù)據(jù)科學(xué)家的主要定義特征之一,也許比任何其他特征都更重要。它是唯一的定義特性嗎?當(dāng)然不。應(yīng)該在流程圖中使用它來將數(shù)據(jù)科學(xué)家從所有其他職業(yè)中分離出來嗎?回想起來,不,可能不。
數(shù)據(jù)科學(xué)家進(jìn)行預(yù)測分析嗎?絕對。非數(shù)據(jù)科學(xué)家也是嗎?當(dāng)然。但是,如果我把data Scientisht放在預(yù)測分析的一端,而把<在這里插入其他數(shù)據(jù)專業(yè)人員>放在另一端,我希望data Scientisht總是能落地。
但這不僅僅是預(yù)測分析在特定情況下的應(yīng)用;這是一種心態(tài)。這不僅僅是一種分析性的心態(tài)(減去預(yù)測性的),而是一種總是考慮如何利用我們已經(jīng)知道的東西來發(fā)現(xiàn)我們還不知道的東西的心態(tài)。這表明預(yù)測性是方程的一個組成部分。
在我看來,數(shù)據(jù)科學(xué)家的頭腦中不僅僅有預(yù)測,但在這種心態(tài)下工作是定義角色的特征之一,也是許多其他職業(yè),無論是與數(shù)據(jù)相關(guān)的還是其他職業(yè),都不具備的特征。其他確實有這種特點的人可能會把它放在對該職業(yè)有價值的人名單的后面。
顯然,利用我們所知道的來找出我們所不知道的是不夠的。數(shù)據(jù)科學(xué)家必須對他們有一種其他角色不一定需要有的好奇心(注意,我沒有說其他人絕對不有這種好奇心)。好奇心幾乎是預(yù)測分析心態(tài)的另一面:當(dāng)預(yù)測分析心態(tài)尋求用y解決x時,好奇心將首先確定y是什么。
天生的好奇心是成為一個有用的數(shù)據(jù)科學(xué)家所必需的,故事結(jié)束了。如果你是那種早上醒來一整天都不去想宇宙奇跡的人--在任何層面上--數(shù)據(jù)科學(xué)都不適合你。
在殺死它之前,好奇心是這只貓作為一名成功的數(shù)據(jù)科學(xué)家的漫長而成功的職業(yè)生涯的原因。
這里有一個深刻的哲理:世界是一個復(fù)雜的地方。一切都以某種方式聯(lián)系在一起,遠(yuǎn)遠(yuǎn)超出了顯而易見的范圍,這導(dǎo)致了現(xiàn)實世界的層層復(fù)雜性。復(fù)雜系統(tǒng)與其他復(fù)雜系統(tǒng)相互作用,產(chǎn)生自己的額外復(fù)雜系統(tǒng),宇宙也是如此。這個復(fù)雜的游戲不僅僅是認(rèn)識到大局:大局在什么地方適合大局,等等?
但這不僅僅是哲學(xué)上的。這個現(xiàn)實世界的無限復(fù)雜網(wǎng)絡(luò)被數(shù)據(jù)科學(xué)家所認(rèn)識。他們感興趣的是了解盡可能多的相關(guān)互動,無論是潛在的還是其他的,因為他們解決了他們的問題。他們尋找與情況相關(guān)的已知未知、已知未知和未知未知,理解任何給定的變化都可能在其他地方產(chǎn)生意想不到的后果。
數(shù)據(jù)科學(xué)家的工作是盡可能多地了解相關(guān)系統(tǒng),并利用他們的好奇心和預(yù)測性分析心態(tài)來盡可能多地解釋這些系統(tǒng)的操作和交互,以便即使在調(diào)整時也能保持它們平穩(wěn)運行。如果你不能理解為什么沒有人能夠完全解釋經(jīng)濟(jì)是如何運作的,數(shù)據(jù)科學(xué)就不適合你。
現(xiàn)在我們來到了我們必須的“跳出框框思考”的特征。我們不是在某種程度上鼓勵每個人都這樣做嗎?我們當(dāng)然知道。但我不是這個意思。
記住,數(shù)據(jù)科學(xué)家不是在真空中工作的;我們與各種類型的不同角色一起工作,在我們的旅程中遇到各種不同的領(lǐng)域?qū)<?。這些領(lǐng)域?qū)<矣刑厥獾姆椒▉砜创麄兊奶囟I(lǐng)域,即使是在跳出框框思考的時候。作為一名數(shù)據(jù)科學(xué)家,擁有一套獨特的技能和一種特殊類型的心態(tài)--我將在這里盡我所能以某種方式描述這一點--您可以從領(lǐng)域?qū)<宜诘暮凶又饨鉀Q問題。你可以成為一雙新的眼睛,用新的眼光看待問題--當(dāng)然,前提是你足夠好地理解問題。你的創(chuàng)造力將幫助你產(chǎn)生新的想法和觀點。
這并不是要削弱領(lǐng)域?qū)<遥皇聦嵣锨∏∠喾?。我們?shù)據(jù)科學(xué)家是他們的支持,并帶來了一套經(jīng)過培訓(xùn)的技能來做我們所做的事情,我們(希望)能夠在我們的支持角色中帶來一個新的視角,為領(lǐng)域?qū)<夷軌蛟谒麄兯龅氖虑樯铣鲱惏屋妥龀鲐暙I(xiàn)。這一新的視角將由數(shù)據(jù)科學(xué)家的創(chuàng)造性思維驅(qū)動,這種創(chuàng)造性與好奇心相結(jié)合,將導(dǎo)致能夠提出問題并尋求答案。
當(dāng)然,我們需要技術(shù)、統(tǒng)計和其他技能來跟進(jìn)這些問題,但如果我們沒有創(chuàng)造力去思考有趣和不明顯的方法來調(diào)查并最終提供答案,這些技能就毫無用處了。這就是為什么數(shù)據(jù)科學(xué)家必須天生具有創(chuàng)造性。
每個人都需要能夠與他人有效溝通,無論他們在生活中處于何種地位。數(shù)據(jù)科學(xué)家也沒有什么不同。
但除此之外,數(shù)據(jù)科學(xué)家在向其他利益相關(guān)者解釋他們的工作時,經(jīng)常不得不做一些手把手的工作,這些利益相關(guān)者可能沒有--也可能沒有意愿--完全沉浸在統(tǒng)計分析電影宇宙?中。一個數(shù)據(jù)科學(xué)家必須能夠從A點敘述某人到B點,即使這個人幾乎不知道這兩個點中的任何一個到底是什么。說白了,講故事就是能夠從一些數(shù)據(jù)和你的分析過程中編織出一個現(xiàn)實的敘事:我們是如何從這個到這個的。
這不僅僅是簡單地陳述事實;數(shù)據(jù)科學(xué)家必須看到利益相關(guān)者在等式中的位置,并使敘述旅程相關(guān)--也許用有用的視覺或其他道具來幫助完成眾所周知的交易。
這種講故事不像虛構(gòu)的講故事;它更像是“花式解釋”,或者提供一個為聽者量身定制的直觀解釋。你不會在睡覺前給一個五歲的孩子講斯蒂芬·金的故事,就像你不會向從事研發(fā)的人深究關(guān)于供應(yīng)鏈指標(biāo)的枯燥、冗長的敘述一樣。注意你的聽眾。
這種講故事在本質(zhì)上也不具有說服力;是解釋性的。我們不是數(shù)據(jù)政治家,我們是數(shù)據(jù)科學(xué)家??茖W(xué)家為了使別人屈從于他們的意志而歪曲統(tǒng)計數(shù)據(jù),這是沒有好處的。把這個留給當(dāng)選的官員。
我希望這有助于描繪一幅我認(rèn)為是一個成功的數(shù)據(jù)科學(xué)家的重要特征的豐富畫面。我祝你事業(yè)順利。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10