
以下是受此博客啟發(fā)的KDnuggets民意調(diào)查結(jié)果:
放松!數(shù)據(jù)科學(xué)家不會(huì)在10年內(nèi)滅絕,但角色會(huì)改變
隨著人工智能的進(jìn)步繼續(xù)突飛猛進(jìn),在基線上獲得數(shù)據(jù)科學(xué)已經(jīng)變得越來越民主化。該領(lǐng)域的傳統(tǒng)進(jìn)入壁壘,如缺乏數(shù)據(jù)和計(jì)算能力,已經(jīng)被掃除,不斷涌現(xiàn)的新數(shù)據(jù)初創(chuàng)公司(有些公司每天只需一杯咖啡就能訪問數(shù)據(jù)),所有強(qiáng)大的云計(jì)算都消除了對(duì)昂貴的現(xiàn)場(chǎng)硬件的需求。除了三位一體的先決條件之外,實(shí)現(xiàn)的技能和訣竅可以說已經(jīng)成為數(shù)據(jù)科學(xué)中最普遍的方面。人們不需要看很遠(yuǎn)就能找到兜售口號(hào)的在線教程,如“在幾秒鐘內(nèi)實(shí)現(xiàn)X模型”,“在幾行代碼內(nèi)將Z方法應(yīng)用于數(shù)據(jù)”。在一個(gè)數(shù)字世界里,即時(shí)滿足已經(jīng)成為游戲的名稱。雖然提高可訪問性在表面上并不有害,但在令人眼花繚亂的軟件庫(kù)和閃亮的新模型之下,數(shù)據(jù)科學(xué)的真正目的已經(jīng)變得模糊,有時(shí)甚至被遺忘。因?yàn)樗皇菫榱诉@樣做而運(yùn)行復(fù)雜的模型,也不是為了優(yōu)化任意的性能度量,而是用作解決現(xiàn)實(shí)世界問題的工具。
一個(gè)簡(jiǎn)單但相關(guān)的例子是Iris數(shù)據(jù)集。有多少人用它來演示一個(gè)算法,而不留心思考萼片是什么,更不用說為什么我們要測(cè)量它的長(zhǎng)度了?雖然對(duì)于可能更有興趣在他們的曲目中添加一種新模式的初露頭角的從業(yè)者來說,這些似乎是微不足道的考慮,但對(duì)于植物學(xué)家埃德加·安德森來說,這并不是微不足道的,他編目了所討論的屬性來理解鳶尾花的變異。盡管這是一個(gè)人為的例子,但它展示了一個(gè)簡(jiǎn)單的觀點(diǎn);主流變得更加專注于“做”數(shù)據(jù)科學(xué),而不是“應(yīng)用”數(shù)據(jù)科學(xué)。然而,這種失調(diào)并不是數(shù)據(jù)科學(xué)家衰落的原因,而是一種癥狀。為了了解問題的根源,我們必須后退一步,鳥瞰一下。
數(shù)據(jù)科學(xué)有一個(gè)奇怪的區(qū)別,它是少數(shù)幾個(gè)讓實(shí)踐者沒有領(lǐng)域的研究領(lǐng)域之一。藥學(xué)專業(yè)的學(xué)生成為藥劑師,法律專業(yè)的學(xué)生成為律師,會(huì)計(jì)專業(yè)的學(xué)生成為會(huì)計(jì)師。數(shù)據(jù)科學(xué)專業(yè)的學(xué)生因此必須成為數(shù)據(jù)科學(xué)家?但是什么的數(shù)據(jù)科學(xué)家?數(shù)據(jù)科學(xué)的廣泛應(yīng)用是一把雙刃劍。一方面,它是一個(gè)強(qiáng)大的工具箱,可以應(yīng)用于任何生成和捕獲數(shù)據(jù)的行業(yè)。另一方面,這些工具的普遍適用性意味著用戶很少會(huì)在此之前對(duì)所述行業(yè)有真正的領(lǐng)域知識(shí)。然而,在數(shù)據(jù)科學(xué)興起的時(shí)候,這個(gè)問題并不重要,因?yàn)楣椭鱾冊(cè)跊]有完全理解它是什么以及如何將它完全集成到他們的公司中的情況下,就急于利用這項(xiàng)新生的技術(shù)。
然而,近十年后,企業(yè)和它們所處的環(huán)境都發(fā)生了變化。他們現(xiàn)在努力與以既定行業(yè)標(biāo)準(zhǔn)為基準(zhǔn)的大型根深蒂固的團(tuán)隊(duì)一起實(shí)現(xiàn)數(shù)據(jù)科學(xué)的成熟度。迫切的招聘需求已經(jīng)轉(zhuǎn)向問題解決者和批判性思維者,他們了解業(yè)務(wù)、各自的行業(yè)及其利益相關(guān)者。導(dǎo)航幾個(gè)軟件包或反流幾行代碼的能力不再足夠,數(shù)據(jù)科學(xué)從業(yè)者也不再被編碼的能力所定義。no code、AutoML解決方案(如DataRobot、RapidMiner和Alteryx)的日益流行就證明了這一點(diǎn)。
數(shù)據(jù)科學(xué)家將在10年內(nèi)滅絕(要么放棄),或者至少角色頭銜將是。展望未來,被統(tǒng)稱為數(shù)據(jù)科學(xué)的技能集將由新一代精通數(shù)據(jù)的業(yè)務(wù)專家和主題專家承擔(dān),他們能夠用自己深刻的領(lǐng)域知識(shí)進(jìn)行分析,無論他們是否會(huì)編碼。他們的頭銜將反映他們的專業(yè)知識(shí),而不是他們展示專業(yè)知識(shí)的手段,無論是合規(guī)專家、產(chǎn)品經(jīng)理還是投資分析師。我們不需要回頭看很遠(yuǎn)就能找到歷史性的先例。在電子表格出現(xiàn)的時(shí)候,數(shù)據(jù)輸入專家是非常令人垂涎的,但現(xiàn)在,正如Cole Nussbaumer Knaflic(“用數(shù)據(jù)講故事”的作者)恰當(dāng)?shù)赜^察到的那樣,熟練使用Microsoft Office suite是最低限度的。在此之前,用打字機(jī)觸摸打字的能力被認(rèn)為是一項(xiàng)專業(yè)技能,然而隨著個(gè)人計(jì)算機(jī)的可訪問性,它也被認(rèn)為是一項(xiàng)專業(yè)技能。
最后,對(duì)于那些考慮從事數(shù)據(jù)科學(xué)工作或開始學(xué)習(xí)的人來說,經(jīng)?;仡櫼幌履銦o疑會(huì)遇到的維恩圖可能會(huì)對(duì)你有很好的幫助。它將數(shù)據(jù)科學(xué)描述為統(tǒng)計(jì)學(xué)、編程和領(lǐng)域知識(shí)的匯合。盡管每一個(gè)都占有相等份額的相交面積,但有些可能會(huì)保證比其他的更高的權(quán)重。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10