
作者 | Oleksii Kharkovyna
編譯 | 夏夜
當(dāng)下我們生活在數(shù)據(jù)的時(shí)代里。機(jī)器學(xué)習(xí)和數(shù)據(jù)分析技術(shù)已經(jīng)成為了我們當(dāng)今生活密不可分的一部分。那接下來(lái)會(huì)怎樣呢?
在這篇博客中,我不打算預(yù)測(cè)數(shù)據(jù)科學(xué)面對(duì)的未來(lái)是什么,不會(huì)去猜測(cè)它的未來(lái)是光明有前途,還是毫無(wú)希望。這里我只結(jié)合自己,還有我認(rèn)識(shí)的一些人的經(jīng)歷,提供一些決定性因素幫忙做預(yù)測(cè)。
拋開這些,我先大致勾勒一下今后 10 年影響數(shù)據(jù)科學(xué)未來(lái)的關(guān)鍵因素。我希望它會(huì)在工作流程上帶給你一些有價(jià)值的見解。不用多說(shuō),這只是我的個(gè)人預(yù)測(cè)。如果你感興趣,請(qǐng)繼續(xù)讀下去!
數(shù)據(jù)科學(xué)的未來(lái):我怎樣看待?
1、更多的數(shù)據(jù)科學(xué)策略
數(shù)據(jù)科學(xué)就是通過(guò)定量的方式解決問(wèn)題的一門學(xué)科。在過(guò)去,由于缺少數(shù)據(jù)或數(shù)據(jù)處理能力,我們只能依賴其它東西,比如“獨(dú)裁者的突發(fā)奇想”、“專家的直覺”和“普遍的共識(shí)”等。今天,這些根本都不管用了,而且毫無(wú)疑問(wèn),10 年后它們的作用會(huì)更有限。數(shù)據(jù)科學(xué)家轉(zhuǎn)而在搭建一些系統(tǒng),這些系統(tǒng)可以輸出語(yǔ)音、預(yù)測(cè)、給出期望并輸出真正的結(jié)果。
數(shù)據(jù)科學(xué)技術(shù)的泡沫不會(huì)破裂,相反,數(shù)據(jù)驅(qū)動(dòng)策略的引入將繼續(xù)占據(jù)主流。更多的人會(huì)關(guān)注數(shù)據(jù),從數(shù)據(jù)中獲得真知灼見,所以數(shù)據(jù)科學(xué)團(tuán)隊(duì)成為任何成功組織機(jī)構(gòu),至少是大部分組織不可或缺的一部分,由此組織之間會(huì)競(jìng)爭(zhēng),渴望爭(zhēng)得領(lǐng)域前沿的位置。
2、更多界定明確的角色
因此數(shù)據(jù)科學(xué)會(huì)更受歡迎,絕大多數(shù)顧客會(huì)更清楚數(shù)據(jù)科學(xué)家到底是做什么的。現(xiàn)在,數(shù)據(jù)科學(xué)家是一個(gè)寬泛的頭銜。目前領(lǐng)域內(nèi)的人使用相關(guān)名稱和描述時(shí)有一些不嚴(yán)謹(jǐn),所以外界對(duì)該領(lǐng)域中人的角色有很多困惑。
我們一般把數(shù)據(jù)科學(xué)領(lǐng)域的角色分成 4 類,它們角色職能不同但有重疊。
我認(rèn)為隨著時(shí)間推移,所有這些角色我們會(huì)更熟悉,我們也會(huì)更了解它們的不同點(diǎn)。因此,顧客會(huì)對(duì)什么可得什么不可得,有更切實(shí)際的期待,頭腦中會(huì)有更清晰的工作流程,還有從中獲得的收益。
3、更多的軟技能需求
隨著時(shí)間推移,我們會(huì)更清楚地看到,大量的數(shù)據(jù)科學(xué)家會(huì)熟練運(yùn)用 Python 或 R 語(yǔ)言。但是,向管理層推銷你的想法的能力,說(shuō)服他們相信你的洞察和見解才值得追求的能力,這種能力會(huì)怎樣?可視化描述可以承擔(dān)一半工作,而另一半就是老舊的市場(chǎng)營(yíng)銷能力。結(jié)果,我們會(huì)看到市場(chǎng)更青睞那些知道如何圍繞出售產(chǎn)品創(chuàng)造關(guān)鍵性對(duì)話的人。因此,那些能將硬軟技能結(jié)合的人會(huì)永遠(yuǎn)吃香。
4、數(shù)據(jù)會(huì)更多,處理數(shù)據(jù)的人工智能也會(huì)更多
現(xiàn)在我們談一些嚴(yán)肅的東西。每天我們產(chǎn)生的數(shù)據(jù)量多到難以想象,以我們現(xiàn)在的速度,每天產(chǎn)生數(shù)據(jù)量有 2.5 個(gè) 10 的 18 次方字節(jié),而且這個(gè)速度只會(huì)加快??匆幌?Raconteur 網(wǎng)站做出的每日關(guān)鍵數(shù)據(jù)信息圖:
到 2025 年,預(yù)計(jì)全球每天將產(chǎn)生 463 艾字節(jié)(463*10^18 字節(jié))數(shù)據(jù),相當(dāng)于每天 212,765,957 張 DVD 的數(shù)據(jù)量!
實(shí)際上,僅靠數(shù)據(jù)科學(xué)家,無(wú)法管理和處理這么龐大的數(shù)據(jù)。屆時(shí),人工智能很可能成為協(xié)助數(shù)據(jù)科學(xué)家處理數(shù)據(jù)的有效工具。自動(dòng)化數(shù)據(jù)分析工具和機(jī)器學(xué)習(xí)會(huì)“聰明”到取代數(shù)據(jù)科學(xué)家做例行工作,比如探索性數(shù)據(jù)分析、數(shù)據(jù)清理、統(tǒng)計(jì)建模和構(gòu)建機(jī)器學(xué)習(xí)模型。
5、更少的代碼,相當(dāng)少的代碼
據(jù)特斯拉 AI 總監(jiān) A. Karpathy 說(shuō),不久的將來(lái),我們可以不用寫代碼了。我們只需要找到數(shù)據(jù),并輸入到機(jī)器學(xué)習(xí)系統(tǒng)即可。此種場(chǎng)景下,軟件工程師的角色會(huì)成為“數(shù)據(jù)監(jiān)管者”。未來(lái)大多數(shù)程序員都不再需要復(fù)雜的軟件倉(cāng)庫(kù),不用寫復(fù)雜的程序。Karpathy 說(shuō),程序員會(huì)從事搜集、清理、操作、標(biāo)記、分析數(shù)據(jù)以及對(duì)神經(jīng)網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)進(jìn)行可視化的工作。
機(jī)器學(xué)習(xí)正在引領(lǐng)一種新的計(jì)算范式,在該范式中訓(xùn)練機(jī)器才是關(guān)鍵技能。隨著機(jī)器學(xué)習(xí)技術(shù)的普及,以及通過(guò)工具的抽象達(dá)到更高程度,我們會(huì)看到大部分編程工作會(huì)逐漸消失。最終,制造產(chǎn)品的大部分步驟將是屏幕上的拖拽、刷卡、指向和點(diǎn)擊操作。從業(yè)者會(huì)從中解放出來(lái),在解決問(wèn)題時(shí)更有策略性和創(chuàng)造性。你在《星際迷航》中看到過(guò)有誰(shuí)寫計(jì)算機(jī)程序嗎?沒有。
諸如 R 語(yǔ)言、Python 和 Spark 這樣的工具會(huì)變得無(wú)用武之地嗎?大多數(shù)數(shù)據(jù)科學(xué)家不再需要通過(guò)寫程序的方式做統(tǒng)計(jì)分析或訓(xùn)練機(jī)器學(xué)習(xí)模型了嗎?沒有這么簡(jiǎn)單。無(wú)論如何,把希望寄托于這些方面意義不大。你仍然需要理解和熟悉所有這些處理過(guò)程,機(jī)器學(xué)習(xí)只是輔助一些日常事務(wù)。
6、盡可能多地使用 API(應(yīng)用程序接口)
大部分公司是先做好一件事情,攢到名氣,然后以此起步,以開源 API 的形式貢獻(xiàn)到社區(qū)。10 年后,大部分軟件的制作方式會(huì)可見地接入到終端,最大程度地利用一切所需的服務(wù)生成解決方案。數(shù)據(jù)科學(xué)家能快速構(gòu)建測(cè)試模型,一次建立和測(cè)試多種算法,最后和整個(gè)團(tuán)隊(duì)可視化驗(yàn)證結(jié)果。未來(lái)隨著適時(shí)地引入深度的技術(shù)思考,科學(xué)家將不再白費(fèi)力氣做重復(fù)工作了。
7、自我學(xué)習(xí)
傳統(tǒng)的學(xué)術(shù)環(huán)境將逐漸失去意義。信息經(jīng)濟(jì)需要能快速改變信息的途徑。人們通過(guò) 3-4 年的學(xué)習(xí)畢業(yè)后,所學(xué)的技能已經(jīng)過(guò)時(shí)。人們開始掌控自己的學(xué)習(xí)過(guò)程為自己賦能,未來(lái)得以生存的學(xué)院將是那些擁抱在線學(xué)習(xí)、快速更新課程授予方式的學(xué)院。未來(lái)的學(xué)習(xí)會(huì)基于你能構(gòu)建什么而定義,而不是缺乏現(xiàn)實(shí)世界應(yīng)用的基礎(chǔ)原理。
Q1. 數(shù)據(jù)科學(xué)家是否會(huì)被自動(dòng)化算法替代
根據(jù)廣受歡迎的 CRISP-DM 數(shù)據(jù)分析項(xiàng)目的管理方法論,數(shù)據(jù)分析項(xiàng)目的實(shí)施分為 6 個(gè)階段,每個(gè)階段中,分析師或者數(shù)據(jù)科學(xué)家都是直接參與的:
步驟 3 和 4 包括大量的例行化工作。為了利用機(jī)器學(xué)習(xí)解決每個(gè)具體的實(shí)力,你必須不斷地:
在自動(dòng)化的幫助下,分析師或數(shù)據(jù)科學(xué)家的例行操作,以及數(shù)據(jù)準(zhǔn)備和清理中的部分操作可以被移除。但是,步驟 3 和 4 中的其他部分,以及 CRISP-DM 中的剩余步驟都會(huì)被保留,所以分析師的這種日常工作上的簡(jiǎn)化不會(huì)對(duì)他們的職業(yè)造成任何威脅。
機(jī)器學(xué)習(xí)僅僅是數(shù)據(jù)科學(xué)家使用的工具之一,此外還有可視化、數(shù)據(jù)調(diào)研、統(tǒng)計(jì)和計(jì)量經(jīng)濟(jì)學(xué)方法。即使在機(jī)器學(xué)習(xí)方法里,完全自動(dòng)化也是不可能的。在解決新算法及其組合的開發(fā)和應(yīng)用中存在的非標(biāo)準(zhǔn)化問(wèn)題時(shí),數(shù)據(jù)科學(xué)家的高級(jí)角色特性毫無(wú)疑問(wèn)會(huì)繼續(xù)保持。自動(dòng)化算法能夠梳理所有的標(biāo)準(zhǔn)組合,生成一個(gè)基礎(chǔ)解決方案,專家們可以此為基礎(chǔ)做進(jìn)一步改進(jìn)。但在很多情況下,自動(dòng)化算法生成的結(jié)果已經(jīng)足夠好,不用改進(jìn)即可直接使用。
很難想像,離開分析師的幫助,一種業(yè)務(wù)可以直接使用自動(dòng)化機(jī)器學(xué)習(xí)方法生成的結(jié)果。任何情況下,上述方案的數(shù)據(jù)準(zhǔn)備、對(duì)生成結(jié)果的解釋以及其他階段都是必需的。同時(shí),現(xiàn)在許多公司的分析師,不斷與數(shù)據(jù)打交道,擁有非常成熟的心態(tài),在業(yè)務(wù)領(lǐng)域非常精通,但是掌握機(jī)器學(xué)習(xí)方法的水平還不夠。
公司通常很難吸引到特別勝任的高薪機(jī)器學(xué)習(xí)專家,市場(chǎng)對(duì)他們的需求不斷增長(zhǎng),而且超出供給很多倍。解決辦法可能是為公司的分析師提供使用自動(dòng)化機(jī)器學(xué)習(xí)工具的渠道,這需要自動(dòng)化技術(shù)的普及。未來(lái),許多公司不用組建高度專業(yè)化的團(tuán)隊(duì),也不需要顧問(wèn)企業(yè)的參與,就能享受到大數(shù)據(jù)帶來(lái)的好處。
Q2. 數(shù)據(jù)工程師會(huì)比數(shù)據(jù)科學(xué)家更搶手嗎?
我認(rèn)為應(yīng)該區(qū)分一下數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師了。
前者是接受過(guò)正規(guī)教育的應(yīng)用數(shù)學(xué)家,他們研究數(shù)據(jù)科學(xué),開發(fā)新算法,組建神經(jīng)網(wǎng)絡(luò)等等。
后者的興趣關(guān)注點(diǎn)稍微不同,他們了解每種方法的理論和應(yīng)用局限,能成功解決業(yè)務(wù)問(wèn)題。
前者能做事情永遠(yuǎn)不缺,而后者的部分工作可以自動(dòng)化完成,但無(wú)法完全自動(dòng)化。新方法、新算法和新的解決途徑總會(huì)出現(xiàn)。另外,對(duì)主題領(lǐng)域和數(shù)據(jù)本質(zhì)的專業(yè)性理解,對(duì)顧客目標(biāo)的理解,以及快速實(shí)現(xiàn)目標(biāo)的能力,無(wú)法通過(guò)完全自動(dòng)化的方法做到,所以這些能力仍然極其重要。
數(shù)據(jù)科學(xué)是切合實(shí)際的科學(xué)——但是世界正朝著功能性的數(shù)據(jù)科學(xué)發(fā)展,從業(yè)人員可以自己做數(shù)據(jù)分析。相比于數(shù)據(jù)科學(xué)家,你需要更多的數(shù)據(jù)工程師來(lái)啟動(dòng)數(shù)據(jù)流程和整合的數(shù)據(jù)結(jié)構(gòu)。
聰明的機(jī)構(gòu)擁有聰明的人才,他們很懂自己的數(shù)據(jù)。數(shù)據(jù)科學(xué)家之所以存在的原因是大多數(shù)機(jī)構(gòu)還不太懂?dāng)?shù)據(jù)。但他們以后會(huì)懂的。
如果一名數(shù)據(jù)科學(xué)家創(chuàng)造了一項(xiàng)突破性算法,但沒有數(shù)據(jù)工程師將該算法落地到業(yè)務(wù)生產(chǎn)中,那算法會(huì)產(chǎn)生價(jià)值嗎?
我重申一下我最喜歡的 Gartner 數(shù)據(jù),只有 15% 的大數(shù)據(jù)項(xiàng)目最后投入了生產(chǎn)領(lǐng)域。雖然他們從沒有深入探尋剩下的 85% 為什么沒能投入生產(chǎn)領(lǐng)域,但是我提出一些未能成功落地的幾個(gè)關(guān)鍵原因:
這就是為什么每家數(shù)據(jù)科學(xué)公司都需要至少兩名數(shù)據(jù)工程師的原因。
總結(jié)
數(shù)據(jù)科學(xué)家職業(yè)的未來(lái)前景如何,仍然很模糊,需要專業(yè)的判斷。但是,每天都有新的代碼庫(kù)和工具出現(xiàn),我們絕不是走在簡(jiǎn)化開發(fā)和創(chuàng)建業(yè)務(wù)模型這些基礎(chǔ)設(shè)施的道路上。許多人都很自信地說(shuō)不錯(cuò),但還有不好的一面,我們創(chuàng)建的系統(tǒng)越復(fù)雜,系統(tǒng)就越隨機(jī),越基于概率。
目前人工智能階段的主要問(wèn)題是在預(yù)言結(jié)果的意義是缺乏直覺。我們只有定量的方法來(lái)解決某個(gè)特定的問(wèn)題,基于此方法做出預(yù)測(cè),但是預(yù)測(cè)的質(zhì)量不高。目前為止,這個(gè)方法運(yùn)行得很不錯(cuò)的,但未來(lái)不得而知。
讓我們拭目以待吧。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10