
作者 | 章劍鋒
筆者從 2008 年開始工作到現(xiàn)在也有 11 個年頭了,一路走來都在和數(shù)據(jù)打交道,做過大數(shù)據(jù)底層框架內(nèi)核的開發(fā)(Hadoop,Pig,Tez,Spark,Livy),也做過上層大數(shù)據(jù)應(yīng)用開發(fā)(寫 MapReduce Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau 做數(shù)據(jù)可視化,用 R 做數(shù)據(jù)分析)。今天我想借此機(jī)會和大家聊聊我所理解的大數(shù)據(jù)現(xiàn)狀和未來。
首先讓我們來聊聊什么是大數(shù)據(jù)。大數(shù)據(jù)這個概念已經(jīng)出來很多年了(超過10年),但一直沒有一個準(zhǔn)確的定義(也許也并不需要)。數(shù)據(jù)工程師(DataEngineer)對大數(shù)據(jù)的理解會更多從技術(shù)和系統(tǒng)的角度去理解,而數(shù)據(jù)分析人員(Data Analyst)對大數(shù)據(jù)理解會從產(chǎn)品的角度去理解,所以數(shù)據(jù)工程師(Data Engineer) 和數(shù)據(jù)分析人員(Data Analyst)所理解的大數(shù)據(jù)肯定是有差異的。我所理解的大數(shù)據(jù)是這樣的,大數(shù)據(jù)不是單一的一種技術(shù)或者產(chǎn)品,它是所有與數(shù)據(jù)相關(guān)的綜合學(xué)科??创髷?shù)據(jù)我會從 2 個維度來看,一個是數(shù)據(jù)流的維度(下圖的水平軸),另外一個是技術(shù)棧的維度(下圖的縱軸)。
其實我一直不太喜歡張口閉口講“大數(shù)據(jù)”,我更喜歡說“數(shù)據(jù)”。因為大數(shù)據(jù)的本質(zhì)在于“數(shù)據(jù)”,而不是“大”。由于媒體一直重點宣揚大數(shù)據(jù)的“大”,所以有時候我們往往會忽然大數(shù)據(jù)的本質(zhì)在“數(shù)據(jù)”,而不是“大”,“大”只是你看到的表相,本質(zhì)還是數(shù)據(jù)自身。
在我們講清楚大數(shù)據(jù)的含義之后,我們來聊聊大數(shù)據(jù)目前到底處在一個什么樣的位置。從歷史發(fā)展的角度來看,每一項新技術(shù)都會經(jīng)歷下面這樣一個技術(shù)成熟度曲線。
當(dāng)一項新技術(shù)剛出來的時候人們會非常樂觀,常常以為這項技術(shù)會給人類帶來巨大的變革,對此持有過高的期望,所以這項技術(shù)一開始會以非??斓乃俣仁艿酱蠹易放?,然后到達(dá)一個頂峰,之后人們開始認(rèn)識到這項新技術(shù)并沒有當(dāng)初預(yù)想的那么具有革命性,然后會過于悲觀,之后就會經(jīng)歷泡沫階段。等沉寂一定階段之后,人們開始回歸理性,正視這項技術(shù)的價值,然后開始正確的應(yīng)用這項技術(shù),從此這項技術(shù)開始走向穩(wěn)步向前發(fā)展的道路。(題外話,筆者在看這幅圖的時候也聯(lián)想到了一個男人對婚姻看法的曲線圖,大家自己腦補(bǔ))。
1、從大數(shù)據(jù)的歷史來看,大數(shù)據(jù)已經(jīng)經(jīng)歷了 2 個重要階段
兩個重要階段是指過高期望的峰值和泡沫化的底谷期 ?,F(xiàn)在正處于穩(wěn)步向前發(fā)展的階段。我們可以從 googletrend 上 big data 的曲線就能印證。大數(shù)據(jù)大約從 2009 年開始走向人們的視野,在 2015 年左右走向了頂峰,然后慢慢走向下降通道(當(dāng)然這張曲線并不會和上面這張技術(shù)成熟度曲線完全擬合,比如技術(shù)曲線處在下降通道有可能會使討論這項技術(shù)的搜索量增加)。
接下來我想講一下我對大數(shù)據(jù)領(lǐng)域未來趨勢的幾個判斷。
2、數(shù)據(jù)規(guī)模會繼續(xù)擴(kuò)大,大數(shù)據(jù)將繼續(xù)發(fā)揚光
前面已經(jīng)提到過,大數(shù)據(jù)已經(jīng)度過了過高期望的峰值和泡沫化的底谷期,現(xiàn)在正在穩(wěn)步向前發(fā)展。做這樣判斷主要有以下 2 個原因:
雖然現(xiàn)在人工智能,區(qū)塊鏈搶去了大數(shù)據(jù)的風(fēng)口位置,也許大數(shù)據(jù)成不了未來的主角,但大數(shù)據(jù)也絕對不是跑龍?zhí)椎模髷?shù)據(jù)仍將扮演一個重要而基礎(chǔ)的角色。可以這么說,只要有數(shù)據(jù)在,大數(shù)據(jù)就永遠(yuǎn)不會過時。我想在大部分人的有生之年,我們都會見證大數(shù)據(jù)的持續(xù)向上發(fā)展。
3、數(shù)據(jù)的實時性需求將更加突出
之前大數(shù)據(jù)遇到的最大挑戰(zhàn)在于數(shù)據(jù)規(guī)模大(所以大家會稱之為“大數(shù)據(jù)”),經(jīng)過工業(yè)界多年的努力和實踐,規(guī)模大這個問題基本已經(jīng)解決了。接下來幾年,更大的挑戰(zhàn)在于速度,也就是實時性。而大數(shù)據(jù)的實時性并不是指簡單的傳輸數(shù)據(jù)或者處理數(shù)據(jù)的實時性,而是從端到端的實時,任何一個步驟速度慢了,就影響整個大數(shù)據(jù)系統(tǒng)的實時性。所以大數(shù)據(jù)的實時性,包括以下幾個方面:
目前以 Kafka,Flink 為代表的流處理計算引擎已經(jīng)為實時計算提供了堅實的底層技術(shù)支持,相信未來在實時可視化數(shù)據(jù)以及在線機(jī)器學(xué)習(xí)方面會有更多優(yōu)秀的產(chǎn)品涌現(xiàn)出來。當(dāng)大數(shù)據(jù)的實時性增強(qiáng)之后,在數(shù)據(jù)消費端會產(chǎn)生更多有價值的數(shù)據(jù),從而形成一個更高效的數(shù)據(jù)閉環(huán),促進(jìn)整個數(shù)據(jù)流的良性發(fā)展。
4、大數(shù)據(jù)基礎(chǔ)設(shè)施往云上遷移勢不可擋
目前IT基礎(chǔ)設(shè)施往云上遷移不再是一個大家還需要爭論的問題,這是大勢所趨。當(dāng)然我這邊說的云并不單單指公有云,也包括私有云,混合云。因為由于每個企業(yè)的業(yè)務(wù)屬性不同,對數(shù)據(jù)安全性的要求不同,不可能把所有的大數(shù)據(jù)設(shè)施都部署在公有云上,但向云上遷移這是一個未來注定的選擇。目前各大云廠商都提供了各種各樣的大數(shù)據(jù)產(chǎn)品以滿足各種用戶需求,包括平臺型(PAAS) 的 EMR ,服務(wù)型 (SAAS) 的數(shù)據(jù)可視化產(chǎn)品等等。大數(shù)據(jù)基礎(chǔ)設(shè)施的云化對大數(shù)據(jù)技術(shù)和產(chǎn)品產(chǎn)生也有相應(yīng)的影響。大數(shù)據(jù)領(lǐng)域的框架和產(chǎn)品將更加 Cloud Native 。
5、大數(shù)據(jù)產(chǎn)品全鏈路化
全鏈路化是指提供端到端的全鏈路解決方案,而不是簡單的堆積一些大數(shù)據(jù)產(chǎn)品組件。以 Hadoop 為代表的大數(shù)據(jù)產(chǎn)品一直被人詬病的主要問題就是用戶使用門檻過高,二次開發(fā)成本太高。全鏈路化就是為了解決這一問題,用戶需要的并不是 Hadoop,Spark,Flink 等這些技術(shù),而是要以這些技術(shù)為基礎(chǔ)的能解決業(yè)務(wù)問題的產(chǎn)品。 Cloudera 的從 Edge 到 AI 是我比較認(rèn)同的方案。大數(shù)據(jù)的價值并不是數(shù)據(jù)本身,而是數(shù)據(jù)背后所隱藏的對業(yè)務(wù)有影響的信息和知識。下面是一張摘自 wikipedia 的經(jīng)典數(shù)據(jù)金字塔的圖。
大數(shù)據(jù)技術(shù)就是對最原始的數(shù)據(jù)進(jìn)行不斷處理加工提煉,金字塔每上去一層,對應(yīng)的數(shù)據(jù)量會越小,同時對業(yè)務(wù)的影響價值會更大更快。而要從數(shù)據(jù)(Data) 最終提煉出智慧(Wisdom),數(shù)據(jù)要經(jīng)過一條很長的數(shù)據(jù)流鏈路,沒有一套完整的系統(tǒng)保證整條鏈路的高效運轉(zhuǎn)是很難保證最終從數(shù)據(jù)中提煉出來有價值的東西的,所以大數(shù)據(jù)未來產(chǎn)品全鏈路化是另外一個大的趨勢。
6、大數(shù)據(jù)技術(shù)往下游數(shù)據(jù)消費和應(yīng)用端轉(zhuǎn)移
上面講到了大數(shù)據(jù)的全鏈路發(fā)展趨勢,那么這條長長的數(shù)據(jù)鏈路目前的狀況是如何,未來又會有什么樣的趨勢呢?
我的判斷是未來大數(shù)據(jù)技術(shù)的創(chuàng)新和發(fā)力會更多的轉(zhuǎn)移到下游數(shù)據(jù)消費和應(yīng)用端。之前十多年大數(shù)據(jù)的發(fā)展主要集中在底層的框架,比如最開始引領(lǐng)大數(shù)據(jù)風(fēng)潮的 Hadoop ,后來的計算引擎佼佼者 Spark,Flink 以及消息中間件 Kafka ,資源調(diào)度器 Kubernetes 等等,每個細(xì)分領(lǐng)域都涌現(xiàn)出了一系列優(yōu)秀的產(chǎn)品??偟膩碚f,在底層技術(shù)框架這塊,大數(shù)據(jù)領(lǐng)域已經(jīng)基本打好了基礎(chǔ),接下來要做的是如何利用這些技術(shù)為企業(yè)提供最佳用戶體驗的產(chǎn)品,以解決用戶的實際業(yè)務(wù)問題,或者說未來大數(shù)據(jù)的側(cè)重點將從底層走向上層。之前的大數(shù)據(jù)創(chuàng)新更偏向于 IAAS 和 PAAS ,未來你將看到更多 SAAS 類型的大數(shù)據(jù)產(chǎn)品和創(chuàng)新。從近期一些國外廠商的收購案例,我們可以略微看出一些端倪。1、2019 年 6 月 7 日,谷歌宣布以 26 億美元收購了數(shù)據(jù)分析公司 Looker,并將該公司并入 Google Cloud。2、2019 年 6 月 10 日,Salesforce 宣布以 157 億美元的全股票交易收購 Tableau ,旨在夯實在數(shù)據(jù)可視化以及幫助企業(yè)解讀所使用和所積累的海量數(shù)據(jù)的其他工具方面的工作。3、2019 年 9 月初,Cloudera 宣布收購 Arcadia Data 。 Arcadia Data 是一家云原生 AI 驅(qū)動的商業(yè)智能實時分析廠商。面對最終用戶的大數(shù)據(jù)產(chǎn)品將是未來大數(shù)據(jù)競爭的重點,我相信會未來大數(shù)據(jù)領(lǐng)域的創(chuàng)新也將來源于此,未來 5 年內(nèi)大概率至少還會再出一個類似 Looker 這樣的公司,但是很難再出一個類似 Spark 的計算引擎。
7、底層技術(shù)的集中化和上層應(yīng)用的全面開花
學(xué)習(xí)過大數(shù)據(jù)的人都會感嘆大數(shù)據(jù)領(lǐng)域的東西真是多,特別是底層技術(shù),感覺學(xué)都學(xué)不來。經(jīng)過多年的廝殺和競爭,很多優(yōu)秀的產(chǎn)品已經(jīng)脫穎而出,也有很多產(chǎn)品慢慢走向消亡。比如批處理領(lǐng)域的 Spark 引擎基本上已經(jīng)成為批處理領(lǐng)域的佼佼者,傳統(tǒng)的 MapReduce 除了一些舊有的系統(tǒng),基本不太可能會開發(fā)新的 MapReduce 應(yīng)用。 Flink 也基本上成為低延遲流處理領(lǐng)域的不二選擇,原有的 Storm 系統(tǒng)也開始慢慢退出歷史舞臺。同樣 Kafka 也在消息中間件領(lǐng)域基本上占據(jù)了壟斷地位。未來的底層大數(shù)據(jù)生態(tài)圈中將不再有那么多的新的技術(shù)和框架,每個細(xì)分領(lǐng)域都將優(yōu)勝劣汰,走向成熟,更加集中化。未來更大的創(chuàng)新將更多來來自上層應(yīng)用或者全鏈路的整合方面。在大數(shù)據(jù)的上層應(yīng)用方面未來將會迎來有更多的創(chuàng)新和發(fā)展,比如基于大數(shù)據(jù)上的BI產(chǎn)品, AI 產(chǎn)品等等,某個垂直領(lǐng)域的大數(shù)據(jù)應(yīng)用等等,我相信未來我們會看到更多這方面的創(chuàng)新和發(fā)展。
8、開源閉源并駕齊驅(qū)
大數(shù)據(jù)領(lǐng)域并不是只有 Hadoop,Spark,Flink 等這類大家耳熟能詳?shù)拈_源產(chǎn)品,還有很多優(yōu)秀的閉源產(chǎn)品,比如 AWS 上的 Redshift ,阿里的 MaxCompute 等等。這些產(chǎn)品雖然沒有開源產(chǎn)品那么受開發(fā)者歡迎,但是他們對于很多非互聯(lián)網(wǎng)企業(yè)來說是非常受歡迎的。因為對于一個企業(yè)來說,采用哪種大數(shù)據(jù)產(chǎn)品有很多因素需要考慮,否開源并不是唯一標(biāo)準(zhǔn)。產(chǎn)品是否穩(wěn)定,是否有商業(yè)公司支持,是否足夠安全,是否能和現(xiàn)有系統(tǒng)整合等等往往是某些企業(yè)更需要考慮的東西,而閉源產(chǎn)品往往在這類企業(yè)級產(chǎn)品特性上具有優(yōu)勢。
最近幾年開源產(chǎn)品受公有云的影響非常大,公有云可以無償享受開源的成果,搶走了開源產(chǎn)品背后的商業(yè)公司很多市場份額,所以最近很多開源產(chǎn)品背后的商業(yè)公司開始改變策略,有些甚至修改了 Licence 。不過我覺得公有云廠商不會殺死那些開源產(chǎn)品背后的商業(yè)公司,否則就是殺雞取卵,殺死開源產(chǎn)品背后的商業(yè)公司,其實就是殺死開源產(chǎn)品的最大技術(shù)創(chuàng)新者,也就是殺死開源產(chǎn)品本身。我相信開源界和公有云廠商最終會取得一個平衡,開源仍然會是一個主流,仍然會是創(chuàng)新的主力,一些優(yōu)秀的閉源產(chǎn)品同樣也會占據(jù)一定的市場空間。
最后我想再次總結(jié)下本文的幾個要點:
1、目前大數(shù)據(jù)已經(jīng)度過了最火的峰值期和泡沫化的底谷期,現(xiàn)在正處于穩(wěn)步向前發(fā)展的階段。2、數(shù)據(jù)規(guī)模會繼續(xù)擴(kuò)大,大數(shù)據(jù)將繼續(xù)發(fā)揚光大3、 數(shù)據(jù)的實時性需求將更加突出4、大數(shù)據(jù)基礎(chǔ)設(shè)施往云上遷移勢不可擋5、大數(shù)據(jù)產(chǎn)品全鏈路化6、大數(shù)據(jù)技術(shù)往下游數(shù)據(jù)消費和應(yīng)用端轉(zhuǎn)移7、底層技術(shù)的集中化和上層應(yīng)用的全面開花8、開源閉源并駕齊驅(qū)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10