
大數(shù)據(jù)爆發(fā)可能性:基礎(chǔ)要件已經(jīng)具備 從數(shù)據(jù)源到數(shù)據(jù)應(yīng)用形成完整生態(tài)
國內(nèi)大數(shù)據(jù)市場爆發(fā)的核心要件已經(jīng)具備。 基于對影響產(chǎn)業(yè)發(fā)展的核心因素的分析, 立足當(dāng)前時點(diǎn), 我們判斷國內(nèi)大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)具備規(guī)模爆發(fā)的可能性:在線數(shù)據(jù)爆發(fā)式增長,數(shù)據(jù)源可獲得性、流動性明顯改善;云計(jì)算、分布式架構(gòu)等技術(shù)推動大數(shù)據(jù)相關(guān)基礎(chǔ)技術(shù)設(shè)施趨于完善; 大數(shù)據(jù)分析應(yīng)用領(lǐng)域明星案例不斷增多, 市場對于大數(shù)據(jù)價值認(rèn)可度持續(xù)提升;國家宏觀政策、資本市場熱情為大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展提供強(qiáng)勁支撐。
全球大數(shù)據(jù)市場發(fā)展路徑為國內(nèi)市場提供良好的參考。 據(jù) Wikibon 數(shù)據(jù),全球大數(shù)據(jù)市場規(guī)模在 2015 年突破 400 億美元,產(chǎn)業(yè)發(fā)展初具規(guī)模,同時全球市場發(fā)展具有如下典型特征:
( 1 )形成多層次、 融合的大數(shù)據(jù)來源,包括企業(yè)內(nèi)數(shù)據(jù)、商業(yè)數(shù)據(jù)以及獨(dú)立第三方機(jī)構(gòu)數(shù)據(jù)源。
( 2)基礎(chǔ)軟件模塊整體空間有限,市場收入主體主要由數(shù)據(jù)分析服務(wù)和基礎(chǔ)硬件模塊構(gòu)成,開源工具引入使得軟件模塊整體空間非常有限。
( 3)技術(shù)、行業(yè)認(rèn)知驅(qū)動新興數(shù)據(jù)分析企業(yè)崛起,以 palantir、 splunk 為代表的企業(yè)依托突出的技術(shù),以及對特定行業(yè)的深刻認(rèn)知,迅速打破傳統(tǒng) IT 企業(yè)的壁壘,并在特定細(xì)分行業(yè)領(lǐng)域占據(jù)主導(dǎo)地位。
數(shù)據(jù)源:數(shù)據(jù)規(guī)模爆發(fā)式增長,數(shù)據(jù)可獲得性、流動性持續(xù)改善。 根據(jù) IDC 數(shù)據(jù), 2011年全球數(shù)據(jù)總量約為 1.82ZB,是 2008 年的近 4 倍,中投顧問預(yù)計(jì) 2020 年國內(nèi)數(shù)據(jù)總量將達(dá)到 38.59ZB,遠(yuǎn)超過目前的全球數(shù)據(jù)總量,數(shù)據(jù)量正呈現(xiàn)爆發(fā)式增長。從數(shù)據(jù)的可獲得性、流動性來看,互聯(lián)網(wǎng)的發(fā)展創(chuàng)造了大量的線上數(shù)據(jù),同時互聯(lián)網(wǎng)和傳統(tǒng)行業(yè)的融合,以及 IOT時代的到來,數(shù)據(jù)的可獲得途徑正在被持續(xù)拓寬,互聯(lián)網(wǎng)加速數(shù)據(jù)間的流動和融合。
基礎(chǔ)技術(shù):計(jì)算、存儲、分析技術(shù)不斷成熟。 在傳統(tǒng)的數(shù)據(jù)分析時代,數(shù)據(jù)首先通過ORACLE、 DB2 等數(shù)據(jù)庫集中存儲形成結(jié)構(gòu)化數(shù)據(jù),并通過 BI 工具,借助傳統(tǒng)的數(shù)據(jù)挖掘算法進(jìn)行分析和展現(xiàn)。進(jìn)入大數(shù)據(jù)時代,我們面臨數(shù)據(jù)量大、 結(jié)構(gòu)化數(shù)據(jù)占比低等突出問題,傳統(tǒng)的 IT 架構(gòu)、分析算法已經(jīng)難以滿足需求。 2003~2004 年間, Google 公司在其對外發(fā)表的兩篇論文中提出了 GFS( Google File System)、 MapReduce 兩個核心概念,奠定了分布式文件存儲系統(tǒng)以及分布式計(jì)算模型的理論基礎(chǔ), 2006 年分布式計(jì)算和存儲框架 hadoop項(xiàng)目被提出,后續(xù)圍繞 hadoop 的技術(shù)生態(tài)不斷發(fā)展, 大數(shù)據(jù)相關(guān)計(jì)算、存儲、分析技術(shù)不斷成熟和完善。
分析應(yīng)用:大數(shù)據(jù)的價值正在獲得持續(xù)認(rèn)可。 伴隨著企業(yè)和機(jī)構(gòu)對大數(shù)據(jù)重視度的提升,大數(shù)據(jù)的商業(yè)價值正在逐步顯現(xiàn),各行業(yè)積極探索和大數(shù)據(jù)相結(jié)合的應(yīng)用場景,例如 Palantir在協(xié)助美國政府進(jìn)行反恐、國土安全等領(lǐng)域的突出表現(xiàn),國內(nèi)互聯(lián)網(wǎng)公司借助大數(shù)據(jù)進(jìn)行的精準(zhǔn)廣告投放等。根據(jù)德克薩斯州大學(xué)學(xué)者的研究統(tǒng)計(jì), 如果企業(yè)數(shù)據(jù)使用率提高 10%,各行業(yè)效益將提升 17%-49%不等。
政策&資本:政府大力推進(jìn),資本熱情持續(xù)高漲。 近一年來,中央政府強(qiáng)力推動數(shù)據(jù)開放和大數(shù)據(jù)運(yùn)用, 國務(wù)院常務(wù)會議 10 次提及“互聯(lián)網(wǎng)+” 及大數(shù)據(jù)戰(zhàn)略, 強(qiáng)調(diào)提高數(shù)據(jù)的開放程度和搭建數(shù)據(jù)共享平臺?;趯κ袌銮熬暗囊恢骂A(yù)期,國內(nèi)大數(shù)據(jù)行業(yè)投資熱度不斷上升,僅 2015 年在國內(nèi)融資的大數(shù)據(jù)創(chuàng)業(yè)公司就有超過 50 家,企業(yè)獲得投資額預(yù)計(jì)超過 20億美元,較 2014 年大幅增加。
大數(shù)據(jù)業(yè)務(wù)成功運(yùn)作依賴于多個環(huán)節(jié)的共同參與和協(xié)調(diào),我們將大數(shù)據(jù)產(chǎn)業(yè)鏈分成如下環(huán)節(jié):上游的數(shù)據(jù)源,中間的數(shù)據(jù)存儲、 計(jì)算,以及下游的數(shù)據(jù)分析應(yīng)用。 縱觀全球市場,根據(jù) wikibon 統(tǒng)計(jì)數(shù)據(jù),到 201 7 年,全球大數(shù)據(jù)市場規(guī)模將突破 500 億美元,美國、西歐等傳統(tǒng) IT 發(fā)達(dá)地區(qū)目前已經(jīng)走在前列,在下文中,我們將通過對全球大數(shù)據(jù)市場的回顧和分析,以試圖探究全球大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的內(nèi)在邏輯以及對中國市場的有益借鑒。
產(chǎn)業(yè)全景:貫穿大數(shù)據(jù)全生命周期。 經(jīng)歷近 20 年的理論準(zhǔn)備和產(chǎn)業(yè)發(fā)展, 目前全球市場已經(jīng)形成了從數(shù)據(jù)源采集、數(shù)據(jù)處理到數(shù)據(jù)分析應(yīng)用的完整產(chǎn)業(yè)生態(tài):
數(shù)據(jù)源。 數(shù)據(jù)類型上,包括傳統(tǒng)數(shù)據(jù)庫存儲的結(jié)構(gòu)型數(shù)據(jù)以及 cloudera 等存儲的半結(jié)構(gòu)化、 非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的來源上,包括銷售、營銷等企業(yè)內(nèi)和商業(yè)數(shù)據(jù),也包括從事數(shù)據(jù)整合的第三方機(jī)構(gòu)和組織所貢獻(xiàn)的數(shù)據(jù)。
數(shù)據(jù)處理。 主要包括數(shù)據(jù)的 ETL(抽取、轉(zhuǎn)化、加載)、存儲、計(jì)算等過程,涉及數(shù)據(jù)的切割、融合等動作,大量的中小企業(yè)通過推出特定的插件模塊、基礎(chǔ)工具不斷推動整個技術(shù)生態(tài)的繁榮。
數(shù)據(jù)應(yīng)用。 在該領(lǐng)域既包括傳統(tǒng)的 IT 信息企業(yè)、 統(tǒng)計(jì)分析企業(yè),也包括新興的大數(shù)據(jù)公司,比如 palantir、 inrix 等,這些企業(yè)針對不同的行業(yè)、應(yīng)用場景紛紛推出相應(yīng)的大數(shù)據(jù)解決方案。
產(chǎn)業(yè)模塊:專業(yè)服務(wù)模塊表現(xiàn)最為優(yōu)異 。如果我們將大數(shù)據(jù)的產(chǎn)業(yè)收入來源簡單分類為基礎(chǔ)硬件、 基礎(chǔ)軟件和專業(yè)服務(wù)三個模塊,根據(jù) wikibon 統(tǒng)計(jì)數(shù)據(jù), 基礎(chǔ)硬件模塊、專業(yè)服務(wù)的市場表現(xiàn)明顯優(yōu)于基礎(chǔ)軟件模塊:
基礎(chǔ)硬件。 計(jì)算、存儲兩個子模塊顯示出強(qiáng)勁的增長動力,且整體份額占比極高,顯示出云計(jì)算和大數(shù)據(jù)兩個子產(chǎn)業(yè)較強(qiáng)的相互拉動作用。
基礎(chǔ)軟件。 主要由 hadoop 計(jì)算框架和數(shù)據(jù)管理兩個子模塊構(gòu)成,整體規(guī)模非常有限,且增長平緩, 整個數(shù)據(jù)管理模塊的收入包括傳統(tǒng)的數(shù)據(jù)軟件產(chǎn)品收入( ORACLE、DB2 等)和 NoSQL 商業(yè)化產(chǎn)品收入。
專業(yè)服務(wù)。 為增長最為快速、 份額占比最高的子模塊,整體持續(xù)保持高速增長。
Wikibon 統(tǒng)計(jì)了 2013 年全球大數(shù)據(jù)領(lǐng)域收入排名 TOP 30 的公司,其中不僅包括 IBM、 HP 等傳統(tǒng)綜合 IT 企業(yè),也包括 palantir、 inrix 等專注于特定領(lǐng)域數(shù)據(jù)分析的新興企業(yè),我們嘗試對該 30 家公司進(jìn)行歸類分析,并探索各類別企業(yè)背后的一些共性的因素。
傳統(tǒng) IT 企業(yè)。 以 IBM、 HP、 dell、 oracle 等企業(yè)為代表,該類企業(yè)具有完整的軟、硬件產(chǎn)品線,并通過既有產(chǎn)品線、 hadoop 等開源計(jì)算框架的融合,迅速構(gòu)建出綜合性大數(shù)據(jù)解決方案。
傳統(tǒng)互聯(lián)網(wǎng)企業(yè)。 以 google、 amazon 為代表, 本身具有雄厚的技術(shù)和資金支持,且數(shù)據(jù)源豐富,自身業(yè)務(wù)對大數(shù)據(jù)具有較強(qiáng)的需求。
傳統(tǒng)咨詢公司。 以埃森哲、 BCG 等傳統(tǒng)咨詢公司為代表,作為咨詢業(yè)務(wù)的延伸,依賴于對行業(yè)的理解,面向企業(yè)輸出大數(shù)據(jù)實(shí)施方案以及承擔(dān)相應(yīng)的數(shù)據(jù)分析職能等。
新興大數(shù)據(jù)企業(yè)。 以 palantir、 splunk 等為代表,依賴于融合的計(jì)算框架和強(qiáng)大的技術(shù)實(shí)力,并疊加對特定行業(yè)的深入理解, 提供相應(yīng)的數(shù)據(jù)分析服務(wù),典型的技術(shù)、行業(yè)認(rèn)知驅(qū)動。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時用t.test,何時用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08