理理大數(shù)據(jù)的脈絡(luò)
大數(shù)據(jù)的生意到底是啥?說白了就是數(shù)據(jù)分析(analytics)的生意,原來的商業(yè)智能(business intelligences)也是分析的生意,如果把原來的商業(yè)智能稱為分析1.0,那大數(shù)據(jù)其實(shí)就是分析2.0
先看看商業(yè)智能大數(shù)據(jù)的生意到底是啥?說白了就是數(shù)據(jù)分析(analytics)的生意,原來的商業(yè)智能(business intelligences)也是分析的生意,如果把原來的商業(yè)智能稱為分析1.0,那大數(shù)據(jù)其實(shí)就是分析2.0。
商業(yè)智能的場景是什么呢?到底能給客戶帶來什么使得其愿意為技術(shù)買單。簡單來說就是幫助企業(yè)實(shí)現(xiàn)KPI管理,就是為需要管理的企業(yè)流程定義關(guān)鍵KPI指標(biāo),銷售額多少、庫存量多少、合同數(shù)量多少啊等等,商業(yè)智能系統(tǒng)可以把企業(yè)的過程數(shù)據(jù)(例如實(shí)際的訂單)轉(zhuǎn)換為相應(yīng)KPI,要是手工來做這個(gè)KPI統(tǒng)計(jì),企業(yè)不知道要花多少資源和時(shí)間才能完成。這個(gè)有個(gè)高大上的名字,叫做Performance Management,或者Corporate Performance Management(CPM)。
這個(gè)需求場景幾乎可以應(yīng)用到所有企業(yè),毫不費(fèi)功夫復(fù)制到這個(gè)垂直行業(yè),金融企業(yè)可以、電信企業(yè)可以、能源企業(yè)可以、零售企業(yè)可以,所有財(cái)富五百強(qiáng)的企業(yè)都要用,每個(gè)企業(yè)的運(yùn)營人員都需要把握自己公司的關(guān)鍵流程。企業(yè)建設(shè)這樣的系統(tǒng)的投資回報(bào)率無容質(zhì)疑,市場需求是無疑的。
這對于產(chǎn)品經(jīng)理來講是個(gè)精美的產(chǎn)品模式,單一的模型、普世的剛需、海量的市場。
技術(shù)人員也開發(fā)了一套技術(shù)體系支撐這個(gè)商業(yè)需求。 首先是數(shù)據(jù)管理。數(shù)據(jù)要從各個(gè)獨(dú)立的系統(tǒng)CRM、ERP等匯聚在一個(gè)池子,才能夠進(jìn)行全局指標(biāo)的計(jì)算,這個(gè)池子就是數(shù)據(jù)倉庫(data warehouse),匯聚的工具是數(shù)據(jù)集成工具(data intergration)。這里首先要解決的一個(gè)技術(shù)難題就是數(shù)據(jù)量比原來單一系統(tǒng)的大,需要解決這個(gè)問題才能談得上分析,Teradata 還有IBM DB2 DPF就用了分布式(簡單起見先用這個(gè)詞)的架構(gòu)解決這個(gè)問題。
其次是數(shù)據(jù)分析。技術(shù)人員發(fā)現(xiàn),KPI的分析其實(shí)是個(gè)多維分析的問題,比如說在對銷售情況進(jìn)行分析時(shí)候,對所有的交易,從年份緯度看到底每年銷售了多少,或者從區(qū)域緯度看各個(gè)省銷售了多少,或者從產(chǎn)品緯度看哪個(gè)產(chǎn)品銷量最大,就是對同一套原始數(shù)據(jù)從不同緯度進(jìn)行統(tǒng)計(jì)分析。這個(gè)技術(shù)最大的難題就是數(shù)據(jù)量太大,分析速度跟不上,一個(gè)企業(yè)可能一年下來會有數(shù)十甚至百億級別的交易,要對這些數(shù)據(jù)進(jìn)行求和平均,極為耗時(shí),有些甚至需要數(shù)小時(shí),這樣實(shí)用性不高。為了解決這個(gè)問題,就開發(fā)了一種預(yù)先計(jì)算的機(jī)制,把指標(biāo)先計(jì)算好,需要看指標(biāo)時(shí)候直接給指標(biāo)。這些難題都解決完了,還有一個(gè)問題就是數(shù)據(jù)的可視化,把指標(biāo)通過儀表盤的模式展現(xiàn)給用戶。
商業(yè)場景:Performance Management, 同時(shí)有一套corporate performance management 的理論和方法,如何選流程,如何指標(biāo)化。
應(yīng)用產(chǎn)品:CPM分析平臺:BI平臺(多維OLAP分析)數(shù)據(jù)平臺:數(shù)據(jù)倉庫data warehouse工具:數(shù)據(jù)集成、數(shù)據(jù)質(zhì)量這塊的軟件市場約328億美金(2014年),是一個(gè)足夠大的市場空間,加上硬件及服務(wù)也能達(dá)到上千億:
Analytic applications:21億CPM suit:27億BI Platform:89億Data warehouse:約150億DI&DQ:41億——Source Gartner 2015我們看到,傳統(tǒng)方式里,企業(yè)軟件的賺錢模式是在平臺,尤其是大平臺,我們看到BI及數(shù)據(jù)倉庫平臺合計(jì)239億美金,占比超過70%。
大數(shù)據(jù)平臺失守商業(yè)模式的顛覆總是來自外部,和意想不到的領(lǐng)域。
上面把BI和報(bào)表基本劃等號是為了簡單理解起見,其實(shí)以前也不是沒有復(fù)雜的數(shù)據(jù)分析產(chǎn)品,上面沒有包含另外一個(gè)分析的細(xì)分市場predictive analytics, 其平臺就是Advanced Analytics Platform,就是不僅僅做KPI報(bào)表分析,還做更加深度的數(shù)據(jù)挖掘(大數(shù)據(jù)分析的老祖宗),SAS,SPSS這些廠家的產(chǎn)品可以做更為復(fù)雜的統(tǒng)計(jì)及模式發(fā)現(xiàn)等應(yīng)用,但是這塊一直發(fā)展不起來,僅僅約12億美金的市場空間,主要是投資成本太高,也沒有大量可復(fù)制的場景,僅僅在銀行及電信領(lǐng)域應(yīng)用比較多。
真正的引爆點(diǎn)來自和企業(yè)IT市場關(guān)系不大的互聯(lián)網(wǎng)廠商,谷歌在2004年拋出了論文,雅虎的人在2005年弄了個(gè)開源的Hadoop,業(yè)界07、08年左右開始爆炒大數(shù)據(jù)概念,互聯(lián)網(wǎng)企業(yè)開始引入Hadoop 架構(gòu),相關(guān)大數(shù)據(jù)的初創(chuàng)公司蜂涌而起,Cloudera于2009年成立,Hadoop正式版在2011年發(fā)布,企業(yè)市場也開始在2012和2013年以后開始慢慢接受大數(shù)據(jù)的概念。
有一點(diǎn)比較關(guān)鍵的就是大數(shù)據(jù)的發(fā)展是bottom up的,先由yahoo把google的東西抄了,用開源做了一套,因?yàn)槭腔ヂ?lián)網(wǎng)來的,所以在企業(yè)領(lǐng)域是否能夠大規(guī)模高效使用就只能由市場的發(fā)展本身來回答,這個(gè)是完全新的一種成長方式。 而這里面最為重要的就是數(shù)據(jù)的存儲和計(jì)算帶來的技術(shù)創(chuàng)新,HDFS的分布式文件系統(tǒng)可以廉價(jià)的存儲PB級的數(shù)據(jù),HBase把傳統(tǒng)數(shù)據(jù)倉庫存儲的數(shù)據(jù)量從TB延展到TB,而計(jì)算原來依賴于數(shù)據(jù)庫的并行處理能力,而現(xiàn)在Map/Reduce提供了一個(gè)更為通用的分布式處理模式,意味著為無數(shù)的分析場景打開了可能性。
數(shù)據(jù)的存儲與計(jì)算是整個(gè)大數(shù)據(jù)里面最為中核的平臺,下面的數(shù)據(jù)也證明這點(diǎn)。 我們看看目前大數(shù)據(jù)市場已經(jīng)IPO以及被投資比較多的公司:
IPOTableau(市值55億),可視化Qlik(市值26億),可視化Tibco(市值39億),可視化Splunk(市值67億),日志分析Hortonworks,HadoopMost fundedCloudera(融資1040M),hadoopPalantir(融資950M), 分析平臺Mongodb(融資311M),NoSQLDomo(融資250M),云BIMu Sigma(融資195M),大數(shù)據(jù)服務(wù)Datastax(融資190M),NOSQLMapR(融資174M),HadoopHadoop發(fā)行版Cloudera的投資已經(jīng)超過10億美金,即使按照市盈率10計(jì)算,其市值已經(jīng)將近100億美金!Hortonworks也在2015年正式IPO。Cloudera,Hortonworks,MapR的三架馬車格局勝負(fù)已分,Cloudera是當(dāng)之無愧的領(lǐng)頭,MapR估計(jì)往后的日子越來越難。
另外一個(gè)投資重點(diǎn)就是NoSQL數(shù)據(jù)庫,MongoDB和Cassandra(datastax)成為NoSQL市場的事實(shí)壟斷者。 加上各廠商在2010-2011年大肆收購的MPP數(shù)據(jù)庫,Greenplum,Vertica,Neteeza,Aster data,數(shù)據(jù)存儲和計(jì)算平臺基本格局已經(jīng)確定,Hadoop/Cloudera 和NoSQL/MongoDB是目前勝出的兩匹馬。
這三條賽道基本跑完主賽。
傳統(tǒng)的IT廠商對關(guān)鍵的基礎(chǔ)平臺是必爭之地,在BI里面數(shù)據(jù)管理的數(shù)據(jù)倉庫占150多億,占軟件收入的將近一半。但是開源完全打破了這種模式,由于Hadoop和大多數(shù)NOSQL本身是開源的,所以不太可能繼續(xù)采取高溢價(jià)方式銷售,大多數(shù)廠商已經(jīng)接受了Hadoop發(fā)行版不可能賺大錢的現(xiàn)實(shí),2014和2015年里,Intel、HP、微軟等都紛紛放棄自己的發(fā)行版和解散研發(fā)團(tuán)隊(duì)轉(zhuǎn)而依賴于Hortonworks 和Cloudera。大家都意識到,最后會像紅帽和SUSE,剩下兩家做開源發(fā)行版的小廠商。而MongoDB和Cassandra是NOSQL里面最后能存活下來的。
看似機(jī)會無限的大數(shù)據(jù),對于大廠商而言卻像異常難以把握的泥鰍,大家都不得不忍痛放棄至關(guān)重要的數(shù)據(jù)平臺。甚至連最后本來還想堅(jiān)守的MPP,等到Pivotal把Greenplum開源,把這塊徹底打碎,所有大數(shù)據(jù)的數(shù)據(jù)管理和處理層都完全開源,守?zé)o可守。原來數(shù)據(jù)倉庫的巨頭Teradata的市值已經(jīng)蒸發(fā)幾十億美元。
至此為止,最重要的數(shù)據(jù)處理層基本完成主要投資,大局已定。新出現(xiàn)的Spark是目前這里唯一最大的變數(shù),但也很容易被Cloudera這些廠家吸收進(jìn)其發(fā)行版,Databricks似乎寄望于云能夠幫其突局。
大廠的失守,對于小廠商來說是絕佳的黃金機(jī)會。2013年以來,慢慢很多企業(yè)開始逐步采用Hadoop,銀行、電信等大行業(yè)開始有大量早期的創(chuàng)新項(xiàng)目單子出來,早期的采用意味著實(shí)驗(yàn)性質(zhì)為主,大量的定制化,開源也意味著需要大量的服務(wù),于是一大堆沒有特別大技術(shù)含量,但是做大數(shù)據(jù)項(xiàng)目的公司如雨后春筍,大量涌現(xiàn),大家看到現(xiàn)在中國市場有這么多的大數(shù)據(jù)公司很多本質(zhì)上就是這個(gè)大背景下起來的。 這是個(gè)前途無量的市場。
2014年Hadoop的訂閱及專業(yè)服務(wù)市場約6億美金,2017年預(yù)計(jì)增長三倍到17億美金,NoSQL在2014年約4.5億美金,到2017年約17億美金,復(fù)合增長率超過40%,而軟件及軟件服務(wù)的收入僅占項(xiàng)目成本里面的10%,還有大量的硬件及實(shí)施的費(fèi)用。
應(yīng)用碎片化之困前面談到,大數(shù)據(jù)的勃發(fā)是因?yàn)樾碌臄?shù)據(jù)存儲和處理技術(shù)的出現(xiàn),至于說這項(xiàng)技術(shù)到底能給業(yè)務(wù)帶來什么商業(yè)價(jià)值,需要去重新探索。于是各個(gè)行業(yè)涌現(xiàn)無限的垂直行業(yè)分析的,日志分析、醫(yī)療分析、金融分析、安全分析、電信分析、教育分析、能源分析等等。但是不幸的是目前還沒有發(fā)現(xiàn)太多殺手級的應(yīng)用。
已經(jīng)IPO的公司里面,Splunk是做企業(yè)IT運(yùn)維里面機(jī)器日志分析,從而優(yōu)化運(yùn)維的效率,是傳統(tǒng)的ITOM細(xì)分領(lǐng)域下的一個(gè)應(yīng)用,這個(gè)應(yīng)用是大數(shù)據(jù)分析最成功的場景之一,目前Splunk市值已經(jīng)超過67億美金。除了這個(gè),剩下的三個(gè)是Tableau,Qlik,Tibco總共市值超一百億美金,多是數(shù)據(jù)可視化的公司。說白了就是原來的一些報(bào)表應(yīng)用,還有就是把數(shù)據(jù)聚集起來,讓所謂的數(shù)據(jù)科學(xué)家搗騰搗騰,進(jìn)行數(shù)據(jù)探索。 IBM提到了這幾個(gè)大數(shù)據(jù)最有價(jià)值的場景:
Data explorationEnhanced 360 degree view of customersSecurity intelligence extensionOperational intelligenceData warehouse modernization我們看到多少都還有原來BI系統(tǒng)的影子,客戶畫像、流程監(jiān)控、數(shù)據(jù)倉庫的現(xiàn)代化。數(shù)據(jù)探索和安全分析是兩個(gè)相對比較不同。但都說不上可以直接給企業(yè)帶來多大的價(jià)值。
對比起B(yǎng)I市場那種簡單和高度可復(fù)制的報(bào)表應(yīng)用,我們可以更加深深體會到大數(shù)據(jù)在應(yīng)用層面的艱難探索。 中間數(shù)據(jù)平臺的失守、分析應(yīng)用的高度碎片化是大數(shù)據(jù)廠商的大數(shù)據(jù)焦慮的來源。
分析平臺將成為焦點(diǎn)戰(zhàn)場分析平臺似乎是一個(gè)機(jī)會。 在大數(shù)據(jù)的浪潮下,涌現(xiàn)很多基于Hadoop生態(tài)的新的BI平臺以及數(shù)據(jù)探索平臺。原來傳統(tǒng)的分析平臺,包括基于統(tǒng)計(jì)分析的SPSS還有SAS等,雖然還繼續(xù)會扮演很重要的角色,但是這些其實(shí)已經(jīng)在市場上存在幾十年的平臺,對于解決實(shí)際的行業(yè)問題來說還是太遠(yuǎn),非常難以把分析的價(jià)值變現(xiàn)。
一方面是走垂直行業(yè)的路子,各種垂直行業(yè)的分析應(yīng)用以及垂直行業(yè)的分析平臺,是大數(shù)據(jù)價(jià)值變現(xiàn)的一條路,大大降低用戶的使用門檻。整個(gè)創(chuàng)業(yè)的市場,也在制造無數(shù)的垂直領(lǐng)域的分析平臺。
另外一方面是更加易于產(chǎn)生分析價(jià)值的平臺,大數(shù)據(jù)的最核心價(jià)值是產(chǎn)生智能,發(fā)現(xiàn)人類難以發(fā)現(xiàn)的事情。這個(gè)的典型代表是融資額接近10億美金的Palantir。
Palantir是通過為美國的情報(bào)部門的反恐服務(wù)長起來的,其本質(zhì)就是把人類活動(dòng)的模型建模,然后把人類實(shí)時(shí)的活動(dòng)及時(shí)間輸入,通過對時(shí)間、地點(diǎn)、人物、事件的關(guān)聯(lián)分析認(rèn)識事件,其最具轟動(dòng)效應(yīng)的就是幫助中情局發(fā)現(xiàn)本拉登,是一種所謂的Human centric或者是Human Driven的分析。在其應(yīng)用場景里面,比如說航班信息、出入境信息、移民信息、人口流動(dòng)、其他交通信息、社交網(wǎng)絡(luò)、電話等信息組成分析的基本要素,這種要素里面地理信息、社交關(guān)系、拓?fù)潢P(guān)聯(lián)、可視化展現(xiàn)及關(guān)聯(lián)分析非常重要,比如說其可能要完成的任務(wù)是要分析所有來自敘利亞一個(gè)月內(nèi)進(jìn)入美國的航班里面,電話和社交信息可疑的人,同時(shí)接觸過危險(xiǎn)品交易的人,然后把這些可疑的人員分析出來,同時(shí)把他們的關(guān)系圈分析出來,把他們目前所在的城市及住址在地圖上顯示出來。其成功之處在于把要解決的社會問題需要的方法沉淀到平臺里面,只要是涉及到人和事的分析,其都可以幫助完成,公安、金融反欺詐、流行病這些都需要類似的功能,對于電話、位置、住宿、交通痕跡、社交網(wǎng)、購買活動(dòng)等等的分析可以解決很多實(shí)際的社會問題。既解決了價(jià)值變現(xiàn)的問題,又解決了過于碎片的市場不能沉淀出分析平臺的問題。目前Palantir主要用在國家安全、社會安全、網(wǎng)絡(luò)安全、金融安全、內(nèi)幕交易、醫(yī)療、保險(xiǎn)、自然災(zāi)難等社會領(lǐng)域。
可想而知,這種場景對高度復(fù)雜的社會管理能帶來多大價(jià)值,也就不難理解為什么現(xiàn)在整個(gè)圈子都在談?wù)撨@個(gè)產(chǎn)品。 離價(jià)值越近,平臺的價(jià)值就越大。 越靠近智能,離價(jià)值越近。 數(shù)據(jù)存儲、計(jì)算、探索、展現(xiàn)的基礎(chǔ)打好以后,對數(shù)據(jù)真正做分析的人工智能再次重生,這次有了個(gè)新的名字,深度學(xué)習(xí)。 機(jī)器大腦是一個(gè)新的分析平臺嗎? 谷歌的Google brain項(xiàng)目正式曝光,成為Google X的知識部門(knowledge)下的一個(gè)項(xiàng)目,接著四億美金收購 deep mind,然后收購dark blue labs(自然語言認(rèn)識),收購vision factory(視覺識別),重金布局人工智能。于是引發(fā)了互聯(lián)網(wǎng)公司的人工智能軍備競賽,百度大腦、Facebook、亞馬遜等都開展相似項(xiàng)目。
到底這些人工智能平臺能否成為跨行業(yè)的通用的分析平臺仍然是個(gè)問號,似乎更多的是其互聯(lián)網(wǎng)業(yè)務(wù)的補(bǔ)充,谷歌首先把機(jī)器學(xué)習(xí)用于其搜索引擎,以便提供更為智能化的準(zhǔn)確結(jié)果,還有無人駕駛汽車,還有就是類似Siri這樣的應(yīng)答系統(tǒng)。這場軍備競賽似乎對目前企業(yè)領(lǐng)域難以有很大的影響。
無論如何,能夠快速給用戶帶來價(jià)值的分析平臺,將是今后的大焦點(diǎn)。
CDA數(shù)據(jù)分析師考試相關(guān)入口一覽(建議收藏):
? 想報(bào)名CDA認(rèn)證考試,點(diǎn)擊>>>
“CDA報(bào)名”
了解CDA考試詳情;
? 想學(xué)習(xí)CDA考試教材,點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫,點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情;
? 想了解CDA考試含金量,點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情;