
大數(shù)據(jù)運(yùn)作機(jī)理與趨勢分析_數(shù)據(jù)分析師
大數(shù)據(jù)運(yùn)作機(jī)理
大數(shù)據(jù)的機(jī)理是什么?這個(gè)概念會(huì)更加模糊,更加具有不可定性。以至于,絕大多說的人至今還有找到其源頭。
打個(gè)比方:
現(xiàn)某大型電商的電子統(tǒng)計(jì)圖里清晰的顯示出,全國各達(dá)地區(qū)出現(xiàn)食鹽緊缺的旺盛需求,按照此需求的增長速率,此電商必須立即補(bǔ)貨。否則,食鹽就會(huì)缺貨。作為此電商的決策人,你是補(bǔ)還是不補(bǔ)?
首先,我們要明白一點(diǎn),照常態(tài)來說,食鹽這種商品是沒有理由出現(xiàn)大規(guī)模銷量暴漲的,但是,系統(tǒng)匯總?cè)珖脩舻馁徺I信息繪制的銷售圖示是沒有錯(cuò)的。這時(shí)候,問題就出現(xiàn)了,如果按照銷售圖來預(yù)判未來趨勢采購食鹽,如果銷售突然下滑,那么付出的物流以及成本損失該如何計(jì)算。
就在這個(gè)小案例中給我們透露出什么訊息?大數(shù)據(jù)在運(yùn)作的過程中,有它的弊端。而這個(gè)弊端是什么?是因?yàn)樗€不夠“大”。就像案例所說的,常態(tài)情況,食鹽是沒有理由大規(guī)模的銷量暴漲的,但你的銷售系統(tǒng)提供的報(bào)表,清晰的顯示如此,以及預(yù)測未來的食鹽銷量趨勢將會(huì)不斷增長。而你僅僅只看到了數(shù)據(jù),就輕易的做出的采購的決定。為什么,銷售提供的報(bào)表是一個(gè)可能增長的信息,但這違背了你腦袋中的預(yù)判邏輯。所以,你對你的判斷也是是是而非,不確定。而能解決這一問題,就只有當(dāng)你的數(shù)據(jù)“大”到一定程度,以至于把全部變量全都覆蓋,而那些影響因素都在其中,此時(shí)的預(yù)測就可以足令人信服。
又例如:工信部調(diào)查,中國人均工資每年上漲7%,勉強(qiáng)應(yīng)對通貨膨脹。而且鏗鏘有詞的指出,經(jīng)過系統(tǒng)精心計(jì)算。
如果你看到上面的信息,你會(huì)有什么樣的感受?如果你不是政府官員,只是一個(gè)打工的,相信你十有八九會(huì)覺得,這是在放屁。為什么,因?yàn)槟阍诤醯牟皇枪べY上漲的百分比的統(tǒng)計(jì),而是關(guān)心的是自己的工資上漲的幅度。而事實(shí),卻不是我們想象的那樣。
通過上面的案例,能透露出什么?透露出大數(shù)據(jù)的相對“無效性”。即使你用大數(shù)據(jù)能得到一些東西,但是你得出的東西對我來書毫無價(jià)值。這時(shí),你想到什么?管你大數(shù)據(jù)還是小數(shù)據(jù),多看一眼都是浪費(fèi)時(shí)間,甚至有時(shí)候是誤導(dǎo)。這就談到了我在上一篇博客中談到的大數(shù)據(jù)的缺陷。
一、 如果某個(gè)事務(wù)的關(guān)聯(lián)信息不能完全融入到“大數(shù)據(jù)”系統(tǒng),則大數(shù)據(jù)的可靠性,實(shí)用性就有待商榷。
二、 很多東西,我們根本不需要大數(shù)據(jù)來告訴我們。因?yàn)槲覀儽旧砭褪菍?shí)驗(yàn)者,本身就知道。我們苦惱的,是入股解決當(dāng)下面臨的困境。而大數(shù)據(jù)顯然無法在中短期給我們提供幫助。
因此,一定程度下,我們可以說:大數(shù)據(jù),也就是一個(gè)參考價(jià)值相對更高的一丁點(diǎn)數(shù)據(jù)而已。如果你所處在的行業(yè)變數(shù)太多或成本就是早已知道原因,只不過能力不足才面臨的困境。大數(shù)據(jù)對你而言,其實(shí)沒有那么大的價(jià)值。
當(dāng)我們把案例僅僅聚焦到商人在貨源采購上的單項(xiàng)的判斷上,并沒有涉及其他諸如競爭對手信息,以及當(dāng)?shù)剡\(yùn)營成本等因素。這意味著什么?意味著即使大數(shù)據(jù)可以應(yīng)用,但也局限在相對的“變量”不多的局部的層面。否則,它的的能效就遠(yuǎn)遠(yuǎn)配不上“大數(shù)據(jù)”的稱謂。
我們無意在本身上潑一些冷水,而是在某種程度上告誡我們,大數(shù)據(jù)即使在未來會(huì)越來越顯示出價(jià)值,但由于涉及面太廣。所以,除了部分部門,多數(shù)商人或個(gè)人其實(shí)沒有必要那么緊張大數(shù)據(jù)。除非你想借用,大數(shù)據(jù)分析獲得客觀的效益,否則,在相對細(xì)分的行業(yè),不能說雞肋,但想要起到非常大的作用,是很難的。
但是我們又無所適從嗎?來吧,看看下面的變化!
從起步,到加速
IDC(國際數(shù)據(jù)公司)估計(jì),全球2012年產(chǎn)生數(shù)據(jù)總量約2.8澤字節(jié)。有人計(jì)算,這相當(dāng)于3000多億部時(shí)長2小時(shí)的高清電影,連著看7000多萬年也看不完。而這還只是序曲。更大的浪潮在后頭。IDC預(yù)測,未來幾年,全球數(shù)據(jù)量每隔兩年翻一番,2020年達(dá)到40澤字節(jié)。大數(shù)據(jù)是推動(dòng)這場大變革的重要?jiǎng)恿?,將成為促進(jìn)經(jīng)濟(jì)社會(huì)轉(zhuǎn)型新的關(guān)鍵資源。搜集、分析和運(yùn)用指數(shù)級增長的龐大數(shù)據(jù),將催生創(chuàng)新,為各行各業(yè)提供新的發(fā)展機(jī)遇,給人們?nèi)粘I顜砀淖儭?
星巴克有意推出的“大數(shù)據(jù)咖啡杯”就是個(gè)小小的例子。美國媒體報(bào)道,這家咖啡連鎖巨頭打算試驗(yàn)在一些咖啡杯中裝上傳感器,收集??秃瓤Х人俣鹊葦?shù)據(jù),從而為喝咖啡較慢顧客提供保溫效果好的杯子,提高其滿意度和忠誠度。
大數(shù)據(jù)的本質(zhì)還不在于“大”,而是以嶄新的思維和技術(shù)去分析海量數(shù)據(jù),揭示其中隱藏的人類行為等模式,由此創(chuàng)造新產(chǎn)品和服務(wù),或是預(yù)測未來趨勢。
大數(shù)據(jù)被視為創(chuàng)新和生產(chǎn)力提升的下一個(gè)前沿,正成為國家競爭力的要素之一,在世界范圍內(nèi)日益受到重視。多國政府加大了對大數(shù)據(jù)發(fā)展的扶持力度,甚至上升到國家戰(zhàn)略的高度。2013年,圍繞大數(shù)據(jù)的國際競爭繼續(xù)加碼。
咨詢公司研究顯示,全球?qū)Υ髷?shù)據(jù)項(xiàng)目投資總額2012年已達(dá)45億歐元(約60億美元),預(yù)計(jì)2013、2014兩年均會(huì)保持約40%的增長速度。
在美國,大數(shù)據(jù)已由熱點(diǎn)詞匯變成重點(diǎn)項(xiàng)目。2012年3月,美國政府已公布2億美元的《大數(shù)據(jù)研究發(fā)展計(jì)劃》,2013年11月再度公布涉及各級政 府、私企、科研機(jī)構(gòu)的多個(gè)大數(shù)據(jù)研究項(xiàng)目。美國國家衛(wèi)生研究院、國家科學(xué)基金會(huì)等都參與其中,有評論稱之為美國大數(shù)據(jù)戰(zhàn)略2.0版。在英國,雖然經(jīng)濟(jì)不景氣、財(cái)政緊縮,但政府依然為大數(shù)據(jù)一擲千金。2013年初,英國商業(yè)、創(chuàng)新和技能部宣布將注資8億英鎊發(fā)展8類高新技術(shù),其中1.89億英鎊(約3億美元)用于大數(shù)據(jù)項(xiàng)目。
大數(shù)據(jù)在中國也已啟動(dòng)駛?cè)搿翱燔嚨馈保?、企業(yè)和科研院所正多方位布局。工信部的物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃,將信息處理技術(shù)作為四項(xiàng)關(guān)鍵創(chuàng)新技術(shù) 工程之一,其中包括海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘等。
英國雜志2013年3月刊登的研究發(fā)現(xiàn),只要有4個(gè)時(shí)間點(diǎn)和位置的數(shù)據(jù)就能確定一個(gè)人身份,準(zhǔn)確率高達(dá)95%。這表明,大數(shù)據(jù)足以將一個(gè)人“描畫”清晰,現(xiàn)有法律手段和核心技術(shù)對個(gè)人隱私的保護(hù)正在逐漸失效。
大數(shù)據(jù)專家喜歡用莎士比亞“凡是過去,皆為序曲”來形容大數(shù)據(jù)分析的必然,但大數(shù)據(jù)提供的也只是參考答案而非最終答案。無論在小數(shù)據(jù)時(shí)代還是大數(shù)據(jù)時(shí)代,探索和創(chuàng)新精神都不應(yīng)放棄,正如林肯所言,“預(yù)測未來最好的方法就是去創(chuàng)造未來”。而這一切切的改變說明:正能量。它能做的更好。
引進(jìn)大數(shù)據(jù)?
讓我們追到遠(yuǎn)古的需求,展現(xiàn)盡美。
在經(jīng)過瘋狂的一年概念炒作,我們開始進(jìn)入這個(gè)領(lǐng)域。它到底是什么,為何要引進(jìn)大數(shù)據(jù)。在許多客戶的咨詢過程中,大數(shù)據(jù)數(shù)據(jù)引入的必要性和價(jià)值意義的深層挖掘到底是什么??蛻粲袛?shù)據(jù),有平臺(tái),但不知道要不要上大數(shù)據(jù),怎么上,為何要上大數(shù)據(jù)以及大數(shù)據(jù)究竟能給我們帶來哪些價(jià)值和意義。
1、突破技術(shù)瓶頸
傳統(tǒng)輿情分析模式、大數(shù)據(jù)技術(shù)的成熟、RDBMS的局限。
互聯(lián)網(wǎng)技術(shù)催生出了大數(shù)據(jù)時(shí)代的到來,大數(shù)據(jù)時(shí)代的數(shù)據(jù)形態(tài)有四大特點(diǎn):
一、數(shù)據(jù)量巨大,非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長占總數(shù)量的80%到90%,相比于結(jié)構(gòu)化數(shù)據(jù)快10到50倍;
二、數(shù)據(jù)的異樣和多樣性,比如圖片、新聞、微博、博客、微信、買賣消息記錄,比傳統(tǒng)數(shù)據(jù)更重要更具數(shù)據(jù)復(fù)雜性,有時(shí)甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就可以具有顛覆性的價(jià)值;
三、價(jià)值密度低,大量的不相關(guān)信息,需要沙里淘金;
四、傳播速度快,因襲需要實(shí)時(shí)分析而非批量式分析。
大數(shù)據(jù)時(shí)代,面對海量快速更迭的信息,純手工監(jiān)測、分析、判斷互聯(lián)網(wǎng)已經(jīng)不太現(xiàn)實(shí)了。自動(dòng)化輿情軟件成為大數(shù)據(jù)環(huán)境下輿情監(jiān)測和分析的引擎。在2012年底,國家成立兩個(gè)大數(shù)據(jù)實(shí)驗(yàn)室,一個(gè)在中科院,一個(gè)在北航。有幸接觸到在中科院大數(shù)據(jù)實(shí)驗(yàn)室的蘭艷艷老師,他們現(xiàn)在正在做的就是新聞輿情監(jiān)測。輿情監(jiān)測可以設(shè)定一些和自己機(jī)構(gòu)、產(chǎn)業(yè)、范圍相關(guān)的關(guān)鍵詞。這里可以包括競爭者或是合作伙伴,然后要放在特定的網(wǎng)絡(luò)媒體中進(jìn)行搜索。所有“信息碎片”搜集完畢,開始聚合信息,判斷哪些和產(chǎn)品先關(guān),哪些和地區(qū)相關(guān),哪些跟自己相關(guān)。根據(jù)不同的因素,設(shè)置不同的維度。把這些信息進(jìn)行精確地采集和過濾,進(jìn)一步加工,分析,包括傳播統(tǒng)計(jì)和分析(涉及媒介分析、主體分析,傳播路徑分析,源頭分析),敏感度輿情,輿情信息傳播趨勢分析,與判所收集輿情信息的未來趨勢。在此基礎(chǔ)上產(chǎn)生輿情簡報(bào),日報(bào)或周報(bào),對階段性監(jiān)測到的輿情進(jìn)行統(tǒng)計(jì)和分析,包括輿情分布,熱點(diǎn)輿情排行,負(fù)面輿情排行,正面輿情排行等情況。
大數(shù)據(jù)時(shí)代的自身的特定也決定我們將面度巨大數(shù)據(jù)存儲(chǔ)的壓力,同時(shí)面臨海量數(shù)據(jù)信息的過濾,數(shù)據(jù)加工,數(shù)據(jù)分析和平臺(tái)運(yùn)算瓶頸。要想突破傳統(tǒng)技術(shù)的約束,我們必須開始關(guān)注大數(shù)據(jù)技術(shù),必須引進(jìn)大數(shù)據(jù)技術(shù)。
2、擺脫成本枷鎖
服務(wù)器硬件成本、操作系統(tǒng)成本、應(yīng)用軟件成本。
在面臨海量數(shù)據(jù)的到來,我們想到的第一問題,如何利用,如何處理。這在談到的大數(shù)據(jù)技術(shù),我們必須要明白一個(gè)道理,當(dāng)我們手上有了可以稱之為大數(shù)據(jù)的數(shù)據(jù)之前。我們這些數(shù)據(jù)收集之前,已經(jīng)開始探討這個(gè)問題了。所以,還有還有人在擔(dān)心,大數(shù)據(jù)技術(shù)如何實(shí)現(xiàn)的問題,已經(jīng)是落后別人幾大截了。Google在2009年初,就利用大數(shù)據(jù)思維,把5000萬條美國人最頻繁檢索的詞條和美國疾病控制中心在2003年至2008年間季節(jié)性流感傳播時(shí)期的數(shù)據(jù)進(jìn)行了比較,就已經(jīng)成功預(yù)測H1N1流感病毒的爆發(fā)。在搜索引擎技術(shù)上會(huì)談到分而治之的思想,Map和Reduce。Map的過程就是把大批量的任務(wù)分開成多個(gè)相同或不同的小份子,然后分發(fā)給不同的機(jī)器進(jìn)行處理。而Reduce的過程可以簡化理解成,小份子復(fù)合的過程。當(dāng)我們數(shù)據(jù)大到,我們的機(jī)器、服務(wù)器已經(jīng)沒有辦法進(jìn)行處理的時(shí)候,我們首先想到的就是Map/Reduce,而Google早已經(jīng)在第一代搜索引擎中提出這個(gè)思想,早已經(jīng)是、運(yùn)用在各個(gè)方面。所以,當(dāng)我們在和別人談到,如何利用數(shù)據(jù)的時(shí)候,首先,明確,現(xiàn)在互聯(lián)網(wǎng)業(yè)界已經(jīng)存在相當(dāng)成熟的經(jīng)驗(yàn),已經(jīng)運(yùn)用到大型互聯(lián)網(wǎng)公司。其次,我們必須要考慮的就是業(yè)務(wù),沒有業(yè)務(wù)數(shù)據(jù)也是毫無價(jià)值,建立在業(yè)務(wù)基礎(chǔ)上的大數(shù)據(jù)挖掘才能產(chǎn)生數(shù)據(jù)的價(jià)值。在這里,業(yè)務(wù)需求,已經(jīng)建立在技術(shù)和數(shù)據(jù)之上的首要位置。而且這一點(diǎn),常常是我們最容易忽視。
在基于傳統(tǒng)模式的輿情分析和歷史數(shù)據(jù)存儲(chǔ),是建立在高性能服務(wù)器硬件和昂貴的關(guān)系型數(shù)據(jù)基礎(chǔ)之上的。一方面,硬件技術(shù)掌握在幾大互聯(lián)網(wǎng)巨頭手中,服務(wù)器的性能是以昂貴的成本為支撐的;另一方面,硬件基礎(chǔ)之上的操作系統(tǒng)、應(yīng)用軟件和關(guān)系型數(shù)據(jù)庫也同樣掌握在幾大巨頭手中,同樣價(jià)格不菲。此外規(guī)模的擴(kuò)展、軟件的升級和每年的服務(wù)費(fèi)也是異常昂貴。在面臨上面的問題時(shí)候,傳統(tǒng)互聯(lián)網(wǎng)公司、電信公司等如何享用這些技術(shù),如何利用這些技術(shù)在自己的業(yè)務(wù)上產(chǎn)生價(jià)值。
在互聯(lián)網(wǎng)技術(shù)之上發(fā)展起來的大數(shù)據(jù),以開源的Hadoop、HBase為基礎(chǔ),以Hive、Sqoop、Pig、Flume等軟件為工具,建立在傳統(tǒng)X86-PC服務(wù)器上和開源Linux操作系統(tǒng)之上(接下來我們會(huì)更深入探討這些技術(shù)背后的原理)。一方面是的硬件成本得以降低。另一方面無須為操作系統(tǒng)和應(yīng)用軟件支付昂貴的License費(fèi)用??梢哉f,在大數(shù)據(jù)時(shí)代,人人都可以玩大數(shù)據(jù),人人都可以玩的起大數(shù)據(jù),人人都可以在很大程度上擺脫傳統(tǒng)IT廠商巨額的成本依賴。開源,使這一切開始變得簡單起來,不再是那么遙遙不可及。
3、促進(jìn)業(yè)務(wù)創(chuàng)新
業(yè)務(wù)拓展的需求、客戶服務(wù)的需求。
在上面,我們已經(jīng)談到了,“業(yè)務(wù)”已經(jīng)超越在技術(shù)和數(shù)據(jù)的地位之上。為什么我們把業(yè)務(wù)看的這么重要。因?yàn)?,一、業(yè)務(wù)是直接和用戶打交道,第一時(shí)間了解用戶所需,只有根據(jù)用戶所需,我們才能提供針對性的客服服務(wù)。二、業(yè)務(wù)是直接產(chǎn)生價(jià)值的。用戶是支付的初始,為什么用戶愿意支付?,愿意買?這已經(jīng)涉及到銷售與客戶關(guān)系管理方面。當(dāng)業(yè)務(wù)提出需求,后面才是數(shù)據(jù)的分析與利用,技術(shù)的支持與共享。拋開業(yè)務(wù)而談大數(shù)據(jù)的應(yīng)用,已經(jīng)是本末倒置,南轅北轍了。但,兩者之間又是相互依存,相互利用,技術(shù)提供更好的用戶體驗(yàn),數(shù)據(jù)來提供更精確的用戶群體。同時(shí),通過大數(shù)據(jù)的應(yīng)用可以衍生出新的服務(wù),新的產(chǎn)品,促進(jìn)業(yè)務(wù)與產(chǎn)品的創(chuàng)新。
企業(yè)大數(shù)據(jù)分析:趨勢
隨著企業(yè)用戶越來越多地需要連續(xù)不斷地訪問數(shù)據(jù),好的大數(shù)據(jù)工具集將以最低的成本和接近實(shí)時(shí)的速度提供可伸縮的、高性能的分析。通過分析這種數(shù)據(jù),企業(yè)可得到更大的智能以及競爭優(yōu)勢。接下來我們介紹一下,Hadoop和大數(shù)據(jù)專業(yè)廠商MapR共同創(chuàng)始人和首席執(zhí)行官約翰·施羅德(John Schroeder)對2014大數(shù)據(jù)市場的預(yù)測。
開始我們商業(yè)與技術(shù)之旅。這里只讀概念定義簡易介紹,后續(xù)的博客將持續(xù)更新對相關(guān)技術(shù)的概述。我們拭目以待吧!
1. SQL擁有大數(shù)據(jù)的最大潛力
基于Hadoop(分布式計(jì)算)的SQL的發(fā)展能夠讓商業(yè)分析師利用自己的技能和選擇的SQL工具執(zhí)行大數(shù)據(jù)項(xiàng)目。開發(fā)人員可以選擇Hbase、Hive、Drill和Impala等Apache項(xiàng)目,以及選擇Hadapt、HAWQ和Splice Machine等公司的專有技術(shù)。已經(jīng)基于實(shí)時(shí)大數(shù)據(jù)處理的Storm系統(tǒng),可以用實(shí)時(shí)推薦系統(tǒng)以及相關(guān)要求實(shí)時(shí)性高的系統(tǒng)。Hadoop集群下,同樣衍生出,另一種大數(shù)據(jù)分析框架,Spark,基于內(nèi)存的下一代大數(shù)據(jù)分析框架。還有熱門的Splunk 機(jī)器數(shù)據(jù)搜索引擎下的大數(shù)據(jù)分析。這一切都給我們打開了大門。
2. 盡管如此SQL還面臨挑戰(zhàn)
SQL需要數(shù)據(jù)結(jié)構(gòu)。而集中的結(jié)構(gòu)化數(shù)據(jù)可引起延遲并且需要人工管理。SQL還限制分析類型。過分強(qiáng)調(diào)SQL將延遲機(jī)構(gòu)全面利用其數(shù)據(jù)價(jià)值的努力和延遲反應(yīng)。這就引發(fā)了Nosql(非關(guān)系型數(shù)據(jù)庫)的到來。而在《NoSql精粹》里談到,持續(xù)增長的海量數(shù)據(jù),催生了一種名為NoSql的非關(guān)系型數(shù)據(jù)庫。該技術(shù)可以構(gòu)建出更高效、更易擴(kuò)展且更易編碼的系統(tǒng)。
3. 身份識(shí)別是主要的數(shù)據(jù)安全問題
隨著Hadoop(分布式計(jì)算)中提供的接入控制能力的猛烈攻擊,機(jī)構(gòu)迅速認(rèn)識(shí)到線路級身份識(shí)別是必要的基礎(chǔ)。沒有充分的身份識(shí)別,任何更高級的控制都很容易被繞過,妨礙預(yù)定的安全計(jì)劃。
4. 數(shù)據(jù)錯(cuò)誤變成學(xué)習(xí)機(jī)會(huì)
2014年機(jī)構(gòu)將出現(xiàn)許多數(shù)據(jù)錯(cuò)誤。數(shù)據(jù)錯(cuò)誤將表明基礎(chǔ)的來源系統(tǒng)的問題嗎?數(shù)據(jù)錯(cuò)誤是在下游分析中出現(xiàn)偏差導(dǎo)致的數(shù)據(jù)提取問題嗎?數(shù)據(jù)錯(cuò)誤將表明定義差異或者缺少跨部門和業(yè)務(wù)部門的一致性嗎?2014年將看到解決數(shù)據(jù)異常問題。
5. 出現(xiàn)可運(yùn)行的Hadoop
2014年將看到Hadoop在各個(gè)行業(yè)中的生產(chǎn)部署顯著增加。這將顯示出Hadoop在運(yùn)營中的實(shí)力。在那里,生產(chǎn)應(yīng)用與分析結(jié)合在一起能夠提供可以衡量的商業(yè)優(yōu)勢,如在客戶化零售建議、詐騙檢測和試驗(yàn)傳感器數(shù)據(jù)進(jìn)行規(guī)范的維護(hù)等應(yīng)用中提供這些優(yōu)勢。
6. 更多的數(shù)據(jù)倉庫將部署企業(yè)數(shù)據(jù)中心
數(shù)據(jù)中心把數(shù)據(jù)提取處理和數(shù)據(jù)從企業(yè)數(shù)據(jù)倉庫卸載到Hadoop。作為一個(gè)核心的中心企業(yè)中心,數(shù)據(jù)中心要便宜10倍,能夠?qū)︻~外的處理或者新的應(yīng)用進(jìn)行更多的分析。
7. 新的以數(shù)據(jù)為中心的應(yīng)用將成為強(qiáng)制性的
利用大數(shù)據(jù)的能力將在2014年成為競爭的武器。更多的公司將使用大數(shù)據(jù)和Hadoop準(zhǔn)確地針對個(gè)人消費(fèi)者的偏愛追逐賺錢的追加銷售和交叉銷售的機(jī)會(huì),更好地緩解風(fēng)險(xiǎn)以及減少生產(chǎn)和開銷成本。
8. 數(shù)據(jù)成為數(shù)據(jù)中心的核心
機(jī)構(gòu)將從開發(fā)者過渡到大數(shù)據(jù)計(jì)劃中。IT部門將越來越多地?fù)?dān)負(fù)定義支持多種應(yīng)用的數(shù)據(jù)基礎(chǔ)設(shè)施的任務(wù),把重點(diǎn)集中在部署、處理和保護(hù)一個(gè)機(jī)構(gòu)的核心資產(chǎn)所需要的基礎(chǔ)設(shè)施方面。
9. 搜索將成為非結(jié)構(gòu)化的查詢語言
2013年有大量的用于Hadoop的SQL計(jì)劃。2014年將是這種非結(jié)構(gòu)化查詢語言成為重點(diǎn)的一年。把搜索集成到Hadoop將為查找重要信息的企業(yè)用戶提供一種簡單和直觀的方法。搜索引擎還是包括推薦引擎在內(nèi)的許多發(fā)現(xiàn)和分析應(yīng)用的核心。
10. Hadoop將獲得地位
Hadoop將繼續(xù)取代其它IT開支,顛覆企業(yè)數(shù)據(jù)倉庫和企業(yè)存儲(chǔ)。例如,甲骨文的主要營收目標(biāo)在過去的10個(gè)季度里有5個(gè)季度沒有實(shí)現(xiàn)。Teradata在過去的5個(gè)季度有4個(gè)季度沒有實(shí)現(xiàn)營收和利潤目標(biāo)。
11. Hadoop仍需要幫助才能成為主流應(yīng)用
更多的機(jī)構(gòu)認(rèn)識(shí)到Apache Hadoop本身還沒有準(zhǔn)備好在企業(yè)應(yīng)用。ApacheHadoop不是為系統(tǒng)管理或者災(zāi)難恢復(fù)等統(tǒng)一企業(yè)IT流程設(shè)計(jì)的。企業(yè)將繼續(xù)推進(jìn)混合的解決方案,把架構(gòu)技術(shù)創(chuàng)新與ApacheHadoop的開源軟件結(jié)合在一起。
開啟另一扇窗
2013年12月19日,在亞馬遜AWS(Amazon Web Services)宣布通過“前店后廠”模式落地中國的第二天,亞馬遜云全球最高領(lǐng)袖、亞馬遜全球高級副總裁Andy Jassy高管一行來到北京航空航天大學(xué)。這場行程,似乎不僅是與北航校長,軟院院長就云計(jì)算之間的洽談以及合作交流,而是在背后又預(yù)示著基于云存儲(chǔ)技術(shù)的大數(shù)據(jù)平臺(tái)應(yīng)運(yùn)而生,且已經(jīng)落地實(shí)處。(文章來自:CDA數(shù)據(jù)分析師)
大數(shù)據(jù)的終結(jié)點(diǎn)在哪里,我們無從談起,但第一步要解決的問題是,存儲(chǔ)的問題。而云存儲(chǔ)似乎解決了這一難題。緊隨其后的是,云端一體,單機(jī)與集群與云存儲(chǔ)服務(wù)器之間的交互,這為我們再一次披上神秘又令人興奮的面紗。我們期待這與變革同步產(chǎn)生的興奮與愿景。讓我們趕上這個(gè)時(shí)代,打開礦山,揭開隱藏在內(nèi)部金子。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03