
大數(shù)據(jù)運(yùn)作機(jī)理與趨勢(shì)分析_數(shù)據(jù)分析師
大數(shù)據(jù)運(yùn)作機(jī)理
大數(shù)據(jù)的機(jī)理是什么?這個(gè)概念會(huì)更加模糊,更加具有不可定性。以至于,絕大多說的人至今還有找到其源頭。
打個(gè)比方:
現(xiàn)某大型電商的電子統(tǒng)計(jì)圖里清晰的顯示出,全國(guó)各達(dá)地區(qū)出現(xiàn)食鹽緊缺的旺盛需求,按照此需求的增長(zhǎng)速率,此電商必須立即補(bǔ)貨。否則,食鹽就會(huì)缺貨。作為此電商的決策人,你是補(bǔ)還是不補(bǔ)?
首先,我們要明白一點(diǎn),照常態(tài)來(lái)說,食鹽這種商品是沒有理由出現(xiàn)大規(guī)模銷量暴漲的,但是,系統(tǒng)匯總?cè)珖?guó)用戶的購(gòu)買信息繪制的銷售圖示是沒有錯(cuò)的。這時(shí)候,問題就出現(xiàn)了,如果按照銷售圖來(lái)預(yù)判未來(lái)趨勢(shì)采購(gòu)食鹽,如果銷售突然下滑,那么付出的物流以及成本損失該如何計(jì)算。
就在這個(gè)小案例中給我們透露出什么訊息?大數(shù)據(jù)在運(yùn)作的過程中,有它的弊端。而這個(gè)弊端是什么?是因?yàn)樗€不夠“大”。就像案例所說的,常態(tài)情況,食鹽是沒有理由大規(guī)模的銷量暴漲的,但你的銷售系統(tǒng)提供的報(bào)表,清晰的顯示如此,以及預(yù)測(cè)未來(lái)的食鹽銷量趨勢(shì)將會(huì)不斷增長(zhǎng)。而你僅僅只看到了數(shù)據(jù),就輕易的做出的采購(gòu)的決定。為什么,銷售提供的報(bào)表是一個(gè)可能增長(zhǎng)的信息,但這違背了你腦袋中的預(yù)判邏輯。所以,你對(duì)你的判斷也是是是而非,不確定。而能解決這一問題,就只有當(dāng)你的數(shù)據(jù)“大”到一定程度,以至于把全部變量全都覆蓋,而那些影響因素都在其中,此時(shí)的預(yù)測(cè)就可以足令人信服。
又例如:工信部調(diào)查,中國(guó)人均工資每年上漲7%,勉強(qiáng)應(yīng)對(duì)通貨膨脹。而且鏗鏘有詞的指出,經(jīng)過系統(tǒng)精心計(jì)算。
如果你看到上面的信息,你會(huì)有什么樣的感受?如果你不是政府官員,只是一個(gè)打工的,相信你十有八九會(huì)覺得,這是在放屁。為什么,因?yàn)槟阍诤醯牟皇枪べY上漲的百分比的統(tǒng)計(jì),而是關(guān)心的是自己的工資上漲的幅度。而事實(shí),卻不是我們想象的那樣。
通過上面的案例,能透露出什么?透露出大數(shù)據(jù)的相對(duì)“無(wú)效性”。即使你用大數(shù)據(jù)能得到一些東西,但是你得出的東西對(duì)我來(lái)書毫無(wú)價(jià)值。這時(shí),你想到什么?管你大數(shù)據(jù)還是小數(shù)據(jù),多看一眼都是浪費(fèi)時(shí)間,甚至有時(shí)候是誤導(dǎo)。這就談到了我在上一篇博客中談到的大數(shù)據(jù)的缺陷。
一、 如果某個(gè)事務(wù)的關(guān)聯(lián)信息不能完全融入到“大數(shù)據(jù)”系統(tǒng),則大數(shù)據(jù)的可靠性,實(shí)用性就有待商榷。
二、 很多東西,我們根本不需要大數(shù)據(jù)來(lái)告訴我們。因?yàn)槲覀儽旧砭褪菍?shí)驗(yàn)者,本身就知道。我們苦惱的,是入股解決當(dāng)下面臨的困境。而大數(shù)據(jù)顯然無(wú)法在中短期給我們提供幫助。
因此,一定程度下,我們可以說:大數(shù)據(jù),也就是一個(gè)參考價(jià)值相對(duì)更高的一丁點(diǎn)數(shù)據(jù)而已。如果你所處在的行業(yè)變數(shù)太多或成本就是早已知道原因,只不過能力不足才面臨的困境。大數(shù)據(jù)對(duì)你而言,其實(shí)沒有那么大的價(jià)值。
當(dāng)我們把案例僅僅聚焦到商人在貨源采購(gòu)上的單項(xiàng)的判斷上,并沒有涉及其他諸如競(jìng)爭(zhēng)對(duì)手信息,以及當(dāng)?shù)剡\(yùn)營(yíng)成本等因素。這意味著什么?意味著即使大數(shù)據(jù)可以應(yīng)用,但也局限在相對(duì)的“變量”不多的局部的層面。否則,它的的能效就遠(yuǎn)遠(yuǎn)配不上“大數(shù)據(jù)”的稱謂。
我們無(wú)意在本身上潑一些冷水,而是在某種程度上告誡我們,大數(shù)據(jù)即使在未來(lái)會(huì)越來(lái)越顯示出價(jià)值,但由于涉及面太廣。所以,除了部分部門,多數(shù)商人或個(gè)人其實(shí)沒有必要那么緊張大數(shù)據(jù)。除非你想借用,大數(shù)據(jù)分析獲得客觀的效益,否則,在相對(duì)細(xì)分的行業(yè),不能說雞肋,但想要起到非常大的作用,是很難的。
但是我們又無(wú)所適從嗎?來(lái)吧,看看下面的變化!
從起步,到加速
IDC(國(guó)際數(shù)據(jù)公司)估計(jì),全球2012年產(chǎn)生數(shù)據(jù)總量約2.8澤字節(jié)。有人計(jì)算,這相當(dāng)于3000多億部時(shí)長(zhǎng)2小時(shí)的高清電影,連著看7000多萬(wàn)年也看不完。而這還只是序曲。更大的浪潮在后頭。IDC預(yù)測(cè),未來(lái)幾年,全球數(shù)據(jù)量每隔兩年翻一番,2020年達(dá)到40澤字節(jié)。大數(shù)據(jù)是推動(dòng)這場(chǎng)大變革的重要?jiǎng)恿?,將成為促進(jìn)經(jīng)濟(jì)社會(huì)轉(zhuǎn)型新的關(guān)鍵資源。搜集、分析和運(yùn)用指數(shù)級(jí)增長(zhǎng)的龐大數(shù)據(jù),將催生創(chuàng)新,為各行各業(yè)提供新的發(fā)展機(jī)遇,給人們?nèi)粘I顜?lái)改變。
星巴克有意推出的“大數(shù)據(jù)咖啡杯”就是個(gè)小小的例子。美國(guó)媒體報(bào)道,這家咖啡連鎖巨頭打算試驗(yàn)在一些咖啡杯中裝上傳感器,收集??秃瓤Х人俣鹊葦?shù)據(jù),從而為喝咖啡較慢顧客提供保溫效果好的杯子,提高其滿意度和忠誠(chéng)度。
大數(shù)據(jù)的本質(zhì)還不在于“大”,而是以嶄新的思維和技術(shù)去分析海量數(shù)據(jù),揭示其中隱藏的人類行為等模式,由此創(chuàng)造新產(chǎn)品和服務(wù),或是預(yù)測(cè)未來(lái)趨勢(shì)。
大數(shù)據(jù)被視為創(chuàng)新和生產(chǎn)力提升的下一個(gè)前沿,正成為國(guó)家競(jìng)爭(zhēng)力的要素之一,在世界范圍內(nèi)日益受到重視。多國(guó)政府加大了對(duì)大數(shù)據(jù)發(fā)展的扶持力度,甚至上升到國(guó)家戰(zhàn)略的高度。2013年,圍繞大數(shù)據(jù)的國(guó)際競(jìng)爭(zhēng)繼續(xù)加碼。
咨詢公司研究顯示,全球?qū)Υ髷?shù)據(jù)項(xiàng)目投資總額2012年已達(dá)45億歐元(約60億美元),預(yù)計(jì)2013、2014兩年均會(huì)保持約40%的增長(zhǎng)速度。
在美國(guó),大數(shù)據(jù)已由熱點(diǎn)詞匯變成重點(diǎn)項(xiàng)目。2012年3月,美國(guó)政府已公布2億美元的《大數(shù)據(jù)研究發(fā)展計(jì)劃》,2013年11月再度公布涉及各級(jí)政 府、私企、科研機(jī)構(gòu)的多個(gè)大數(shù)據(jù)研究項(xiàng)目。美國(guó)國(guó)家衛(wèi)生研究院、國(guó)家科學(xué)基金會(huì)等都參與其中,有評(píng)論稱之為美國(guó)大數(shù)據(jù)戰(zhàn)略2.0版。在英國(guó),雖然經(jīng)濟(jì)不景氣、財(cái)政緊縮,但政府依然為大數(shù)據(jù)一擲千金。2013年初,英國(guó)商業(yè)、創(chuàng)新和技能部宣布將注資8億英鎊發(fā)展8類高新技術(shù),其中1.89億英鎊(約3億美元)用于大數(shù)據(jù)項(xiàng)目。
大數(shù)據(jù)在中國(guó)也已啟動(dòng)駛?cè)搿翱燔嚨馈保⑵髽I(yè)和科研院所正多方位布局。工信部的物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃,將信息處理技術(shù)作為四項(xiàng)關(guān)鍵創(chuàng)新技術(shù) 工程之一,其中包括海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘等。
英國(guó)雜志2013年3月刊登的研究發(fā)現(xiàn),只要有4個(gè)時(shí)間點(diǎn)和位置的數(shù)據(jù)就能確定一個(gè)人身份,準(zhǔn)確率高達(dá)95%。這表明,大數(shù)據(jù)足以將一個(gè)人“描畫”清晰,現(xiàn)有法律手段和核心技術(shù)對(duì)個(gè)人隱私的保護(hù)正在逐漸失效。
大數(shù)據(jù)專家喜歡用莎士比亞“凡是過去,皆為序曲”來(lái)形容大數(shù)據(jù)分析的必然,但大數(shù)據(jù)提供的也只是參考答案而非最終答案。無(wú)論在小數(shù)據(jù)時(shí)代還是大數(shù)據(jù)時(shí)代,探索和創(chuàng)新精神都不應(yīng)放棄,正如林肯所言,“預(yù)測(cè)未來(lái)最好的方法就是去創(chuàng)造未來(lái)”。而這一切切的改變說明:正能量。它能做的更好。
引進(jìn)大數(shù)據(jù)?
讓我們追到遠(yuǎn)古的需求,展現(xiàn)盡美。
在經(jīng)過瘋狂的一年概念炒作,我們開始進(jìn)入這個(gè)領(lǐng)域。它到底是什么,為何要引進(jìn)大數(shù)據(jù)。在許多客戶的咨詢過程中,大數(shù)據(jù)數(shù)據(jù)引入的必要性和價(jià)值意義的深層挖掘到底是什么??蛻粲袛?shù)據(jù),有平臺(tái),但不知道要不要上大數(shù)據(jù),怎么上,為何要上大數(shù)據(jù)以及大數(shù)據(jù)究竟能給我們帶來(lái)哪些價(jià)值和意義。
1、突破技術(shù)瓶頸
傳統(tǒng)輿情分析模式、大數(shù)據(jù)技術(shù)的成熟、RDBMS的局限。
互聯(lián)網(wǎng)技術(shù)催生出了大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)時(shí)代的數(shù)據(jù)形態(tài)有四大特點(diǎn):
一、數(shù)據(jù)量巨大,非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長(zhǎng)占總數(shù)量的80%到90%,相比于結(jié)構(gòu)化數(shù)據(jù)快10到50倍;
二、數(shù)據(jù)的異樣和多樣性,比如圖片、新聞、微博、博客、微信、買賣消息記錄,比傳統(tǒng)數(shù)據(jù)更重要更具數(shù)據(jù)復(fù)雜性,有時(shí)甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就可以具有顛覆性的價(jià)值;
三、價(jià)值密度低,大量的不相關(guān)信息,需要沙里淘金;
四、傳播速度快,因襲需要實(shí)時(shí)分析而非批量式分析。
大數(shù)據(jù)時(shí)代,面對(duì)海量快速更迭的信息,純手工監(jiān)測(cè)、分析、判斷互聯(lián)網(wǎng)已經(jīng)不太現(xiàn)實(shí)了。自動(dòng)化輿情軟件成為大數(shù)據(jù)環(huán)境下輿情監(jiān)測(cè)和分析的引擎。在2012年底,國(guó)家成立兩個(gè)大數(shù)據(jù)實(shí)驗(yàn)室,一個(gè)在中科院,一個(gè)在北航。有幸接觸到在中科院大數(shù)據(jù)實(shí)驗(yàn)室的蘭艷艷老師,他們現(xiàn)在正在做的就是新聞?shì)浨楸O(jiān)測(cè)。輿情監(jiān)測(cè)可以設(shè)定一些和自己機(jī)構(gòu)、產(chǎn)業(yè)、范圍相關(guān)的關(guān)鍵詞。這里可以包括競(jìng)爭(zhēng)者或是合作伙伴,然后要放在特定的網(wǎng)絡(luò)媒體中進(jìn)行搜索。所有“信息碎片”搜集完畢,開始聚合信息,判斷哪些和產(chǎn)品先關(guān),哪些和地區(qū)相關(guān),哪些跟自己相關(guān)。根據(jù)不同的因素,設(shè)置不同的維度。把這些信息進(jìn)行精確地采集和過濾,進(jìn)一步加工,分析,包括傳播統(tǒng)計(jì)和分析(涉及媒介分析、主體分析,傳播路徑分析,源頭分析),敏感度輿情,輿情信息傳播趨勢(shì)分析,與判所收集輿情信息的未來(lái)趨勢(shì)。在此基礎(chǔ)上產(chǎn)生輿情簡(jiǎn)報(bào),日?qǐng)?bào)或周報(bào),對(duì)階段性監(jiān)測(cè)到的輿情進(jìn)行統(tǒng)計(jì)和分析,包括輿情分布,熱點(diǎn)輿情排行,負(fù)面輿情排行,正面輿情排行等情況。
大數(shù)據(jù)時(shí)代的自身的特定也決定我們將面度巨大數(shù)據(jù)存儲(chǔ)的壓力,同時(shí)面臨海量數(shù)據(jù)信息的過濾,數(shù)據(jù)加工,數(shù)據(jù)分析和平臺(tái)運(yùn)算瓶頸。要想突破傳統(tǒng)技術(shù)的約束,我們必須開始關(guān)注大數(shù)據(jù)技術(shù),必須引進(jìn)大數(shù)據(jù)技術(shù)。
2、擺脫成本枷鎖
服務(wù)器硬件成本、操作系統(tǒng)成本、應(yīng)用軟件成本。
在面臨海量數(shù)據(jù)的到來(lái),我們想到的第一問題,如何利用,如何處理。這在談到的大數(shù)據(jù)技術(shù),我們必須要明白一個(gè)道理,當(dāng)我們手上有了可以稱之為大數(shù)據(jù)的數(shù)據(jù)之前。我們這些數(shù)據(jù)收集之前,已經(jīng)開始探討這個(gè)問題了。所以,還有還有人在擔(dān)心,大數(shù)據(jù)技術(shù)如何實(shí)現(xiàn)的問題,已經(jīng)是落后別人幾大截了。Google在2009年初,就利用大數(shù)據(jù)思維,把5000萬(wàn)條美國(guó)人最頻繁檢索的詞條和美國(guó)疾病控制中心在2003年至2008年間季節(jié)性流感傳播時(shí)期的數(shù)據(jù)進(jìn)行了比較,就已經(jīng)成功預(yù)測(cè)H1N1流感病毒的爆發(fā)。在搜索引擎技術(shù)上會(huì)談到分而治之的思想,Map和Reduce。Map的過程就是把大批量的任務(wù)分開成多個(gè)相同或不同的小份子,然后分發(fā)給不同的機(jī)器進(jìn)行處理。而Reduce的過程可以簡(jiǎn)化理解成,小份子復(fù)合的過程。當(dāng)我們數(shù)據(jù)大到,我們的機(jī)器、服務(wù)器已經(jīng)沒有辦法進(jìn)行處理的時(shí)候,我們首先想到的就是Map/Reduce,而Google早已經(jīng)在第一代搜索引擎中提出這個(gè)思想,早已經(jīng)是、運(yùn)用在各個(gè)方面。所以,當(dāng)我們?cè)诤蛣e人談到,如何利用數(shù)據(jù)的時(shí)候,首先,明確,現(xiàn)在互聯(lián)網(wǎng)業(yè)界已經(jīng)存在相當(dāng)成熟的經(jīng)驗(yàn),已經(jīng)運(yùn)用到大型互聯(lián)網(wǎng)公司。其次,我們必須要考慮的就是業(yè)務(wù),沒有業(yè)務(wù)數(shù)據(jù)也是毫無(wú)價(jià)值,建立在業(yè)務(wù)基礎(chǔ)上的大數(shù)據(jù)挖掘才能產(chǎn)生數(shù)據(jù)的價(jià)值。在這里,業(yè)務(wù)需求,已經(jīng)建立在技術(shù)和數(shù)據(jù)之上的首要位置。而且這一點(diǎn),常常是我們最容易忽視。
在基于傳統(tǒng)模式的輿情分析和歷史數(shù)據(jù)存儲(chǔ),是建立在高性能服務(wù)器硬件和昂貴的關(guān)系型數(shù)據(jù)基礎(chǔ)之上的。一方面,硬件技術(shù)掌握在幾大互聯(lián)網(wǎng)巨頭手中,服務(wù)器的性能是以昂貴的成本為支撐的;另一方面,硬件基礎(chǔ)之上的操作系統(tǒng)、應(yīng)用軟件和關(guān)系型數(shù)據(jù)庫(kù)也同樣掌握在幾大巨頭手中,同樣價(jià)格不菲。此外規(guī)模的擴(kuò)展、軟件的升級(jí)和每年的服務(wù)費(fèi)也是異常昂貴。在面臨上面的問題時(shí)候,傳統(tǒng)互聯(lián)網(wǎng)公司、電信公司等如何享用這些技術(shù),如何利用這些技術(shù)在自己的業(yè)務(wù)上產(chǎn)生價(jià)值。
在互聯(lián)網(wǎng)技術(shù)之上發(fā)展起來(lái)的大數(shù)據(jù),以開源的Hadoop、HBase為基礎(chǔ),以Hive、Sqoop、Pig、Flume等軟件為工具,建立在傳統(tǒng)X86-PC服務(wù)器上和開源Linux操作系統(tǒng)之上(接下來(lái)我們會(huì)更深入探討這些技術(shù)背后的原理)。一方面是的硬件成本得以降低。另一方面無(wú)須為操作系統(tǒng)和應(yīng)用軟件支付昂貴的License費(fèi)用。可以說,在大數(shù)據(jù)時(shí)代,人人都可以玩大數(shù)據(jù),人人都可以玩的起大數(shù)據(jù),人人都可以在很大程度上擺脫傳統(tǒng)IT廠商巨額的成本依賴。開源,使這一切開始變得簡(jiǎn)單起來(lái),不再是那么遙遙不可及。
3、促進(jìn)業(yè)務(wù)創(chuàng)新
業(yè)務(wù)拓展的需求、客戶服務(wù)的需求。
在上面,我們已經(jīng)談到了,“業(yè)務(wù)”已經(jīng)超越在技術(shù)和數(shù)據(jù)的地位之上。為什么我們把業(yè)務(wù)看的這么重要。因?yàn)?,一、業(yè)務(wù)是直接和用戶打交道,第一時(shí)間了解用戶所需,只有根據(jù)用戶所需,我們才能提供針對(duì)性的客服服務(wù)。二、業(yè)務(wù)是直接產(chǎn)生價(jià)值的。用戶是支付的初始,為什么用戶愿意支付?,愿意買?這已經(jīng)涉及到銷售與客戶關(guān)系管理方面。當(dāng)業(yè)務(wù)提出需求,后面才是數(shù)據(jù)的分析與利用,技術(shù)的支持與共享。拋開業(yè)務(wù)而談大數(shù)據(jù)的應(yīng)用,已經(jīng)是本末倒置,南轅北轍了。但,兩者之間又是相互依存,相互利用,技術(shù)提供更好的用戶體驗(yàn),數(shù)據(jù)來(lái)提供更精確的用戶群體。同時(shí),通過大數(shù)據(jù)的應(yīng)用可以衍生出新的服務(wù),新的產(chǎn)品,促進(jìn)業(yè)務(wù)與產(chǎn)品的創(chuàng)新。
企業(yè)大數(shù)據(jù)分析:趨勢(shì)
隨著企業(yè)用戶越來(lái)越多地需要連續(xù)不斷地訪問數(shù)據(jù),好的大數(shù)據(jù)工具集將以最低的成本和接近實(shí)時(shí)的速度提供可伸縮的、高性能的分析。通過分析這種數(shù)據(jù),企業(yè)可得到更大的智能以及競(jìng)爭(zhēng)優(yōu)勢(shì)。接下來(lái)我們介紹一下,Hadoop和大數(shù)據(jù)專業(yè)廠商MapR共同創(chuàng)始人和首席執(zhí)行官約翰·施羅德(John Schroeder)對(duì)2014大數(shù)據(jù)市場(chǎng)的預(yù)測(cè)。
開始我們商業(yè)與技術(shù)之旅。這里只讀概念定義簡(jiǎn)易介紹,后續(xù)的博客將持續(xù)更新對(duì)相關(guān)技術(shù)的概述。我們拭目以待吧!
1. SQL擁有大數(shù)據(jù)的最大潛力
基于Hadoop(分布式計(jì)算)的SQL的發(fā)展能夠讓商業(yè)分析師利用自己的技能和選擇的SQL工具執(zhí)行大數(shù)據(jù)項(xiàng)目。開發(fā)人員可以選擇Hbase、Hive、Drill和Impala等Apache項(xiàng)目,以及選擇Hadapt、HAWQ和Splice Machine等公司的專有技術(shù)。已經(jīng)基于實(shí)時(shí)大數(shù)據(jù)處理的Storm系統(tǒng),可以用實(shí)時(shí)推薦系統(tǒng)以及相關(guān)要求實(shí)時(shí)性高的系統(tǒng)。Hadoop集群下,同樣衍生出,另一種大數(shù)據(jù)分析框架,Spark,基于內(nèi)存的下一代大數(shù)據(jù)分析框架。還有熱門的Splunk 機(jī)器數(shù)據(jù)搜索引擎下的大數(shù)據(jù)分析。這一切都給我們打開了大門。
2. 盡管如此SQL還面臨挑戰(zhàn)
SQL需要數(shù)據(jù)結(jié)構(gòu)。而集中的結(jié)構(gòu)化數(shù)據(jù)可引起延遲并且需要人工管理。SQL還限制分析類型。過分強(qiáng)調(diào)SQL將延遲機(jī)構(gòu)全面利用其數(shù)據(jù)價(jià)值的努力和延遲反應(yīng)。這就引發(fā)了Nosql(非關(guān)系型數(shù)據(jù)庫(kù))的到來(lái)。而在《NoSql精粹》里談到,持續(xù)增長(zhǎng)的海量數(shù)據(jù),催生了一種名為NoSql的非關(guān)系型數(shù)據(jù)庫(kù)。該技術(shù)可以構(gòu)建出更高效、更易擴(kuò)展且更易編碼的系統(tǒng)。
3. 身份識(shí)別是主要的數(shù)據(jù)安全問題
隨著Hadoop(分布式計(jì)算)中提供的接入控制能力的猛烈攻擊,機(jī)構(gòu)迅速認(rèn)識(shí)到線路級(jí)身份識(shí)別是必要的基礎(chǔ)。沒有充分的身份識(shí)別,任何更高級(jí)的控制都很容易被繞過,妨礙預(yù)定的安全計(jì)劃。
4. 數(shù)據(jù)錯(cuò)誤變成學(xué)習(xí)機(jī)會(huì)
2014年機(jī)構(gòu)將出現(xiàn)許多數(shù)據(jù)錯(cuò)誤。數(shù)據(jù)錯(cuò)誤將表明基礎(chǔ)的來(lái)源系統(tǒng)的問題嗎?數(shù)據(jù)錯(cuò)誤是在下游分析中出現(xiàn)偏差導(dǎo)致的數(shù)據(jù)提取問題嗎?數(shù)據(jù)錯(cuò)誤將表明定義差異或者缺少跨部門和業(yè)務(wù)部門的一致性嗎?2014年將看到解決數(shù)據(jù)異常問題。
5. 出現(xiàn)可運(yùn)行的Hadoop
2014年將看到Hadoop在各個(gè)行業(yè)中的生產(chǎn)部署顯著增加。這將顯示出Hadoop在運(yùn)營(yíng)中的實(shí)力。在那里,生產(chǎn)應(yīng)用與分析結(jié)合在一起能夠提供可以衡量的商業(yè)優(yōu)勢(shì),如在客戶化零售建議、詐騙檢測(cè)和試驗(yàn)傳感器數(shù)據(jù)進(jìn)行規(guī)范的維護(hù)等應(yīng)用中提供這些優(yōu)勢(shì)。
6. 更多的數(shù)據(jù)倉(cāng)庫(kù)將部署企業(yè)數(shù)據(jù)中心
數(shù)據(jù)中心把數(shù)據(jù)提取處理和數(shù)據(jù)從企業(yè)數(shù)據(jù)倉(cāng)庫(kù)卸載到Hadoop。作為一個(gè)核心的中心企業(yè)中心,數(shù)據(jù)中心要便宜10倍,能夠?qū)︻~外的處理或者新的應(yīng)用進(jìn)行更多的分析。
7. 新的以數(shù)據(jù)為中心的應(yīng)用將成為強(qiáng)制性的
利用大數(shù)據(jù)的能力將在2014年成為競(jìng)爭(zhēng)的武器。更多的公司將使用大數(shù)據(jù)和Hadoop準(zhǔn)確地針對(duì)個(gè)人消費(fèi)者的偏愛追逐賺錢的追加銷售和交叉銷售的機(jī)會(huì),更好地緩解風(fēng)險(xiǎn)以及減少生產(chǎn)和開銷成本。
8. 數(shù)據(jù)成為數(shù)據(jù)中心的核心
機(jī)構(gòu)將從開發(fā)者過渡到大數(shù)據(jù)計(jì)劃中。IT部門將越來(lái)越多地?fù)?dān)負(fù)定義支持多種應(yīng)用的數(shù)據(jù)基礎(chǔ)設(shè)施的任務(wù),把重點(diǎn)集中在部署、處理和保護(hù)一個(gè)機(jī)構(gòu)的核心資產(chǎn)所需要的基礎(chǔ)設(shè)施方面。
9. 搜索將成為非結(jié)構(gòu)化的查詢語(yǔ)言
2013年有大量的用于Hadoop的SQL計(jì)劃。2014年將是這種非結(jié)構(gòu)化查詢語(yǔ)言成為重點(diǎn)的一年。把搜索集成到Hadoop將為查找重要信息的企業(yè)用戶提供一種簡(jiǎn)單和直觀的方法。搜索引擎還是包括推薦引擎在內(nèi)的許多發(fā)現(xiàn)和分析應(yīng)用的核心。
10. Hadoop將獲得地位
Hadoop將繼續(xù)取代其它IT開支,顛覆企業(yè)數(shù)據(jù)倉(cāng)庫(kù)和企業(yè)存儲(chǔ)。例如,甲骨文的主要營(yíng)收目標(biāo)在過去的10個(gè)季度里有5個(gè)季度沒有實(shí)現(xiàn)。Teradata在過去的5個(gè)季度有4個(gè)季度沒有實(shí)現(xiàn)營(yíng)收和利潤(rùn)目標(biāo)。
11. Hadoop仍需要幫助才能成為主流應(yīng)用
更多的機(jī)構(gòu)認(rèn)識(shí)到Apache Hadoop本身還沒有準(zhǔn)備好在企業(yè)應(yīng)用。ApacheHadoop不是為系統(tǒng)管理或者災(zāi)難恢復(fù)等統(tǒng)一企業(yè)IT流程設(shè)計(jì)的。企業(yè)將繼續(xù)推進(jìn)混合的解決方案,把架構(gòu)技術(shù)創(chuàng)新與ApacheHadoop的開源軟件結(jié)合在一起。
開啟另一扇窗
2013年12月19日,在亞馬遜AWS(Amazon Web Services)宣布通過“前店后廠”模式落地中國(guó)的第二天,亞馬遜云全球最高領(lǐng)袖、亞馬遜全球高級(jí)副總裁Andy Jassy高管一行來(lái)到北京航空航天大學(xué)。這場(chǎng)行程,似乎不僅是與北航校長(zhǎng),軟院院長(zhǎng)就云計(jì)算之間的洽談以及合作交流,而是在背后又預(yù)示著基于云存儲(chǔ)技術(shù)的大數(shù)據(jù)平臺(tái)應(yīng)運(yùn)而生,且已經(jīng)落地實(shí)處。(文章來(lái)自:CDA數(shù)據(jù)分析師)
大數(shù)據(jù)的終結(jié)點(diǎn)在哪里,我們無(wú)從談起,但第一步要解決的問題是,存儲(chǔ)的問題。而云存儲(chǔ)似乎解決了這一難題。緊隨其后的是,云端一體,單機(jī)與集群與云存儲(chǔ)服務(wù)器之間的交互,這為我們?cè)僖淮闻仙衩赜至钊伺d奮的面紗。我們期待這與變革同步產(chǎn)生的興奮與愿景。讓我們趕上這個(gè)時(shí)代,打開礦山,揭開隱藏在內(nèi)部金子。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10