99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線(xiàn)電話(huà):13121318867

登錄
首頁(yè)精彩閱讀迎接大數(shù)據(jù),這里的黎明真熱鬧(SAP篇)
迎接大數(shù)據(jù),這里的黎明真熱鬧(SAP篇)
2015-01-06
收藏

迎接大數(shù)據(jù),這里的黎明真熱鬧(SAP篇)


SAP不久前才收了Sybase,實(shí)力充盈了不少。經(jīng)過(guò)幾輪收購(gòu)整合,BI場(chǎng)上的真正玩家越來(lái)越少了。不知道那些產(chǎn)品線(xiàn)單一的刺客們還能獨(dú)行多久。
一個(gè)新的時(shí)代已然披紅掛彩鞭炮齊鳴地揭開(kāi)了序幕。

這里的黎明真熱鬧

信息時(shí)代圓滿(mǎn)落幕,智能時(shí)代破曉而出。寬帶通信、智能終端、社交網(wǎng)絡(luò)、量化分析重新定義了生產(chǎn)商、分銷(xiāo)商和消費(fèi)者之間的關(guān)系。數(shù)據(jù)在容量、種類(lèi)、速度方面的增長(zhǎng)帶來(lái)了新的挑戰(zhàn),而這挑戰(zhàn)中蘊(yùn)藏著巨大的商機(jī)。

信息的獲取、分析和管理是智能時(shí)代的主要任務(wù)。那些還在沉睡的組織,它們可能馬上就會(huì)被數(shù)據(jù)壓住,然后從噩夢(mèng)中驚醒,不堪重負(fù),氣喘吁吁。而那些天還沒(méi)亮就行動(dòng)起來(lái)的勤勞小鳥(niǎo),不僅能抓住數(shù)據(jù),還會(huì)進(jìn)化出量化分析能力,并由此做出正確決策,取得競(jìng)爭(zhēng)優(yōu)勢(shì)。在又一次商業(yè)大潮來(lái)臨之際占得先機(jī),有效分配資源,進(jìn)行可持續(xù)、安全的管理,為自己的社區(qū)提供更好的產(chǎn)品或服務(wù)。

大數(shù)據(jù)的動(dòng)力

為什么是現(xiàn)在?它有什么新鮮玩意兒?

商業(yè)和公共組織要在全業(yè)務(wù)流程上投資大數(shù)據(jù)解決方案有各種各樣的原因。盡管在各種大數(shù)據(jù)會(huì)議和與大數(shù)據(jù)相關(guān)的文章中最引人注目的是社交網(wǎng)站產(chǎn)生的數(shù)據(jù),但經(jīng)過(guò)調(diào)查,業(yè)務(wù)數(shù)據(jù)分析才是推動(dòng)組織采用大數(shù)據(jù)解決方案的根本原因。

圖1 使用BI、量化分析和大數(shù)據(jù)技術(shù)主要?jiǎng)恿Φ恼{(diào)查反饋占比

然而,不管上圖中反饋結(jié)果的評(píng)級(jí)如何,我們都必須意識(shí)到,大數(shù)據(jù)所涉及的業(yè)務(wù)流程、技術(shù)和專(zhuān)業(yè)知識(shí)范圍都很廣泛。正因如此,大數(shù)據(jù)幾乎帶來(lái)了無(wú)限的機(jī)遇,但因?yàn)樘斓靥^(guò)廣闊,指望著大有可為的青年們也會(huì)覺(jué)得有點(diǎn)找不著北。

大數(shù)據(jù)解決方案的終極目標(biāo),是為組織中所有層面的決策者提供更強(qiáng)大、更快速、更全面的洞察力,從而讓他們做出更好的決策。

IDC 決策管理框架

IDC 決策管理框架是一個(gè)評(píng)估這些機(jī)遇的工具。這個(gè)框架可以應(yīng)用到大數(shù)據(jù)用例上,并能描繪三種決策類(lèi)型和每種決策類(lèi)型的四個(gè)主要變量,如圖所示:

圖2 IDC 決策管理框架

戰(zhàn)略決策因?yàn)槠渲芷陂L(zhǎng),未知因素多,所以范圍最廣、風(fēng)險(xiǎn)最高。戰(zhàn)略決策的數(shù)量相對(duì)來(lái)說(shuō)也很少;它們要求內(nèi)部決策者和外部決策者之間要有較高的協(xié)作水平,而且實(shí)現(xiàn)自動(dòng)化的可能性也很低。而另一端的戰(zhàn)術(shù)決策可能是由一線(xiàn)員工或系統(tǒng)完成的。在一個(gè)時(shí)間周期內(nèi)會(huì)有很多這種決策,并且所有決策幾乎都沒(méi)什么風(fēng)險(xiǎn),也易于自動(dòng)化。這些決定都是在現(xiàn)場(chǎng),在工作流當(dāng)中做出的,因此決策過(guò)程中發(fā)生協(xié)作的可能性很小。在IDC 決策管理框架中,運(yùn)營(yíng)決策介于兩者之間。

每個(gè)決策類(lèi)型相關(guān)的人群也不同。運(yùn)營(yíng)決策是由業(yè)務(wù)分析師或定量分析師跟管理層一起做的,戰(zhàn)略決策是高管做的,戰(zhàn)術(shù)決策是一線(xiàn)員工或自動(dòng)化系統(tǒng)、應(yīng)用程序或機(jī)器做的。某一級(jí)決策的輸出會(huì)變成下一級(jí)決策的輸入。除了要考慮人員、資金和業(yè)務(wù)流程之外,理解組織的決策需求是邁向創(chuàng)建業(yè)務(wù)分析戰(zhàn)略的重要一步,而業(yè)務(wù)分析戰(zhàn)略是考慮所有相關(guān)技術(shù)的根本。

最后,不同的決策類(lèi)型和決策者可能會(huì)要求不同的數(shù)據(jù)和數(shù)據(jù)技術(shù)支持。這些技術(shù)包括數(shù)據(jù)收集、數(shù)據(jù)監(jiān)測(cè)、數(shù)據(jù)管理、數(shù)據(jù)分析和數(shù)據(jù)傳播等。戰(zhàn)術(shù)決策通常都是基于對(duì)實(shí)時(shí)數(shù)據(jù)流的監(jiān)測(cè),所采取的行動(dòng)也是遵照預(yù)先定義好的規(guī)則。運(yùn)營(yíng)決策可能需要對(duì)海量的多種結(jié)構(gòu)數(shù)據(jù)進(jìn)行深入分析。戰(zhàn)略決策可能需要對(duì)即時(shí)系統(tǒng)根據(jù)情景所作出的響應(yīng)進(jìn)行快速評(píng)估,以便能夠改善風(fēng)險(xiǎn)管理。

滿(mǎn)足所有決策者的需求是一項(xiàng)艱巨的任務(wù),不可能僅憑一種技術(shù)或一個(gè)項(xiàng)目就可以完成。

大數(shù)據(jù)的挑戰(zhàn)

決定哪些數(shù)據(jù)相關(guān)是個(gè)難題。

2012年初IDC發(fā)起的一項(xiàng)調(diào)查表明,被提到最多的困難是決定哪些數(shù)據(jù)相關(guān)。IT和業(yè)務(wù)部門(mén)都聲稱(chēng)他們需要重新評(píng)估組織內(nèi)部為支持決策過(guò)程所評(píng)測(cè)的數(shù)據(jù)。很多組織都在重新思考如何分析現(xiàn)有數(shù)據(jù)和新的數(shù)據(jù)源,以改變或改善決策支持、決策自動(dòng)化和績(jī)效管理流程。量化的思想或許會(huì)對(duì)解決這個(gè)難題有所幫助。

此外,技術(shù)基礎(chǔ)設(shè)施的成本,缺乏合適的分析人員和IT人員,缺乏業(yè)務(wù)支持,或理解不了大數(shù)據(jù)所能帶來(lái)的好處,這些挑戰(zhàn)都在阻礙著他們抓住智能時(shí)代帶來(lái)的機(jī)遇。

這些挑戰(zhàn)表明許多大數(shù)據(jù)應(yīng)用都缺乏公認(rèn)的最佳實(shí)踐。你有數(shù)據(jù)可以收集、分析,并按分析結(jié)果所做的決策采取行動(dòng)。然而能否實(shí)現(xiàn)目標(biāo)卻取決于:

  • 組織是否具備確定新指標(biāo)的能力;
  • 組織雇傭的員工是否有稱(chēng)職的分析技能、信息管理和系統(tǒng)管理技能;
  • 組織的文化是否由分析驅(qū)動(dòng),能把分析結(jié)果當(dāng)做可信的輸入來(lái)做出決策;
  • 組織是否有合適的技術(shù)可用。

大數(shù)據(jù)對(duì)技術(shù)的需求

什么是大數(shù)據(jù)

IDC對(duì)大數(shù)據(jù)技術(shù)的定義:為了能用經(jīng)濟(jì)有效的辦法從各式各樣的海量數(shù)據(jù)里提煉價(jià)值而開(kāi)發(fā)出來(lái)的新技術(shù),包括硬件、軟件,和服務(wù)。它們能高速地完成數(shù)據(jù)捕獲,發(fā)現(xiàn)和分析任務(wù),對(duì)符合“4V”特性的數(shù)據(jù)進(jìn)行整合、組織、管理、分析和呈現(xiàn)。

4V指數(shù)據(jù)量(volume), 數(shù)據(jù)種類(lèi)(variety),數(shù)據(jù)產(chǎn)生和處理的速度( velocity), 數(shù)據(jù)的價(jià)值(value)

數(shù)據(jù)量:大小并不是特別重要

盡管大數(shù)據(jù)里的“大”暗指數(shù)據(jù)的量大,但我們必須明白“大”是一個(gè)相對(duì)的概念。某些行業(yè)和組織可能連GB或TB的數(shù)據(jù)都很少見(jiàn),而社交網(wǎng)站的數(shù)據(jù)則動(dòng)輒就達(dá)到了PB或EB的級(jí)別。不管怎樣,那些看起來(lái)不大的應(yīng)用程序進(jìn)行信息處理和分析的緊張復(fù)雜程度可能完全符合我們對(duì)大數(shù)據(jù)應(yīng)用的定義。金融服務(wù)業(yè)就能很好地說(shuō)明這個(gè)問(wèn)題。在某些大數(shù)據(jù)處理活動(dòng)中,所涉及的記錄數(shù)可能有上百萬(wàn)甚至上億行,但每條記錄的長(zhǎng)度可能只有幾個(gè)字節(jié)(比如股票行情信息)。相反,email歸檔累計(jì)起來(lái)可能有幾個(gè)PB的數(shù)據(jù),其中包含著高端客戶(hù)的建議或抱怨,項(xiàng)目的記錄,法務(wù)記錄,合同和提案等各種數(shù)據(jù)。郵件歸檔通常能最準(zhǔn)確地反映出未決的及當(dāng)前的業(yè)務(wù)狀況,但只有經(jīng)過(guò)排序和挖掘之后,才能發(fā)現(xiàn)其中的價(jià)值。產(chǎn)品設(shè)計(jì)制造也是這樣,比如在汽車(chē)和航空公司里,要對(duì)成百上千個(gè)虛擬原型進(jìn)行評(píng)估,以便找出最佳的車(chē)輛(飛行器)設(shè)計(jì)。還有大型科學(xué)實(shí)驗(yàn),每天要產(chǎn)生PB級(jí)的混合數(shù)據(jù),作為復(fù)雜的模擬數(shù)據(jù)輸入計(jì)算模型中。

數(shù)據(jù)種類(lèi):重要的是數(shù)據(jù)源和數(shù)據(jù)格式

多樣性是大數(shù)據(jù)的關(guān)鍵屬性。是否從多種數(shù)據(jù)源對(duì)多種格式的數(shù)據(jù)進(jìn)行整合,是判斷一個(gè)應(yīng)用程序能否被稱(chēng)為大數(shù)據(jù)應(yīng)用的決定性條件。

大數(shù)據(jù)應(yīng)用通常都會(huì)從多個(gè)數(shù)據(jù)源(既有內(nèi)部數(shù)據(jù)源,也有外部數(shù)據(jù)源)抽取類(lèi)型不同的數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)。無(wú)論從技術(shù)上,還是從潛在影響來(lái)看,這都是大數(shù)據(jù)中很重要的一個(gè)方面。對(duì)不同類(lèi)型的信息進(jìn)行組合是一個(gè)復(fù)雜的技術(shù)難題:一條客戶(hù)記錄跟一條微博哪個(gè)比較重要?怎么才能把大量不斷變化的病人記錄跟公開(kāi)發(fā)表的醫(yī)療研究報(bào)告和基因組數(shù)據(jù)結(jié)合起來(lái),以便為某個(gè)病人找出最佳治療方案?

把來(lái)自于ERP系統(tǒng)的內(nèi)部運(yùn)營(yíng)數(shù)據(jù),來(lái)自于web日志文件的半結(jié)構(gòu)化數(shù)據(jù)(識(shí)別客戶(hù)在線(xiàn)行為),以及來(lái)自客戶(hù)評(píng)論的非結(jié)構(gòu)化文本情感分析數(shù)據(jù)混搭在一起就是這種情況。先進(jìn)的天氣/氣候模型也屬于這種情況,借鑒100多年的天氣數(shù)據(jù)和新的海水行為物理模型,CO水平變化,結(jié)合衛(wèi)星數(shù)據(jù)進(jìn)行實(shí)時(shí)天氣狀況模擬。

速度:信息到達(dá)、分析和交付的速度

組織內(nèi)部有各種不同的系統(tǒng),數(shù)據(jù)移動(dòng)的速度可以分為批量整合定期加載和實(shí)時(shí)數(shù)據(jù)流兩種。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),也是現(xiàn)在使用Hadoop的主流數(shù)據(jù)處理方法用的就是批量整合、定期加載。而采用實(shí)時(shí)數(shù)據(jù)流的技術(shù)領(lǐng)域一般包括復(fù)雜事件處理(ECP),規(guī)則引擎,文本分析和搜索,推理,機(jī)器學(xué)習(xí)和基于事件的架構(gòu)。

評(píng)估大數(shù)據(jù)速度需求的關(guān)鍵是搞懂業(yè)務(wù)流程和最終用戶(hù)的需求。比如說(shuō),對(duì)于應(yīng)急響應(yīng)組織或證券交易公司而言,每一秒(甚至毫秒)產(chǎn)生的數(shù)據(jù)都很寶貴。還有機(jī)場(chǎng),為了在罪犯進(jìn)入機(jī)場(chǎng)時(shí)就能發(fā)現(xiàn),需要進(jìn)行實(shí)時(shí)的面部識(shí)別。然而作為MapReduce和Hadoop發(fā)祥地的搜索引擎,為確定算法的準(zhǔn)確性或廣告的匹配度時(shí)而對(duì)十幾億的查詢(xún)數(shù)據(jù)進(jìn)行處理和挖掘時(shí),并不需要實(shí)時(shí)分析。換句話(huà)說(shuō),用恰當(dāng)?shù)臅r(shí)間獲取準(zhǔn)確度合適的恰當(dāng)信息才是我們所需要的。

不同的用例適用的技術(shù)架構(gòu)也不同。在架構(gòu)界流傳著一句老話(huà),“只要扔進(jìn)去足夠多的硬件,任何問(wèn)題都能解決”。業(yè)界已經(jīng)為解決特定問(wèn)題搭建過(guò)大型超級(jí)計(jì)算機(jī)和大規(guī)模集群了,這句話(huà)的正確性毋庸置疑。

然而現(xiàn)在需要用專(zhuān)門(mén)的硬件來(lái)滿(mǎn)足的高性能需求越來(lái)越少了。高可用集群,可擴(kuò)展的文件系統(tǒng),多CPU,多核處理器的出現(xiàn)意味著利用現(xiàn)成的商業(yè)組件進(jìn)行組合就能輕松滿(mǎn)足性能要求?,F(xiàn)在社會(huì)化應(yīng)用甚至大多選擇部署在云服務(wù)上,根本就不專(zhuān)門(mén)考慮硬件。

價(jià)值:資金,運(yùn)營(yíng),業(yè)務(wù)優(yōu)勢(shì)一個(gè)都不能少

在大數(shù)據(jù)里談到價(jià)值,既指使用大數(shù)據(jù)所需技術(shù)成本的降低,也指使用大數(shù)據(jù)創(chuàng)造的價(jià)值。成本是大數(shù)據(jù)問(wèn)題在智能時(shí)代得以解決的決定性因素。在金融服務(wù),電信,零售,研發(fā)和政府組織中的大型數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)存在好多年了。在交易、天氣監(jiān)測(cè)或欺詐檢測(cè)應(yīng)用里的實(shí)時(shí)數(shù)據(jù)管理也存在好多年了。以文本挖掘的形式出現(xiàn)的非結(jié)構(gòu)化內(nèi)容分析也存在好多年了。用于科學(xué)研究的高性能計(jì)算系統(tǒng)也存在好多年了。然而自從進(jìn)入智能時(shí)代,那些曾經(jīng)只有政府機(jī)構(gòu)或某些行業(yè)少數(shù)幾個(gè)大公司才負(fù)擔(dān)得起的系統(tǒng),現(xiàn)在也擺上了“尋常百姓家”的餐桌。更多可用軟件的出現(xiàn)和不斷降價(jià)的硬件,讓更多的組織可以在預(yù)算中hold住這些大數(shù)據(jù)技術(shù)。

從大數(shù)據(jù)項(xiàng)目中得到的好處大致可以分為:

  • 資金成本降低 :軟硬件和其它基礎(chǔ)設(shè)施的成本降低了
  • 運(yùn)營(yíng)效率提高:由于數(shù)據(jù)整合、管理、分析和交付的方法更加高效,人力成本也降低了
  • 業(yè)務(wù)流程改進(jìn) : 因?yàn)椴捎眯罗k法(或更好的辦法)來(lái)開(kāi)展業(yè)務(wù),包括商業(yè)交易的改善,社區(qū)的可持續(xù)管理,社會(huì)資源、醫(yī)療保健和教育服務(wù)的恰當(dāng)分配,使回報(bào)或者說(shuō)利潤(rùn)得到了增長(zhǎng)。

大數(shù)據(jù)所代表的并不是企業(yè)范圍內(nèi)單一、同質(zhì)的需求。然而大多數(shù)人并沒(méi)有認(rèn)識(shí)到這一點(diǎn),普遍的看法是只有那些要用Hadoop處理的海量數(shù)據(jù)才是大數(shù)據(jù)。比如在IDC得到的調(diào)查反饋報(bào)告中,40%的受訪(fǎng)者認(rèn)為大數(shù)據(jù)是指海量數(shù)據(jù),26%認(rèn)為是指各種各樣的數(shù)據(jù),24%認(rèn)為是指實(shí)時(shí)流數(shù)據(jù),10%認(rèn)為它是指高性能計(jì)算。

對(duì)大數(shù)據(jù)的誤解

大數(shù)據(jù)技術(shù)所呈現(xiàn)出來(lái)的機(jī)遇持續(xù)增長(zhǎng),越來(lái)越大。改善現(xiàn)有業(yè)務(wù)流程和大數(shù)據(jù)技術(shù)有關(guān),推出新業(yè)務(wù)和大數(shù)據(jù)技術(shù)有關(guān),改變跟客戶(hù)的交互方式跟大數(shù)據(jù)技術(shù)有關(guān),為了支持范圍更加廣泛的決策過(guò)程,要對(duì)為什么分析數(shù)據(jù),以及怎么分析數(shù)據(jù)進(jìn)行重新評(píng)估,這還和大數(shù)據(jù)技術(shù)有關(guān)。

哪里有需求,哪里就有市場(chǎng)。大數(shù)據(jù)解決方案的市場(chǎng)雛形剛具,各路英雄豪杰各顯其能,打破了頭也想要擠上這趟車(chē),場(chǎng)面一片混亂。對(duì)于什么是大數(shù)據(jù),以及大數(shù)據(jù)技術(shù)能干什么,無(wú)論用戶(hù)還是供應(yīng)商,都有諸多誤解。

  • 大數(shù)據(jù)分析就是用最新開(kāi)發(fā)出來(lái)的技術(shù)做些新穎的,不同以往的事情。大數(shù)據(jù)就是做些新東西的思想是錯(cuò)的。大數(shù)據(jù)的概念已經(jīng)出現(xiàn)幾年了。真正發(fā)生變化的,是現(xiàn)在的經(jīng)濟(jì)條件允許我們使用大數(shù)據(jù)了,是我們現(xiàn)在有能力用計(jì)算機(jī)輔助發(fā)現(xiàn)那些從各種數(shù)據(jù)源匯聚而成的超大數(shù)據(jù)集之間的關(guān)系了,是我們已經(jīng)意識(shí)到,如果能用正確的工具在正確的時(shí)間向正確的決策者提供正確的信息,量化分析是可以形成競(jìng)爭(zhēng)優(yōu)勢(shì)的。
  • 大數(shù)據(jù)技術(shù)就是跟Hadoop環(huán)境(廣義上說(shuō)是MapReduce環(huán)境)有關(guān)的技術(shù),和工作負(fù)載或應(yīng)用無(wú)關(guān)。 我們產(chǎn)生這種誤解的原因可能是因?yàn)橛X(jué)得關(guān)系型數(shù)據(jù)庫(kù)不能擴(kuò)展到超大規(guī)模數(shù)據(jù)容量上,所以不能算大數(shù)據(jù)技術(shù),或者說(shuō)范式化的DBMS已經(jīng)過(guò)時(shí)了,范式數(shù)據(jù)庫(kù)只是大數(shù)據(jù)部署中的數(shù)據(jù)源之一。另外一種常見(jiàn)的誤解是大數(shù)據(jù)是一種技術(shù),比如Hadoop,能滿(mǎn)足所有的大數(shù)據(jù)處理需求。而事實(shí)是完成這項(xiàng)任務(wù)的技術(shù)必須經(jīng)過(guò)精挑細(xì)選。就像沒(méi)有一把鑰匙能開(kāi)所有的鎖,沒(méi)有哪種大數(shù)據(jù)技術(shù)可以滿(mǎn)足所有的大數(shù)據(jù)需求。盡管NoSQL數(shù)據(jù)庫(kù)在大數(shù)據(jù)應(yīng)用中越來(lái)越流行,關(guān)系型數(shù)據(jù)庫(kù)也仍然在發(fā)揮著重要作用。盡管Hadoop在市場(chǎng)上越來(lái)越受青睞,但它既不是數(shù)據(jù)管理的唯一之選,也不是僅有MapReduce的實(shí)現(xiàn)。
  • 大數(shù)據(jù)僅僅跟超大量的數(shù)據(jù)有關(guān),引申來(lái)說(shuō),主要是跟數(shù)據(jù)有關(guān)。 大數(shù)據(jù)集肯定是大數(shù)據(jù)市場(chǎng)趨勢(shì)的關(guān)鍵部分。實(shí)際上,40%的組織認(rèn)為大數(shù)據(jù)就是超大量的數(shù)據(jù)。但它還有其他特性,比如實(shí)時(shí)或流數(shù)據(jù)、類(lèi)型或格式繁多的數(shù)據(jù)。有些大數(shù)據(jù)技術(shù)針對(duì)的是三種特性的其中之一,有些針對(duì)其中兩個(gè)或全部三個(gè)特性。
  • 數(shù)據(jù)就是數(shù)據(jù)挖掘的時(shí)髦叫法。 數(shù)據(jù)挖掘是指可以用來(lái)分析大數(shù)據(jù)集的一組分析技術(shù)。其中的一些技術(shù)已經(jīng)用了幾個(gè)世紀(jì)了;也有一些是最近才出現(xiàn)的。然而,大數(shù)據(jù),按照IDC和大多數(shù)市場(chǎng)觀(guān)察和參與者的定義,是個(gè)范圍更廣泛的主題,包括數(shù)據(jù)收集,數(shù)據(jù)管理和組織,數(shù)據(jù)分析,信息訪(fǎng)問(wèn)以及運(yùn)營(yíng)負(fù)載,還有用到一些新的和已有的大數(shù)據(jù)技術(shù)的應(yīng)用。
  • 大數(shù)據(jù)是個(gè)挑戰(zhàn)。可能現(xiàn)在對(duì)大數(shù)據(jù)最嚴(yán)重的誤解就是只要采用了大數(shù)據(jù)技術(shù),就能解決業(yè)務(wù)問(wèn)題,就能增加收入,降低成本,還能吸引客戶(hù)。把大量數(shù)據(jù)保存下來(lái),不管是在關(guān)系型數(shù)據(jù)庫(kù)中還是在Hadoop集群中,都不是最終的目的。搭上就好的技術(shù)部署方式從來(lái)就沒(méi)有成功過(guò),在大數(shù)據(jù)這兒也不靈。分析數(shù)據(jù)也不是最終目的。到不了決策者手里,或被決策者忽略的分析結(jié)果非常多,其中不乏由鼎鼎大名的數(shù)據(jù)科學(xué)家做出來(lái)的偉大的、有見(jiàn)地的,并且及時(shí)的分析,還有些分析因?yàn)闆](méi)考慮到人類(lèi)在交互過(guò)程中的行為變化而適得其反。最近就有個(gè)非常有名的例子,一家大型零售商為確定客戶(hù)群開(kāi)發(fā)了一套非常精確的分值預(yù)測(cè)系統(tǒng),但在向選定客戶(hù)進(jìn)行營(yíng)銷(xiāo)時(shí)卻失敗了,因?yàn)樗鼘?duì)受眾對(duì)個(gè)人隱私保護(hù)的敏感程度考慮的不夠充分。

理解這些誤解非常重要,不然你很可能會(huì)陷入毫無(wú)意義的技術(shù)對(duì)比優(yōu)劣之爭(zhēng)。實(shí)際上,對(duì)于大多數(shù)有一定規(guī)模的組織來(lái)說(shuō),為了對(duì)工作負(fù)載和應(yīng)用進(jìn)行改善,需要多種大數(shù)據(jù)技術(shù)共存。

大數(shù)據(jù)技術(shù)

根據(jù)所處理數(shù)據(jù)的不同,IDC認(rèn)為大數(shù)據(jù)技術(shù)可以分為兩類(lèi):處理運(yùn)動(dòng)中的大數(shù)據(jù),處理空閑期的大數(shù)據(jù)。

運(yùn)動(dòng)中的大數(shù)據(jù)

運(yùn)動(dòng)的大數(shù)據(jù)是指快速流動(dòng)的大量數(shù)據(jù),這些數(shù)據(jù)一經(jīng)收到就要馬上處理。這樣的數(shù)據(jù)包括股票交易數(shù)據(jù),智能電表數(shù)據(jù),實(shí)時(shí)庫(kù)存管理系統(tǒng)中的RFID數(shù)據(jù)等等。與數(shù)據(jù)相關(guān)的操作可以分為三類(lèi)。

對(duì)于運(yùn)動(dòng)中的大數(shù)據(jù),在收到之后會(huì)對(duì)它們進(jìn)行過(guò)濾,并做正規(guī)化處理(變成統(tǒng)一的或可讀的格式)。這通常是由接收程序完成的。系統(tǒng)會(huì)決定是否需要進(jìn)行響應(yīng)。這可能會(huì)牽涉到一個(gè)復(fù)雜的事件處理引擎,得到新數(shù)據(jù),根據(jù)保留的數(shù)據(jù)(包括來(lái)自數(shù)據(jù)流的緩存數(shù)據(jù)和保存在快速存儲(chǔ)【一般是內(nèi)存】數(shù)據(jù)庫(kù)中的數(shù)據(jù))應(yīng)用新的數(shù)據(jù),并確定發(fā)生的是否為已定義的事件。如果發(fā)生的是已定義的事件,CEP引擎會(huì)觸發(fā)一個(gè)動(dòng)作,也就是程序?qū)υ撌录捻憫?yīng)。

運(yùn)動(dòng)中的大數(shù)據(jù)對(duì)技術(shù)的要求是數(shù)據(jù)接收,格式化和響應(yīng)的速度能跟上數(shù)據(jù)到達(dá)的速度。相關(guān)的技術(shù)包括智能高速數(shù)據(jù)遷移和轉(zhuǎn)換技術(shù),內(nèi)存數(shù)據(jù)庫(kù)和CEP技術(shù)。

空閑期的大數(shù)據(jù)

目前所討論的大數(shù)據(jù)大部分是指空閑期的大數(shù)據(jù),處于空閑期的大數(shù)據(jù)包括“機(jī)構(gòu)化”和“非結(jié)構(gòu)化”的數(shù)據(jù)。后來(lái),很多專(zhuān)家對(duì)這些術(shù)語(yǔ)提出了異議,指出我們所說(shuō)的“非結(jié)構(gòu)化”數(shù)據(jù)實(shí)際上也有結(jié)構(gòu),只是它們的結(jié)構(gòu)不是由范式或程序代碼確定的。要處理這個(gè)問(wèn)題,我們可以考慮下表中的分類(lèi):

對(duì)于空閑期的大數(shù)據(jù),相應(yīng)的技術(shù)應(yīng)該具備盡快采集數(shù)據(jù)的能力,整理和轉(zhuǎn)換數(shù)據(jù)的能力,分析數(shù)據(jù)的能力,還有將數(shù)據(jù)置于待處理狀態(tài)的能力,從而可以對(duì)它們進(jìn)行有意義的搜索、挖掘、探索、查詢(xún),和產(chǎn)生報(bào)告。

NoSQLSQL數(shù)據(jù)庫(kù)技術(shù)在大數(shù)據(jù)中都有重要作用。NoSQL數(shù)據(jù)庫(kù)非常善于支持大數(shù)據(jù)的“多樣性”,能夠接受來(lái)自多種數(shù)據(jù)源的多種格式的數(shù)據(jù),然后程序代碼可以對(duì)這些數(shù)據(jù)進(jìn)行篩選,過(guò)濾,和組織。很多Hadoop程序都是這么干的。SQL數(shù)據(jù)庫(kù)非常善于處理大量結(jié)構(gòu)一致的數(shù)據(jù),可以在這樣的數(shù)據(jù)上產(chǎn)生常規(guī)報(bào)告、挖掘和重復(fù)進(jìn)行分析。

具備動(dòng)態(tài)擴(kuò)展能力的RDBMS能處理非常大的數(shù)據(jù)庫(kù),而且作為大數(shù)據(jù)SQL DBMS能快速處理這種數(shù)據(jù)庫(kù)請(qǐng)求。

NoSQL是另一回事。這個(gè)隨處可見(jiàn)的詞實(shí)際上是很多種DBMS的統(tǒng)稱(chēng),每種DBMS都有特殊的用途,而且多種數(shù)據(jù)庫(kù)可能會(huì)一起出現(xiàn)在同一系統(tǒng)中,作為大數(shù)據(jù)操作流的有效組成部分。如下表所示:

大數(shù)據(jù)應(yīng)用

大數(shù)據(jù)解決方案的使用范圍非常廣泛。目前市面上能見(jiàn)到的基本如下圖所示:

我們可以從活動(dòng)、業(yè)務(wù)流程和行業(yè)三個(gè)維度來(lái)對(duì)這些用例進(jìn)行評(píng)估。

活動(dòng)

并不是所有使用大數(shù)據(jù)技術(shù)的應(yīng)用都是為了分析數(shù)據(jù)。有一些是為了部署社交網(wǎng)站或游戲應(yīng)用,還有一些是為了存儲(chǔ)大型內(nèi)容,提供海量文檔的信息訪(fǎng)問(wèn)。

  • 分析(比如數(shù)據(jù)挖掘,多維分析,數(shù)據(jù)可視化
  • 運(yùn)營(yíng)(比如運(yùn)行網(wǎng)站,處理在線(xiàn)訂單)
  • 信息訪(fǎng)問(wèn)(比如基于搜索的信息訪(fǎng)問(wèn),規(guī)范化,以及跨內(nèi)容和數(shù)據(jù)源的訪(fǎng)問(wèn))

業(yè)務(wù)流程

大數(shù)據(jù)技術(shù)被部署在商業(yè)組織、非盈利組織和政府組織內(nèi)部以支持他們的工作流程。組織所面臨的問(wèn)題和困難不是大數(shù)據(jù)挑戰(zhàn),而是受大數(shù)據(jù)影響的業(yè)務(wù)或組織問(wèn)題。部署大數(shù)據(jù)技術(shù)的業(yè)務(wù)流程有:

  • 客戶(hù)關(guān)系管理(銷(xiāo)售,營(yíng)銷(xiāo),客服等)
  • 供應(yīng)鏈和運(yùn)營(yíng)
  • 管理(集中在財(cái)務(wù)及會(huì)計(jì),人力資源,法務(wù)等方面)
  • 研發(fā)
  • 信息技術(shù)管理
  • 風(fēng)險(xiǎn)管理
  • 行業(yè)

除了財(cái)務(wù)、營(yíng)銷(xiāo)和信息技術(shù)管理這樣跨行業(yè)的業(yè)務(wù)流程,還有多種特定行業(yè)的應(yīng)用。這樣的例子包括:

  • 運(yùn)輸行業(yè)中的物流優(yōu)化
  • 零售行業(yè)的價(jià)格優(yōu)化
  • 媒體和娛樂(lè)行業(yè)的知識(shí)產(chǎn)權(quán)管理
  • 石油和天然氣行業(yè)的自然資源勘探
  • 制造業(yè)的質(zhì)保期管理
  • 當(dāng)?shù)貓?zhí)法部門(mén)的預(yù)防犯罪和調(diào)查
  • 保險(xiǎn)行業(yè)的預(yù)測(cè)性損失評(píng)估
  • 銀行業(yè)的欺詐檢測(cè)
  • 醫(yī)療保健行業(yè)的病人治療和欺詐檢測(cè)

面對(duì)如此廣闊的市場(chǎng)前景,提供大數(shù)據(jù)技術(shù)解決方案的供應(yīng)商既有小型的專(zhuān)業(yè)化公司,也有產(chǎn)品線(xiàn)豐富,生態(tài)系統(tǒng)完備的大型公司。SAP屬于后者。

數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線(xiàn)
立即咨詢(xún)
客服在線(xiàn)
立即咨詢(xún)
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶(hù)后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }