99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁職業(yè)發(fā)展大數(shù)據(jù):認(rèn)識它、管好它、用好它
大數(shù)據(jù):認(rèn)識它、管好它、用好它
2015-12-24
收藏

大數(shù)據(jù):認(rèn)識它、管好它、用好它

要問當(dāng)下什么最熱?當(dāng)屬大數(shù)據(jù)。這個“大”能到什么級別,IBM也無法準(zhǔn)確地告訴你。大數(shù)據(jù)何以如此火熱?因為處理大數(shù)據(jù)的增長,以及利用大數(shù)據(jù)的能力將成為許多企業(yè)的一項優(yōu)先任務(wù),否則未來幾年企業(yè)必將受制于這些數(shù)據(jù)和他們的競爭對手。 這不是個別IT巨頭獨(dú)自在鼓吹什么,或人為制造科技新陽謀,而是真實存在的情況。


如何認(rèn)識它們,管好它們,用好它們。你想好了嗎? 現(xiàn)在,隨著攜號轉(zhuǎn)網(wǎng)、3G等漸入人心,運(yùn)營商們的日子可不那么輕松。至少中國移動、中國聯(lián)通天天都得思考這樣的問題:每天什么樣的客戶要離開他?這類客戶有些什么特征?怎樣去找到這類客戶?想要解決這些問題,就需要一套系統(tǒng)去分析已經(jīng)離開的客戶是什么原因?qū)е铝怂碾x開,在轉(zhuǎn)網(wǎng)前這些人有哪些行為征兆。 在微軟內(nèi)部有這樣一個部門,過去六年他們都在為醫(yī)院生產(chǎn)軟件,因此擁有一個巨大的醫(yī)院數(shù)據(jù)平臺。所有醫(yī)院的信息,包括臨床手術(shù)系統(tǒng)產(chǎn)生的數(shù)據(jù),都可以輸入其中。而微軟將這個系統(tǒng)提供給了一些世界的大型醫(yī)院,包括中國的醫(yī)院,幫助醫(yī)院找到并從大數(shù)據(jù)中提取一些問題。因此,這個部門提取了醫(yī)院10年的數(shù)據(jù),做成一套產(chǎn)品,用歷史數(shù)據(jù)回答醫(yī)生回答不出來的問題。

事實上,在醫(yī)療行業(yè),世界各地的醫(yī)院都面臨一個很大的挑戰(zhàn),就是重新接納病人入院的問題。病人去醫(yī)院治病,治好就出院了,但出院的病人中有很大比例可能在之后3~30天時間內(nèi),因為與之前所得的病相關(guān)原因,需要再次返回醫(yī)院。是治療過程或住院過程中出現(xiàn)什么問題導(dǎo)致他們重新入院治療?過去20多年當(dāng)中,沒有人能弄清楚。如何讓數(shù)據(jù)告訴我們,他們?yōu)槭裁从只貋砹耍?a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)系統(tǒng)花了一段時間,找出非常具體的入院規(guī)律,如一些人重新入院的可能性格外高。一旦找出規(guī)律,就可以做一個預(yù)測模型。只要看到某些因素出現(xiàn),就可以預(yù)測這些病人重新入院的比例和可能性有多高。 這套預(yù)測模型的價值有很重要的一點(diǎn),是能夠預(yù)知病人為什么重新回來治療。醫(yī)院有了這個模型,每天在云端運(yùn)行服務(wù),讓病人排隊,看看重新入院的可能性。而醫(yī)生不再只是圍繞手邊的病人開展工作,還能有些預(yù)見性的工作。病人也不會因為再次發(fā)病而重新回到醫(yī)院,大大降低了醫(yī)療成本。 其實,這些實例還只是冰山一角。今天在金融、政府、公共服務(wù)等更多領(lǐng)域,都存在這樣的現(xiàn)象:即因高速帶寬而產(chǎn)生的Big Data(大數(shù)據(jù))以難以想象的速度迅猛增長。而這種快速增長不光使企業(yè)數(shù)據(jù)管理的壓力激增。同時,企業(yè)還需要更好地利用這些數(shù)據(jù),并從中找到與企業(yè)業(yè)務(wù)關(guān)聯(lián)度很高的數(shù)據(jù),進(jìn)而為企業(yè)商業(yè)決策服務(wù)。因此,能否有效挖掘數(shù)據(jù)的商業(yè)價值,每個企業(yè)都有必要重新審視自身的數(shù)據(jù)戰(zhàn)略。

誰在制造恐慌

IDC報告指出,未來10年全球大數(shù)據(jù)將增加50倍。僅在2011年,全球?qū)⒖吹?.8ZB(1.8萬億GB)的大數(shù)據(jù)產(chǎn)生,相當(dāng)于每個美國人每分鐘寫3條Twitter,而且還是不停地寫2.6976萬年。而未來十年,管理數(shù)據(jù)倉庫的服務(wù)器數(shù)量將增加10倍以便迎合50倍的大數(shù)據(jù)增長。 無疑,數(shù)據(jù)量的倍增趨勢已毋庸置疑。至于數(shù)據(jù)的存儲、管理和分析等應(yīng)對大數(shù)據(jù)的難題拋給I T技術(shù)服務(wù)商就好了,企業(yè)還在憂心什么呢? 事情顯然不同于1+1=2那么簡單。業(yè)界一度認(rèn)為,過去有問題找技術(shù)商的想法在大數(shù)據(jù)時代或許再也行不通。 Gartner認(rèn)為,全球信息量每年最低增長率為59%,其中15%是結(jié)構(gòu)化數(shù)據(jù)(原來的數(shù)據(jù)都可以用二維表結(jié)構(gòu)存儲在數(shù)據(jù)庫中,如常用的Excel軟件所處理的數(shù)據(jù),稱之為結(jié)構(gòu)化數(shù)據(jù)),其余85%將由各種非結(jié)構(gòu)化數(shù)據(jù)組成。所謂非結(jié)構(gòu)化數(shù)據(jù),指不便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),包括所有格式的辦公文檔、電子郵件、文本、圖片、XML、HTML、各類報表、圖像和音/視頻信息等。

 顯然,“85%”,對占比如此之高的非結(jié)構(gòu)化數(shù)據(jù),企業(yè)和技術(shù)服務(wù)商都不能忽視,要順利解決大數(shù)據(jù)需求,首要問題便是先要應(yīng)對這種大規(guī)模數(shù)據(jù)類型改變所制造的麻煩。 因為當(dāng)這些非結(jié)構(gòu)化數(shù)據(jù)不斷增加時,也給數(shù)據(jù)庫廠商、系統(tǒng)架構(gòu)師、數(shù)據(jù)庫管理員及其他開發(fā)人員帶來了前所未有的技術(shù)挑戰(zhàn)。 特別對傳統(tǒng)數(shù)據(jù)庫而言,非結(jié)構(gòu)化數(shù)據(jù)的高增長讓傳統(tǒng)關(guān)系型數(shù)據(jù)庫幾乎無能為力,并且以傳統(tǒng)數(shù)據(jù)庫跑大數(shù)據(jù),對系統(tǒng)軟硬平臺的要求都極高,成本又是企業(yè)的一大問題。 對此,SAP HANA項目組一位開發(fā)經(jīng)理告訴記者,應(yīng)對大數(shù)據(jù)需求,傳統(tǒng)數(shù)據(jù)庫存在幾個致命問題:一是它的設(shè)計都是關(guān)系型數(shù)據(jù)庫,基本上DB2、SQL Server都是以行式展現(xiàn)的;二是它的存儲都在磁盤上,對計算機(jī)而言,磁盤的運(yùn)轉(zhuǎn)速度跟內(nèi)存無法比擬;三是網(wǎng)絡(luò)傳輸瓶頸,報表在客戶端,數(shù)據(jù)在后臺,完成一次查詢動作,需要經(jīng)網(wǎng)絡(luò)傳輸一個來回,一旦數(shù)據(jù)量巨大,網(wǎng)絡(luò)傳輸壓力可想而知。 

而鑒于大數(shù)據(jù)分析當(dāng)前在國內(nèi)還缺乏較為成熟的實踐經(jīng)驗,其方式方法又與傳統(tǒng)數(shù)據(jù)倉庫商業(yè)智能系統(tǒng)都存在一定差別,企業(yè)想要用傳統(tǒng)數(shù)據(jù)倉庫商業(yè)智能工具來應(yīng)對明顯也力不從心。 曙光公司大數(shù)據(jù)研發(fā)項目經(jīng)理宋懷明表示,目前市場上的商業(yè)智能軟件主要還是針對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,對非結(jié)構(gòu)化數(shù)據(jù)一是處理不了,另外在處理結(jié)構(gòu)化數(shù)據(jù)上,定位也有所不同。商務(wù)智能軟件非常昂貴,企業(yè)如果不將數(shù)據(jù)業(yè)務(wù)跟其商業(yè)利潤掛鉤,而只是做數(shù)據(jù)分析和挖掘,買商務(wù)智能軟件極不劃算。因為現(xiàn)有商務(wù)智能軟件是按數(shù)據(jù)規(guī)模來收費(fèi)的。像銀行這些交易數(shù)據(jù)本身跟利潤掛鉤且又需要進(jìn)行一些數(shù)據(jù)分析,但其數(shù)據(jù)規(guī)模比起互聯(lián)網(wǎng)企業(yè)小很多的,它們買商務(wù)智能軟件比較合適。但對網(wǎng)絡(luò)的日志行為分析、關(guān)系挖掘一類應(yīng)用,不僅數(shù)據(jù)量很大,數(shù)據(jù)結(jié)構(gòu)也很復(fù)雜,商務(wù)智能軟件就不是很適合。因此,企業(yè)還是要根據(jù)自身需求來選擇。而且大數(shù)據(jù)分析所需軟件跟傳統(tǒng)商務(wù)智能、數(shù)據(jù)挖掘軟件的差別還是很大的。 看來,大數(shù)據(jù)需求面前,企業(yè)的擔(dān)心都是數(shù)據(jù)類型改變?nèi)堑牡?,罪魁禍?zhǔn)妆闶潜q的非結(jié)構(gòu)化數(shù)據(jù)。 出于這些因素的干擾,企業(yè)在大數(shù)據(jù)需求面前顧慮重重也就不難理解了。

久經(jīng)考驗的傳統(tǒng)關(guān)系型數(shù)據(jù)庫應(yīng)用既然不可能馬上就全面被替代掉,傳統(tǒng)數(shù)據(jù)庫廠商也不可能為此自毀長城,全盤推翻自己生存的根基。是不是再無他法了呢? 現(xiàn)實情況或許還不那么糟糕。對數(shù)據(jù)類型改變所帶來的挑戰(zhàn),Informatica公司的一位高級產(chǎn)品經(jīng)理Ram Subramanyam Gopalan在其博客中指出,圖像和音頻,甚至視頻其實都能轉(zhuǎn)換為文本數(shù)據(jù),而文本數(shù)據(jù)則可轉(zhuǎn)換為實體集合,即包含屬性與關(guān)系的結(jié)構(gòu)化數(shù)據(jù)。經(jīng)過一些處理能將這些數(shù)據(jù)的結(jié)構(gòu)找回來。雖然目前對找回這類數(shù)據(jù)的結(jié)構(gòu)缺少一定的工具,但至少非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成計算機(jī)熟悉的結(jié)構(gòu)化數(shù)據(jù)是存在一定途徑的。只是等待能夠?qū)崿F(xiàn)這種轉(zhuǎn)換的條件出現(xiàn)還需要些時間。 如果趕在大數(shù)據(jù)時代真正來臨前,這種數(shù)據(jù)自身可以進(jìn)行轉(zhuǎn)化的情況還未實現(xiàn),那么至少從現(xiàn)在來看,從傳統(tǒng)數(shù)據(jù)庫廠商到傳統(tǒng)數(shù)據(jù)分析廠商不會坐以待斃,起碼積極提出了各自的一些應(yīng)對辦法。

盡管這些辦法還都處于小試牛刀的狀態(tài),但至少讓企業(yè)有章可循。 歐美廠商唱主角 Gartner在2011的“新興技術(shù)成熟度曲線”報告中將大數(shù)據(jù)視為一項具有新特點(diǎn)和高影響力的技術(shù)趨勢,圍繞大數(shù)據(jù)、海量信息處理和管理等轉(zhuǎn)型技術(shù)將在未來五年進(jìn)入主流。 而嗅覺敏銳的歐美存儲和數(shù)據(jù)倉庫廠商早已聞風(fēng)而動。畢竟EMC、NetApp、HP、IBM、Oracle、微軟這些傳統(tǒng)廠商要考慮如何在快速變化的大數(shù)據(jù)時代迅速定位。 因此,2011年前后,許多歐美巨頭紛紛布局大數(shù)據(jù)市場。數(shù)據(jù)倉庫廠商一下成了巨頭們收并購的香餑餑,各類大數(shù)據(jù)解決方案或產(chǎn)品也紛紛推向市場,一派熱鬧景象。 像EMC索性利用收購來的Greenplum、Isilon和VMware,將自己的未來身家性命全部押寶在了大數(shù)據(jù)和云計算的交匯點(diǎn)上。IBM利用收購來的數(shù)據(jù)倉庫廠商N(yùn)etezza以及InfoSphere BigInsights和Streams軟件來證明自己在海量數(shù)據(jù)處理上實力一如既往。NetApp收購Engenio以及后來與Cloudera合作,都讓它在大數(shù)據(jù)占據(jù)一角。Oracle在2011年下半年通過接連推出大數(shù)據(jù)機(jī)和Exalytics商務(wù)智能云服務(wù)器兩個重要的大數(shù)據(jù)分析產(chǎn)品,彰顯自己在大數(shù)據(jù)時代也非弱者。

 那么,大數(shù)據(jù)時代到底什么時候到來?各家說法不一。EMC中國卓越研發(fā)集團(tuán)主席范承工博士告訴《軟件和信息服務(wù)》記者,“我們已經(jīng)處于大數(shù)據(jù)時代了”。其實EMC說自己兩年前就在談大數(shù)據(jù)并非妄語。目前在EMC的客戶中,大多數(shù)大型企業(yè)客戶在數(shù)據(jù)存儲量方面早已達(dá)到PB級。問題是,當(dāng)前用戶對硬件系統(tǒng)要求要有非常高的可擴(kuò)展性,要求能夠應(yīng)對大數(shù)據(jù)存儲需求。 因此,在范承工看來,比起以往的IT系統(tǒng),現(xiàn)在大數(shù)據(jù)需求對系統(tǒng)技術(shù)挑戰(zhàn)將表現(xiàn)在幾個方面:基于英特爾架構(gòu)較便宜的硬件基礎(chǔ)作為技術(shù)組成部分,再往上一層,對分布式存儲軟件的需求會更大,即怎樣能夠使非常大且可擴(kuò)展的分布式存儲很好、很便宜地讓客戶用到;然后再上一層,是怎么和新的數(shù)據(jù)管理系統(tǒng)很好地集成。 

為了應(yīng)對大數(shù)據(jù),EMC內(nèi)部不光已將其全部存儲產(chǎn)品都逐步向大數(shù)據(jù)需求的平行擴(kuò)展方向做改進(jìn),還借助收購Grennplum和Isilon,宣布支持HDFS(即Hadoop的分布式文件系統(tǒng)),可對Hadoop運(yùn)算產(chǎn)生支持,實現(xiàn)從硬件、軟件和數(shù)據(jù)處理系統(tǒng)集成上統(tǒng)一應(yīng)對大數(shù)據(jù)時代的存儲要求。說起T-mobile,它是美國一家手機(jī)運(yùn)營商,正因為用了EMC的Greenplum產(chǎn)品,只花兩個星期做了一個大規(guī)模的數(shù)據(jù)分析,最后竟然獲得了每年運(yùn)營增加1億美元這樣一個很可觀的收益。

 不過,大數(shù)據(jù)處理環(huán)境并非是在全盤否定企業(yè)以往的IT系統(tǒng)。范承工認(rèn)為,有的系統(tǒng)是可以在整個大數(shù)據(jù)處理系統(tǒng)環(huán)境中留存的;有的系統(tǒng)可能會隨著大數(shù)據(jù)的產(chǎn)生逐漸過時,并被淘汰;而數(shù)據(jù)庫技術(shù)仍有需求,不過會和大數(shù)據(jù)系統(tǒng)并存。 而隨著大數(shù)據(jù)需求的激增,IT廠商的競爭勢必將更加激烈。在范承工看來,在大數(shù)據(jù)時代,誰的位置離數(shù)據(jù)更近,誰將會具有更多優(yōu)勢;誰對新技術(shù)掌握最快,誰就具有優(yōu)勢,“機(jī)會與挑戰(zhàn)并存”。 毫無疑問,大數(shù)據(jù)需求不光要廠商重新審視自身定位及技術(shù)實力,也為IBM、EMC、SAP等這些長期占據(jù)高端市場的企業(yè)帶來了福音,在高端市場增長乏力的情況下,大數(shù)據(jù)需求的開啟無疑為他們提供了一個再度深挖這一市場的藍(lán)海。 在此,范承工毫不避諱地告訴記者,大數(shù)據(jù)對傳統(tǒng)數(shù)據(jù)庫的顛覆無疑會直接影響到EMC傳統(tǒng)存儲業(yè)務(wù)收入,這在EMC整體收入中占據(jù)了相當(dāng)?shù)牟糠?。但EMC收購Greenplum,尤其后者對非結(jié)構(gòu)化數(shù)據(jù)的存儲,足以彌補(bǔ)依存?zhèn)鹘y(tǒng)數(shù)據(jù)庫市場的業(yè)務(wù)壓力。Greenplum在去年成為EMC上升最快的一個產(chǎn)品,上升4倍是最佳佐證。 

此外,EMC還推出了統(tǒng)一分析平臺(UAP)來全面應(yīng)對大數(shù)據(jù)需求,“一種技術(shù)統(tǒng)治天下的時代已經(jīng)過去,現(xiàn)在是一個百花齊放的時代,而最好的數(shù)據(jù)分析平臺就需要將很多種不同技術(shù)結(jié)合在一起,我們在UAP里結(jié)合了傳統(tǒng)數(shù)據(jù)庫、分布式數(shù)據(jù)庫以及Hadoop等非結(jié)構(gòu)化數(shù)據(jù)處理系統(tǒng),再配以EMC的合作軟件Chorus,能夠使每個數(shù)據(jù)分析師有一個很好地完整平臺,各種各樣來源和類型的數(shù)據(jù)都能夠進(jìn)行整合性分析”,范承工認(rèn)為UAP將是EMC應(yīng)對大數(shù)據(jù)的又一個致勝籌碼。 就在企業(yè)用戶、傳統(tǒng)數(shù)據(jù)庫廠商和存儲廠商都在為自己在大數(shù)據(jù)需求面前想盡辦法時,SAP HANA的推出無疑為沉悶的市場投入了一劑強(qiáng)心針。用SAP自己的話說,HANA是一款全新的數(shù)據(jù)庫,它不光解決大數(shù)據(jù)量的問題,還解決非結(jié)構(gòu)性數(shù)據(jù)庫的問題。 比起傳統(tǒng)數(shù)據(jù)庫,HANA運(yùn)算到底有多快,用戶運(yùn)行一個業(yè)務(wù)數(shù)據(jù)可能在上百萬條的報表,傳統(tǒng)數(shù)據(jù)庫大概要跑一天多,而現(xiàn)在HANA上跑不到十秒鐘就處理完了,用SAP業(yè)務(wù)人員的話說是“極其夸張”。SAP中國區(qū)副總裁許正岡指出,傳統(tǒng)關(guān)聯(lián)數(shù)據(jù)庫很難同時快速地訪問數(shù)據(jù),因為它里面建了很多預(yù)置訪問,這也是為什么數(shù)據(jù)庫那么龐大,出來的結(jié)果又非常慢的原因。

 據(jù)了解,HANA首先是基于列的,基于列的好處是在做聚合、做分析的時候很方便。另外,它完全是在內(nèi)存當(dāng)中,做任何計算都在內(nèi)存中完成,由此內(nèi)存產(chǎn)生的運(yùn)算速度無疑遠(yuǎn)快于磁盤,可能數(shù)據(jù)量有幾百萬條,但運(yùn)行后的結(jié)果就幾k,瞬間完成,所以HANA被SAP視為至寶。 為使HANA為企業(yè)所用,SAP業(yè)務(wù)人員表示,對目前已部署了傳統(tǒng)數(shù)據(jù)庫如SQL Server的企業(yè)用戶,如想加速搜索和分析,企業(yè)只需購買一個經(jīng)SAP認(rèn)證的集合了HANA軟硬件在內(nèi)的硬件服務(wù)器加在系統(tǒng)機(jī)房內(nèi),并結(jié)合B1做簡單設(shè)置,就可以利用HANA快速的運(yùn)算來進(jìn)行數(shù)據(jù)分析了,并對企業(yè)原有數(shù)據(jù)庫無需做任何改變。 

下一步,SAP將推出HANA的全新版本,作為完全替代SQL Sever等傳統(tǒng)數(shù)據(jù)庫產(chǎn)品的利器,實現(xiàn)所有業(yè)務(wù)運(yùn)算、搜索、分析都由HANA完成,最大數(shù)據(jù)量可達(dá)PB級。SAP亞太及日本區(qū)商務(wù)解決方案事業(yè)部高級副總裁柯德泰指出,在大數(shù)據(jù)背景下,SAP的主導(dǎo)戰(zhàn)略將依賴以HANA為代表的內(nèi)存計算技術(shù),而HANA與移動應(yīng)用的結(jié)合將產(chǎn)生更強(qiáng)大的效果,“幫助用戶在掌上設(shè)備分析海量數(shù)據(jù),并在幾微秒內(nèi)獲得結(jié)果”。

 不過,雖然HANA在現(xiàn)有技術(shù)上是完美產(chǎn)品,但對企業(yè)的TCO卻也難以盡善盡美。在處理TB/PB級別時,選擇HANA對企業(yè)在內(nèi)存和硬件上的投入又是一個挑戰(zhàn)。 當(dāng)然HANA本身具有壓縮技術(shù),對越大的數(shù)據(jù)庫壓縮比例也越大,耗費(fèi)內(nèi)存就越小,訪問速度更快,可在一定范圍內(nèi)幫助企業(yè)節(jié)省一部分內(nèi)存空間,而一旦用戶數(shù)據(jù)量難以估計時,恐怕仍無法避免內(nèi)存上要做更大投入。 范承工認(rèn)為,HANA是一項創(chuàng)新技術(shù),但HANA也存在一些短板。它對某些工作類型比較適合,但對另一些可能不一定很適合,比如對某些工作流的處理可能并非最佳選擇。 至于IBM這個藍(lán)色巨人,大數(shù)據(jù)市場更少不了它的身影。在IBM內(nèi)部專門有三個最核心的部門來應(yīng)對大數(shù)據(jù)需求,包括全球企業(yè)咨詢服務(wù)部、Cognos業(yè)務(wù)分析與優(yōu)化并購部門,以及中國研究院行業(yè)解決方案研究部門?!拔覀冋M(jìn)入重大的跳躍階段,‘大數(shù)據(jù)’的到來,開啟了信息技術(shù)的新時代,使用大數(shù)據(jù),可將解決方案從反應(yīng)型轉(zhuǎn)變?yōu)橐?guī)范型。”IBM技術(shù)創(chuàng)新全球副總裁Bernard S.Meyerson博士如是說。 基于大數(shù)據(jù)的分析、預(yù)估與優(yōu)化等信息技術(shù),為經(jīng)營者提供一個快速、精確與可預(yù)期結(jié)果的新型戰(zhàn)略決策模式。一旦大數(shù)據(jù)的價值被發(fā)掘出來,數(shù)據(jù)將成為企業(yè)創(chuàng)造價值的源泉,也將成為行業(yè)競爭的成敗關(guān)鍵。

 通過軟件、研發(fā)與服務(wù)三位一體的整合能力,無論是收集數(shù)據(jù)以管理風(fēng)力發(fā)電場的布局,還是在社交媒體網(wǎng)站上評估客戶意見或預(yù)測醫(yī)院的潛在致命感染,IBM認(rèn)為它都可以幫助各行業(yè)客戶不斷延伸數(shù)據(jù)的價值。 作為傳統(tǒng)數(shù)據(jù)庫廠商的代表,IBM在其大數(shù)據(jù)版圖中,對非結(jié)構(gòu)化數(shù)據(jù)的處理依舊采取了收并購策略來實現(xiàn)。比如2011年,IBM收購了兩家非結(jié)構(gòu)化數(shù)據(jù)處理軟件廠商,風(fēng)險分析軟件開發(fā)商Algorithmics及英國安全分析軟件開發(fā)商i2。此前五年,IBM為此投入了超過140億美元收購了25家專注于分析軟件領(lǐng)域的公司,借以幫助其客戶處理來自社交媒體、生物測定和犯罪數(shù)據(jù)庫等來源的非結(jié)構(gòu)化數(shù)據(jù)。 對微軟而言,目前采取了3種解決辦法來應(yīng)對大數(shù)據(jù)需求。微軟公司SQL Server產(chǎn)品市場經(jīng)理郝雪瑩表示,對非結(jié)構(gòu)化數(shù)據(jù)存儲的分析,建議用戶放到Hadoop上(在www.HadoopAzure.com根據(jù)實際需求租用)進(jìn)行分析;對結(jié)構(gòu)化數(shù)據(jù)和小部分非結(jié)構(gòu)化數(shù)據(jù),微軟即將于7月1日正式在中國大陸發(fā)售的SQL Ser ver及其中所含Power view就可實現(xiàn)一定規(guī)模的數(shù)據(jù)分析;再大規(guī)模的數(shù)據(jù),可以選擇并行數(shù)據(jù)倉庫(PDW)進(jìn)行海量分析了。 談及大數(shù)據(jù),與之同樣被反復(fù)提及的還有一個詞――Hadoop。作為大數(shù)據(jù)處理平臺的一個重要組成部分,Hadoop成為眾多廠商應(yīng)對大數(shù)據(jù)需求的一個事實上的標(biāo)準(zhǔn)工具,當(dāng)之無愧地也成為許多傳統(tǒng)數(shù)據(jù)庫及存儲廠商應(yīng)對大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)挑戰(zhàn)的救命稻草。 

不過,郝雪瑩認(rèn)為,需不需要Hadoop是應(yīng)企業(yè)應(yīng)用情況不同而不同的,比如SQL Server內(nèi)置對非結(jié)構(gòu)化數(shù)據(jù)的支持,如XML、博客數(shù)據(jù)類型,最大可以存儲2G,圖片、word文檔都可以。如果企業(yè)的數(shù)據(jù)庫可以處理或是適合數(shù)據(jù)庫處理,那么不一定需要Hadoop,使用與否需要根據(jù)企業(yè)的業(yè)務(wù)要求以及業(yè)務(wù)場景而定。SQL Server有連接器連到Hadoop上,不同場景,可以以不同方式管理和使用數(shù)據(jù)。 國內(nèi)實地觀望,備戰(zhàn)中 當(dāng)然,如同云計算一樣,對大數(shù)據(jù)及其引發(fā)的問題,市場依舊呈現(xiàn)出國外廠商唱主角,國內(nèi)廠商響應(yīng)積極卻從者少的局面。但市場需求卻絲毫不亞于國際市場。

 2011年,電商熱鬧的“雙十一”及“雙十二”大促銷活動,因海量數(shù)據(jù)瞬間爆發(fā)而導(dǎo)致網(wǎng)絡(luò)系統(tǒng)一度崩潰。 電商IT技術(shù)服務(wù)商上海商派的I T運(yùn)維負(fù)責(zé)人表示,突發(fā)的訪問流量主要從系統(tǒng)架構(gòu)設(shè)計和系統(tǒng)運(yùn)維兩個方面考慮。系統(tǒng)架構(gòu)設(shè)計的時候要充分考慮擴(kuò)容的便利性,硬件資源的準(zhǔn)備是很方便的,麻煩的地方在于軟件架構(gòu)要能適應(yīng)硬件的增加。

 對2011年大促出現(xiàn)的問題,商派則建議電商企業(yè)采取將各個子系統(tǒng)模塊化、標(biāo)準(zhǔn)化,降低各系統(tǒng)間的耦合度,將復(fù)雜的高并發(fā)問題轉(zhuǎn)化為簡單的標(biāo)準(zhǔn)模塊拼裝,并且盡可能實現(xiàn)拼裝過程自動化的方式。 應(yīng)對高并發(fā)系統(tǒng)同樣需要有類似系統(tǒng),如緩存系統(tǒng)、隊列系統(tǒng)。緩存系統(tǒng)類似于防洪堤,防止重復(fù)查詢,如刷新頁面這樣的動作傳遞到后端存儲系統(tǒng),導(dǎo)致無意義查詢增加系統(tǒng)負(fù)載。隊列系統(tǒng)就相當(dāng)于泄洪區(qū)了,處理系統(tǒng)實在頂不住,就先讓服務(wù)請求在隊列系統(tǒng)里排隊,依次進(jìn)行處理。作為I T服務(wù)商,除了有系統(tǒng)設(shè)計,架設(shè)能力外,還要有持續(xù)改進(jìn)能力,讓系統(tǒng)硬件架構(gòu)、軟件架構(gòu)匹配良好。其次就是軟實力,要能組織起人力、物力應(yīng)對可能出現(xiàn)的突發(fā)流量,如活動前做好壓力測試,提前制定到應(yīng)急預(yù)案,不打無準(zhǔn)備之仗。 對于“雙十一”和“雙十二”的電商大促,商派采用的系統(tǒng)方案主要有兩部分:一個是shopex開放平臺,一個商家的ERP系統(tǒng)。前者是一個連接商家ERP系統(tǒng)和淘寶開放平臺的橋梁,之所以加上這個設(shè)計的目的是屏蔽淘寶開放平臺快速變化對商家ERP系統(tǒng)穩(wěn)定性的影響,并起到壓力緩沖的作用。 ShopEx開放平臺在大促期間起到了攔水大壩的作用。系統(tǒng)根據(jù)商家ERP系統(tǒng)的負(fù)載情況控制訂單流量,避免商家ERP系統(tǒng)被海量訂單沖垮。

當(dāng)時流經(jīng)開放平臺的訂單量有100多萬條,API調(diào)用高達(dá)300多萬次。而大促期間除開放平臺負(fù)載暴漲外,商家ERP系統(tǒng)都能維持正常的工作負(fù)載運(yùn)行,訂單量最高的商戶訂單量達(dá)到10萬單。 顯然,在以往用戶的接觸中,他們對大數(shù)據(jù)處理能力的需求,包括效率和安全性,以及更深層次的數(shù)據(jù)背后所反應(yīng)出的消費(fèi)者行為都讓商派看到了大數(shù)據(jù)分析挖掘的價值所在,目前這家IT技術(shù)商正在積極備戰(zhàn)中。 值得注意的是,不同于IT廠商集中于大數(shù)據(jù)分析領(lǐng)域的爭奪,國內(nèi)市場對大數(shù)據(jù)的需求還存在一些不同的看法。愛數(shù)軟件產(chǎn)品副總李基亮指出,在他們接觸的用戶中,企業(yè)對如何提升大數(shù)據(jù)的保護(hù)以及如何提高現(xiàn)有運(yùn)營平臺的資源利用率頗為關(guān)心。

事實上,企業(yè)信息化資產(chǎn)是數(shù)據(jù),如何高效地保護(hù)大量數(shù)據(jù),越來越多的企業(yè)壓力感倍增。 李基亮表示,愛數(shù)在大數(shù)據(jù)領(lǐng)域的出發(fā)點(diǎn)是數(shù)據(jù),這也是愛數(shù)名稱的來源,愛護(hù)數(shù)據(jù)。2012年,他們將著重布局智能數(shù)據(jù)管理解決方案策略,圍繞數(shù)據(jù)生命周期的生產(chǎn)、使用、保護(hù)、歸檔和銷毀5個階段做足投入。 愛數(shù)在云計算和大數(shù)據(jù)領(lǐng)域有著大量的投入:一方面持續(xù)一體化技術(shù)框架帶來的解決方案優(yōu)勢;另一方面是正在投入的云計算基礎(chǔ)技術(shù)架構(gòu),全面帶動愛數(shù)全系列產(chǎn)品進(jìn)入云計算和大數(shù)據(jù)時代。 圍繞大數(shù)據(jù)的核心非結(jié)構(gòu)化數(shù)據(jù),歐美廠商可謂做足了文章。

而在國內(nèi),真正具備處理非結(jié)構(gòu)化數(shù)據(jù)實力的廠商幾乎鮮見。不過,曙光數(shù)據(jù)處理產(chǎn)品XData下半年的推出有望填補(bǔ)國內(nèi)這一領(lǐng)域的空白。 對大數(shù)據(jù)研究已有8年之久的宋懷明,目前承擔(dān)了曙光大數(shù)據(jù)研發(fā)的重要任務(wù)?,F(xiàn)在,圍繞曙光的產(chǎn)品及服務(wù)能力,他們主推四層架構(gòu)的大數(shù)據(jù)軟硬一體化平臺解決方案:包括最底層物理層提供盤陣和存儲服務(wù)器(i640);再上一層是虛擬層,是代表國內(nèi)計算技術(shù)、網(wǎng)絡(luò)通信技術(shù)以及文件系統(tǒng)技術(shù)發(fā)展方向的曙光并行存儲系統(tǒng)Parastor100、200(16PB云盤)、300(研發(fā)中);再上一層是數(shù)據(jù)處理層,是目前曙光針對超大規(guī)模結(jié)構(gòu)化數(shù)據(jù)查詢和處理的數(shù)據(jù)倉庫系統(tǒng)DRAC,數(shù)據(jù)處理量可達(dá)100TB~600TB,甚至1PB。XData代表的正是這一數(shù)據(jù)處理層的下一個關(guān)鍵產(chǎn)品;最頂層是應(yīng)用層,主要用于處理日志分析、用戶行為分析等。 提到XData,宋懷明興奮不已。數(shù)據(jù)處理是曙光大數(shù)據(jù)戰(zhàn)略的核心,重在對離線數(shù)據(jù)的分析和挖掘。而下半年將推出的XData,其意義在于曙光將突破非結(jié)構(gòu)化數(shù)據(jù)瓶頸,使得他們在分析大數(shù)據(jù)中各種類型的數(shù)據(jù)時能從容應(yīng)對。而XData的數(shù)據(jù)處理能力將達(dá)到幾個PB,甚至10PB。再結(jié)合曙光在國內(nèi)云計算領(lǐng)域的實力,可以想見,未來在大數(shù)據(jù)與云計算的時代,在一批抗衡國際技術(shù)力量的國家隊中,曙光無疑將成為一股核心力量。 “國內(nèi)大數(shù)據(jù)處理還較為落后,數(shù)據(jù)是有了,還不知怎么用,怎么挖掘價值,曙光準(zhǔn)備用技術(shù)推動市場需求,比如許多互聯(lián)網(wǎng)企業(yè),包括政府網(wǎng)站、媒體網(wǎng)站等?!彼螒衙髦赋?,“在大數(shù)據(jù)中有兩個可靠性也需要特別注意,一個是數(shù)據(jù)的可靠性(業(yè)界通過廉價的機(jī)器和多個副本方式來處理),一個是處理過程的可靠性(采取MapReduce的方式處理)?!?對業(yè)界追捧Hadoop,范承工表示,Hadoop本身非常有用,但它并非一個完全的大數(shù)據(jù)處理系統(tǒng)。Hadoop欠缺的是一個比較實時、互動的系統(tǒng),當(dāng)數(shù)據(jù)產(chǎn)生的同時能夠有回應(yīng),不能做提前預(yù)判,這是Hadoop做不到的。 誰說了算 現(xiàn)在來看,非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)算不上洪水猛獸。IT服務(wù)商還是通過自己的方式為企業(yè)解決了這樣的難題。但另一個問題又?jǐn)[在了面前。

 面對大數(shù)據(jù),企業(yè)在獲取數(shù)據(jù)分析價值的同時,究竟該如何選擇才有最優(yōu)的TCO考量,恐怕是每個有大數(shù)據(jù)需求的企業(yè)決策者都要在心里掂量一番的問題。當(dāng)然,除了對傳統(tǒng)軟件的顛覆,大數(shù)據(jù)分析對企業(yè)現(xiàn)有硬件設(shè)施的挑戰(zhàn),包括邏輯劃分、訪問通路、帶寬效率等方面是顯而易見的。 分析人士指出,在實施大數(shù)據(jù)分析項目前,企業(yè)不僅應(yīng)該知道使用何種技術(shù),還應(yīng)該知道在什么時候、什么地方使用?;旌蠎?yīng)用場景顯然是當(dāng)前大數(shù)據(jù)分析環(huán)境一個比較合適的選擇。傳統(tǒng)數(shù)據(jù)庫、傳統(tǒng)BI工具都可以依舊針對結(jié)構(gòu)化數(shù)據(jù)使用,而對非結(jié)構(gòu)化數(shù)據(jù)的處理,則由高級分析工具上陣。 至于各大廠商讓人眼花繚亂的解決方案,究竟誰是最佳選擇,恐怕沒人能給出最佳答案。如何挖掘大數(shù)據(jù)的價值,關(guān)鍵還在于企業(yè)自身的決策層,面對市場如此之多的選擇,企業(yè)要清楚地認(rèn)識到自己究竟想從大數(shù)據(jù)分析中獲得什么。

 “企業(yè)在進(jìn)行技術(shù)選擇時不應(yīng)只看首次投入成本,Hadoop并非一勞永逸,你需要不斷對其進(jìn)行維護(hù),考慮持續(xù)的投入,無論是人力還是物力,它都可能會比傳統(tǒng)的EDW要大。因此企業(yè)不應(yīng)一味迷信于新技術(shù),無論是購買平臺還是進(jìn)行定制,用戶需要從自身需求出發(fā)?!盩eradata首席客戶官周俊凌如是說。 郝雪瑩則認(rèn)為,無論用戶掃描什么樣的數(shù)據(jù),微軟這樣的廠商都能保證用戶能拿得到,能夠分析得了,分析的速度夠快,不出錯。但是,“我的業(yè)務(wù)模型是什么,業(yè)務(wù)真正的洞察力卻要企業(yè)自己去看”,今天想把油價和車價拿出來分析,那是用戶自己想的,微軟不會告訴你要去分析油價和車價、業(yè)務(wù)到底要做什么,這不是微軟的所長。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }