99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀大數(shù)據(jù)常見誤解及存儲所面對的問題_數(shù)據(jù)分析師
大數(shù)據(jù)常見誤解及存儲所面對的問題_數(shù)據(jù)分析師
2014-12-15
收藏

大數(shù)據(jù)常見誤解及存儲所面對的問題_數(shù)據(jù)分析師


大數(shù)據(jù)的常見誤解

一、數(shù)據(jù)不等于信息

經(jīng)常有人把數(shù)據(jù)和信息當(dāng)作同義詞來用。其實不然,數(shù)據(jù)指的是一個原始的數(shù)據(jù)點(無論是通過數(shù)字,文字,圖片還是視頻等等),信息則直接與內(nèi)容掛鉤,需要有資訊性(informative)。數(shù)據(jù)越多,不一定就能代表信息越多,更能不能代表信息就會成比例增多。有兩個簡單的例子:

備份。很多人如今已經(jīng)會定期的對自己的硬盤進(jìn)行備份。這個沒什么好多解釋的,每次備份都會創(chuàng)造出一組新的數(shù)據(jù),但信息并沒有增多。

多個社交網(wǎng)站上的信息。我們當(dāng)中的很多人在多個社交網(wǎng)站上活躍,隨著我們上的社交網(wǎng)站越多,我們獲得的數(shù)據(jù)就會成比例的增多,我們獲得的信息雖然也會增多,但卻不會成比例的增多。不單單因為我們會互相轉(zhuǎn)發(fā)好友的微博(或者其他社交網(wǎng)站上的內(nèi)容),更因為很多內(nèi)容會十分類似,有些微博雖然具體文字不同,但表達(dá)的內(nèi)容十分相似。

 

二、信息不等于智慧(Insight)

現(xiàn)在我們?nèi)コ藬?shù)據(jù)中所有重復(fù)的部分,也整合了內(nèi)容類似的數(shù)據(jù),現(xiàn)在我們剩下的全是信息了,這對我們就一定有用嗎?不一定,信息要能轉(zhuǎn)化成智慧,至少要滿足一下三個標(biāo)準(zhǔn):

 

可破譯性。這可能是個大數(shù)據(jù)時代特有的問題,越來越多的企業(yè)每天都會生產(chǎn)出大量的數(shù)據(jù),卻還沒想好怎么用,因此,他們就將這些數(shù)據(jù)暫時非結(jié)構(gòu)化(unstructured)的存儲起來。這些非結(jié)構(gòu)化的數(shù)據(jù)卻不一定可破譯。比如說,你記錄了某客戶在你網(wǎng)站上三次翻頁的時間間隔:3秒,2秒,17秒,卻忘記標(biāo)注這三個時間到底代表了什么,這些數(shù)據(jù)是信息(非重復(fù)性),卻不可破譯,因此不可能成為智慧。

 

關(guān)聯(lián)性。無關(guān)的信息,至多只是噪音。

新穎性。這里的新穎性很多時候無法僅僅根據(jù)我們手上的數(shù)據(jù)和信息進(jìn)行判斷。舉個例子,某電子商務(wù)公司通過一組數(shù)據(jù)/信息,分析出了客戶愿意為當(dāng)天送貨的產(chǎn)品多支付10塊錢,然后又通過另一組完全獨立的數(shù)據(jù)/信息得到了同樣的內(nèi)容,這樣的情況下,后者就不具備新穎性。不幸的是,很多時候,我們只有在處理了大量的數(shù)據(jù)和信息以后,才能判斷它們的新穎性。

 

大數(shù)據(jù)時代存儲所面對的問題

隨著大數(shù)據(jù)應(yīng)用的爆發(fā)性增長,它已經(jīng)衍生出了自己獨特的架構(gòu),而且也直接推動了存儲、網(wǎng)絡(luò)以及計算技術(shù)的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動的,就這個例子來說,我們很明顯的看到大數(shù)據(jù)分析應(yīng)用需求正在影響著數(shù)據(jù)存儲基礎(chǔ)設(shè)施的發(fā)展。

從另一方面看,這一變化對存儲廠商和其他IT基礎(chǔ)設(shè)施廠商未嘗不是一個機(jī)會。隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增長,以及分析數(shù)據(jù)來源的多樣化,此前存儲系統(tǒng)的設(shè)計已經(jīng)無法滿足大數(shù)據(jù)應(yīng)用的需要。存儲廠商已經(jīng)意識到這一點,他們開始修改基于塊和文件的存儲系統(tǒng)的架構(gòu)設(shè)計以適應(yīng)這些新的要求。在這里,我們會討論哪些與大數(shù)據(jù)存儲基礎(chǔ)設(shè)施相關(guān)的屬性,看看它們?nèi)绾斡哟髷?shù)據(jù)的挑戰(zhàn)。

 

  容量問題

這里所說的“大容量”通常可達(dá)到PB級的數(shù)據(jù)規(guī)模,因此,海量數(shù)據(jù)存儲系統(tǒng)也一定要有相應(yīng)等級的擴(kuò)展能力。與此同時,存儲系統(tǒng)的擴(kuò)展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機(jī)?;谶@樣的需求,客戶現(xiàn)在越來越青睞Scale-out架構(gòu)的存儲。Scale-out集群結(jié)構(gòu)的特點是每個節(jié)點除了具有一定的存儲容量之外,內(nèi)部還具備數(shù)據(jù)處理能力以及互聯(lián)設(shè)備,與傳統(tǒng)存儲系統(tǒng)的煙囪式架構(gòu)完全不同,Scale-out架構(gòu)可以實現(xiàn)無縫平滑的擴(kuò)展,避免存儲孤島。

“大數(shù)據(jù)”應(yīng)用除了數(shù)據(jù)規(guī)模巨大之外,還意味著擁有龐大的文件數(shù)量。因此如何管理文件系統(tǒng)層累積的元數(shù)據(jù)是一個難題,處理不當(dāng)?shù)脑挄绊懙较到y(tǒng)的擴(kuò)展能力和性能,而傳統(tǒng)的NAS系統(tǒng)就存在這一瓶頸。所幸的是,基于對象的存儲架構(gòu)就不存在這個問題,它可以在一個系統(tǒng)中管理十億級別的文件數(shù)量,而且還不會像傳統(tǒng)存儲一樣遭遇元數(shù)據(jù)管理的困擾。基于對象的存儲系統(tǒng)還具有廣域擴(kuò)展能力,可以在多個不同的地點部署并組成一個跨區(qū)域的大型存儲基礎(chǔ)架構(gòu)。

 

  延遲問題

“大數(shù)據(jù)”應(yīng)用還存在實時性的問題。特別是涉及到與網(wǎng)上交易或者金融類相關(guān)的應(yīng)用。舉個例子來說,網(wǎng)絡(luò)成衣銷售行業(yè)的在線廣告推廣服務(wù)需要實時的對客戶的瀏覽記錄進(jìn)行分析,并準(zhǔn)確的進(jìn)行廣告投放。這就要求存儲系統(tǒng)在必須能夠支持上述特性同時保持較高的響應(yīng)速度,因為響應(yīng)延遲的結(jié)果是系統(tǒng)會推送“過期”的廣告內(nèi)容給客戶。這種場景下,Scale-out架構(gòu)的存儲系統(tǒng)就可以發(fā)揮出優(yōu)勢,因為它的每一個節(jié)點都具有處理和互聯(lián)組件,在增加容量的同時處理能力也可以同步增長。而基于對象的存儲系統(tǒng)則能夠支持并發(fā)的數(shù)據(jù)流,從而進(jìn)一步提高數(shù)據(jù)吞吐量。

有很多“大數(shù)據(jù)”應(yīng)用環(huán)境需要較高的IOPS性能,比如HPC高性能計算。此外,服務(wù)器虛擬化的普及也導(dǎo)致了對高IOPS的需求,正如它改變了傳統(tǒng)IT環(huán)境一樣。為了迎接這些挑戰(zhàn),各種模式的固態(tài)存儲設(shè)備應(yīng)運而生,小到簡單的在服務(wù)器內(nèi)部做高速緩存,大到全固態(tài)介質(zhì)的可擴(kuò)展存儲系統(tǒng)等等都在蓬勃發(fā)展。

并發(fā)訪問一旦企業(yè)認(rèn)識到大數(shù)據(jù)分析應(yīng)用的潛在價值,他們就會將更多的數(shù)據(jù)集納入系統(tǒng)進(jìn)行比較,同時讓更多的人分享并使用這些數(shù)據(jù)。為了創(chuàng)造更多的商業(yè)價值,企業(yè)往往會綜合分析那些來自不同平臺下的多種數(shù)據(jù)對象。包括全局文件系統(tǒng)在內(nèi)的存儲基礎(chǔ)設(shè)施就能夠幫助用戶解決數(shù)據(jù)訪問的問題,全局文件系統(tǒng)允許多個主機(jī)上的多個用戶并發(fā)訪問文件數(shù)據(jù),而這些數(shù)據(jù)則可能存儲在多個地點的多種不同類型的存儲設(shè)備上。

 

  安全問題

某些特殊行業(yè)的應(yīng)用,比如金融數(shù)據(jù)、醫(yī)療信息以及政府情報等都有自己的安全標(biāo)準(zhǔn)和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數(shù)據(jù)分析往往需要多類數(shù)據(jù)相互參考,而在過去并不會有這種數(shù)據(jù)混合訪問的情況,因此大數(shù)據(jù)應(yīng)用也催生出一些新的、需要考慮的安全性問題。

 

  成本問題

“大”,也可能意味著代價不菲。而對于那些正在使用大數(shù)據(jù)環(huán)境的企業(yè)來說,成本控制是關(guān)鍵的問題。想控制成本,就意味著我們要讓每一臺設(shè)備都實現(xiàn)更高的“效率”,同時還要減少那些昂貴的部件。目前,像重復(fù)數(shù)據(jù)刪除等技術(shù)已經(jīng)進(jìn)入到主存儲市場,而且現(xiàn)在還可以處理更多的數(shù)據(jù)類型,這都可以為大數(shù)據(jù)存儲應(yīng)用帶來更多的價值,提升存儲效率。在數(shù)據(jù)量不斷增長的環(huán)境中,通過減少后端存儲的消耗,哪怕只是降低幾個百分點,都能夠獲得明顯的投資回報。此外,自動精簡配置、快照和克隆技術(shù)的使用也可以提升存儲的效率。

很多大數(shù)據(jù)存儲系統(tǒng)都包括歸檔組件,尤其對那些需要分析歷史數(shù)據(jù)或需要長期保存數(shù)據(jù)的機(jī)構(gòu)來說,歸檔設(shè)備必不可少。從單位容量存儲成本的角度看,磁帶仍然是最經(jīng)濟(jì)的存儲介質(zhì),事實上,在許多企業(yè)中,使用支持TB級大容量磁帶的歸檔系統(tǒng)仍然是事實上的標(biāo)準(zhǔn)和慣例。

對成本控制影響最大的因素是那些商業(yè)化的硬件設(shè)備。因此,很多初次進(jìn)入這一領(lǐng)域的用戶以及那些應(yīng)用規(guī)模最大的用戶都會定制他們自己的“硬件平臺”而不是用現(xiàn)成的商業(yè)產(chǎn)品,這一舉措可以用來平衡他們在業(yè)務(wù)擴(kuò)展過程中的成本控制戰(zhàn)略。為了適應(yīng)這一需求,現(xiàn)在越來越多的存儲產(chǎn)品都提供純軟件的形式,可以直接安裝在用戶已有的、通用的或者現(xiàn)成的硬件設(shè)備上。此外,很多存儲軟件公司還在銷售以軟件產(chǎn)品為核心的軟硬一體化裝置,或者與硬件廠商結(jié)盟,推出合作型產(chǎn)品。

 

  數(shù)據(jù)的積累

許多大數(shù)據(jù)應(yīng)用都會涉及到法規(guī)遵從問題,這些法規(guī)通常要求數(shù)據(jù)要保存幾年或者幾十年。比如醫(yī)療信息通常是為了保證患者的生命安全,而財務(wù)信息通常要保存7年。而有些使用大數(shù)據(jù)存儲的用戶卻希望數(shù)據(jù)能夠保存更長的時間,因為任何數(shù)據(jù)都是歷史記錄的一部分,而且數(shù)據(jù)的分析大都是基于時間段進(jìn)行的。要實現(xiàn)長期的數(shù)據(jù)保存,就要求存儲廠商開發(fā)出能夠持續(xù)進(jìn)行數(shù)據(jù)一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現(xiàn)數(shù)據(jù)直接在原位更新的功能需求。

 

  靈活性

大數(shù)據(jù)存儲系統(tǒng)的基礎(chǔ)設(shè)施規(guī)模通常都很大,因此必須經(jīng)過仔細(xì)設(shè)計,才能保證存儲系統(tǒng)的靈活性,使其能夠隨著應(yīng)用分析軟件一起擴(kuò)容及擴(kuò)展。在大數(shù)據(jù)存儲環(huán)境中,已經(jīng)沒有必要再做數(shù)據(jù)遷移了,因為數(shù)據(jù)會同時保存在多個部署站點。一個大型的數(shù)據(jù)存儲基礎(chǔ)設(shè)施一旦開始投入使用,就很難再調(diào)整了,因此它必須能夠適應(yīng)各種不同的應(yīng)用類型和數(shù)據(jù)場景。

 

  應(yīng)用感知

最早一批使用大數(shù)據(jù)的用戶已經(jīng)開發(fā)出了一些針對應(yīng)用的定制的基礎(chǔ)設(shè)施,比如針對政府項目開發(fā)的系統(tǒng),還有大型互聯(lián)網(wǎng)服務(wù)商創(chuàng)造的專用服務(wù)器等。在主流存儲系統(tǒng)領(lǐng)域,應(yīng)用感知技術(shù)的使用越來越普遍,它也是改善系統(tǒng)效率和性能的重要手段,所以,應(yīng)用感知技術(shù)也應(yīng)該用在大數(shù)據(jù)存儲環(huán)境里。

 

  小用戶怎么辦?

依賴大數(shù)據(jù)的不僅僅是那些特殊的大型用戶群體,作為一種商業(yè)需求,小型企業(yè)未來也一定會應(yīng)用到大數(shù)據(jù)。我們看到,有些存儲廠商已經(jīng)在開發(fā)一些小型的“大數(shù)據(jù)”存儲系統(tǒng),主要吸引那些對成本比較敏感的用戶。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }