
大數(shù)據(jù)是時下最熱門的企業(yè)IT話題,那么大數(shù)據(jù)對存儲有什么要求呢?為了解決這個問題,我們首先來分析一下大數(shù)據(jù)的特點。
Gartner對大數(shù)據(jù)下了一個簡潔的定義:“大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!?/span>
所以,大數(shù)據(jù)既包含結(jié)構(gòu)化數(shù)據(jù)也包括非結(jié)構(gòu)化數(shù)據(jù),而且是以數(shù)量巨大、變化率高的形式存在。
大數(shù)據(jù)如此熱門的主要原因是因為它能提供可行性的見解。企業(yè)通常使用分析應(yīng)用來提取大數(shù)據(jù)里的本來難以挖掘的信息,而這是用現(xiàn)有的技術(shù)和方法不可能辦到的。
像石化工業(yè)和金融服務(wù)行業(yè)已經(jīng)使用數(shù)據(jù)倉庫技術(shù)來處理大量的數(shù)據(jù)幾十年了。但這并不是指現(xiàn)在所謂的大數(shù)據(jù)。
主要區(qū)別在于,現(xiàn)在的大數(shù)據(jù)包括非結(jié)構(gòu)化數(shù)據(jù),并且可以從各種數(shù)據(jù)中提取有用的信息,比如郵件、日志文件、社交多媒體、商業(yè)交易及其他數(shù)據(jù)。
比如,保存在數(shù)據(jù)庫里的一家連鎖零售商店的某商品的銷售圖表數(shù)據(jù)。對這些數(shù)據(jù)的獲取就不是大數(shù)據(jù)范疇的問題。
但是如果企業(yè)需要把某商品的銷售量和特定時刻的天氣狀況,或者不同的消費者信息聯(lián)系起來,并且要求能快速獲取這些信息,這需要密集處理,這就是大數(shù)據(jù)技術(shù)的一種應(yīng)用。
大數(shù)據(jù)存儲和傳統(tǒng)的數(shù)據(jù)存儲相比有什么不同?
大數(shù)據(jù)應(yīng)用的一個主要特點是實時性或者近實時性。比如,如果警察攔住一輛車,想得到這輛車的相關(guān)信息,那么這對時間的要求是越快越好。
類似的,一個金融類的應(yīng)用,能為業(yè)務(wù)員從數(shù)量巨大種類繁多的數(shù)據(jù)里快速挖掘出相關(guān)信息,能幫助他們領(lǐng)先于競爭對手做出交易的決定。
數(shù)據(jù)通常以每年增長50%的速度快速激增,尤其是非結(jié)構(gòu)化數(shù)據(jù)。隨著科技的進(jìn)步,有越來越多的傳感器采集數(shù)據(jù)、移動設(shè)備、社交多媒體等等,所以數(shù)據(jù)只可能繼續(xù)增長。
總而言之,大數(shù)據(jù)需要非常高性能、高吞吐率、大容量的基礎(chǔ)設(shè)備。
大數(shù)據(jù)存儲選擇
選擇存儲大數(shù)據(jù)方法時需要考慮到應(yīng)用特點和使用模式。
在傳統(tǒng)的數(shù)據(jù)倉庫上進(jìn)行對相似數(shù)據(jù)集的挖掘操作,一般都在一個單獨的存儲設(shè)備上進(jìn)行?,F(xiàn)在這種方法對處理能力和存儲容量的可擴展性來說已經(jīng)不是最優(yōu)的選擇了。
相反,一個web分析工作負(fù)載要求能在低延遲的情況下訪問大量的小文件,使用大量的電腦或者存儲單元,性能和容量都可以在一定條件下進(jìn)行擴展。這種存儲方式更適合大數(shù)據(jù)。
這里提到了多種存儲方法。
首先是橫向擴展(scale-out)NAS。
橫向擴展NAS是文件級別的訪問存儲器,它是由多個連接在一起的存儲節(jié)點構(gòu)成,而且存儲容量和處理能力會隨著節(jié)點的增加而提升。同時,支持?jǐn)?shù)十億文件和PB級存儲容量的并行文件系統(tǒng)允許把不同位置的大量數(shù)據(jù)連接起來。
橫向擴展NAS產(chǎn)品主要包括:EMC Isilon及其OneFS分布式文件系統(tǒng);HDS的 Cloudera Hadoop Distribution Cluster 基準(zhǔn)體系架構(gòu);Data Direct Networks hScaler Hadoop NAS平臺;IBM的SONAS;HP的X9000;還有DATA Ontap橫向擴展操作系統(tǒng)版本已經(jīng)到8.2的NetApp。
另外一個適合處理大量數(shù)據(jù)的技術(shù)是對象存儲。對象存儲有可能替代傳統(tǒng)的樹形文件系統(tǒng)。對象存儲支持平行的數(shù)據(jù)結(jié)構(gòu),所有文件都有唯一的ID標(biāo)識,類似于網(wǎng)上的DNS系統(tǒng)。在平行的文件系統(tǒng)結(jié)構(gòu)中比在垂直的文件系統(tǒng)結(jié)構(gòu)中處理大量的對象要簡單的多。
對象存儲產(chǎn)品越來越多的支持大數(shù)據(jù)分析環(huán)境,其產(chǎn)品主要有Scality的RING體系結(jié)構(gòu),Dell 的DX,還有EMC的Atmos平臺。
Hyperscale、大數(shù)據(jù)和ViPR
一個被稱作hyperscale的計算機/存儲體系結(jié)構(gòu)憑借其被諸如Facebook和Google等公司的使用,而日益突顯。Hyperscale使用許多相對簡單常見的基于硬件的直連式存儲計算機節(jié)點,來提高大數(shù)據(jù)分析環(huán)境的性能,比如Hadoop。
和傳統(tǒng)的企業(yè)級計算和存儲構(gòu)架不同,hyperscale在完整的計算機/DAS節(jié)點上進(jìn)行冗余備份。如果一部分節(jié)點遇到故障,失敗的任務(wù)將會交給另一個備份節(jié)點。整個出故障的單元都會被替換。
這個方法適合非常大規(guī)模數(shù)據(jù)的用戶,比如前面提到的一些網(wǎng)絡(luò)先驅(qū)者。
但是這也不一定,因為一些有實力的供應(yīng)商已經(jīng)意識到hyperscale體系結(jié)構(gòu)給他們帶來的機會和威脅,同時隨著數(shù)據(jù)的增長,大數(shù)據(jù)種類也紛繁復(fù)雜。
這似乎就是EMC推出其軟件定義存儲ViPR的原因了。今年EMC World 公布,ViPR在現(xiàn)有的存儲設(shè)備上放置了一個橫向擴展對象,能將這些存儲設(shè)備——EMC或者其它供應(yīng)商的存儲陣列、DAS和商品存儲——管理起來作為一個單獨的存儲池。另外,ViPR的存儲容量可以通過API連接到Hadoop或者其它大數(shù)據(jù)分析引擎,使數(shù)據(jù)可以在數(shù)據(jù)存儲的位置進(jìn)行分析查詢。
Nutanix被稱為高度融合的存儲和計算節(jié)點的出現(xiàn)也反應(yīng)了這個趨勢。
這個初創(chuàng)公司將計算和存儲系統(tǒng)合并到了一起,并出售其支持集群的2U系統(tǒng),該系統(tǒng)為Hadoop用戶提供hyperscale節(jié)點,每個節(jié)點有四個CPU插槽。使用SSD和旋轉(zhuǎn)介質(zhì),提供數(shù)據(jù)分層和壓縮,能達(dá)到宣稱的2GBps的吞吐量。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04