
大數(shù)據(jù):存儲技術必須跟上
“大數(shù)據(jù)” 通常指的是那些數(shù)量巨大、難于收集、處理、分析的數(shù)據(jù)集,亦指那些在傳統(tǒng)基礎設施中長期保存的數(shù)據(jù)。這里的“大”有幾層含義,它可以形容組織的大小,而更重要的是,它界定了企業(yè)中IT基礎設施的規(guī)模。業(yè)內對大數(shù)據(jù)應用寄予了無限的期望 商業(yè)信息積累的越多價值也越大 只不過我們需要一個方法把這些價值挖掘出來。
也許人們對大數(shù)據(jù)的印象主要從存儲容量的廉價性而來,但實際上,企業(yè)每天都在創(chuàng)造大量的數(shù)據(jù),而且越來越多,而人們正在努力的從浩如煙海的數(shù)據(jù)中尋覓有價值的商業(yè)情報。另一方面,用戶還會保存那些已經(jīng)分析過的數(shù)據(jù),因為這些舊數(shù)據(jù)可以與未來收集的新數(shù)據(jù)進行對照,依然有潛在的利用可能。
為什么要大數(shù)據(jù)?為什么是現(xiàn)在?
與以往相比,我們除了有能力存儲更多的數(shù)據(jù)量之外,還要面對更多的數(shù)據(jù)類型。這些數(shù)據(jù)的來源包括網(wǎng)上交易、網(wǎng)絡社交活動、自動傳感器、移動設備以及科學儀器等等。除了那些固定的數(shù)據(jù)生產源,各種交易行為還可能加快數(shù)據(jù)的積累速度。比如說,社交類多媒體數(shù)據(jù)的爆炸性增長就源于新的網(wǎng)上交易和記錄行為。數(shù)據(jù)永遠都在增長之中,但是,只有存儲海量數(shù)據(jù)的能力是不夠的,因為這并不能保證我們能夠成功地從中搜尋出商業(yè)價值。
數(shù)據(jù)是重要的生產要素
信息時代,數(shù)據(jù)儼然已成為一種重要的生產要素,如同資本、勞動力和原材料等其他要素一樣,而且作為一種普遍需求,它也不再局限于某些特殊行業(yè)的應用。各行各業(yè)的公司都在收集并利用大量的數(shù)據(jù)分析結果,盡可能的降低成本,提高產品質量、提高生產效率以及創(chuàng)造新的產品。例如,通過分析直接從產品測試現(xiàn)場收集的數(shù)據(jù),能夠幫助企業(yè)改進設計。此外,一家公司還可以通過深入分析客戶行為,對比大量的市場數(shù)據(jù),從而超越他的競爭對手。
存儲技術必須跟上
隨著大數(shù)據(jù)應用的爆發(fā)性增長,它已經(jīng)衍生出了自己獨特的架構,而且也直接推動了存儲、網(wǎng)絡以及計算技術的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動的,就這個例子來說,我們很明顯的看到大數(shù)據(jù)分析應用需求正在影響著數(shù)據(jù)存儲基礎設施的發(fā)展。
從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數(shù)據(jù)和非結構化數(shù)據(jù)量的持續(xù)增長,以及分析數(shù)據(jù)來源的多樣化,此前存儲系統(tǒng)的設計已經(jīng)無法滿足大數(shù)據(jù)應用的需要。存儲廠商已經(jīng)意識到這一點,他們開始修改基于塊和文件的存儲系統(tǒng)的架構設計以適應這些新的要求。在這里,我們會討論哪些與大數(shù)據(jù)存儲基礎設施相關的屬性,看看它們如何迎接大數(shù)據(jù)的挑戰(zhàn)。
容量問題
這里所說的“大容量”通??蛇_到PB級的數(shù)據(jù)規(guī)模,因此,海量數(shù)據(jù)存儲系統(tǒng)也一定要有相應等級的擴展能力。與此同時,存儲系統(tǒng)的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機?;谶@樣的需求,客戶現(xiàn)在越來越青睞Scale-out架構的存儲。Scale-out集群結構的特點是每個節(jié)點除了具有一定的存儲容量之外,內部還具備數(shù)據(jù)處理能力以及互聯(lián)設備,與傳統(tǒng)存儲系統(tǒng)的煙囪式架構完全不同,Scale-out架構可以實現(xiàn)無縫平滑的擴展,避免存儲孤島。
“大數(shù)據(jù)”應用除了數(shù)據(jù)規(guī)模巨大之外,還意味著擁有龐大的文件數(shù)量。因此如何管理文件系統(tǒng)層累積的元數(shù)據(jù)是一個難題,處理不當?shù)脑挄绊懙较到y(tǒng)的擴展能力和性能,而傳統(tǒng)的NAS系統(tǒng)就存在這一瓶頸。所幸的是,基于對象的存儲架構就不存在這個問題,它可以在一個系統(tǒng)中管理十億級別的文件數(shù)量,而且還不會像傳統(tǒng)存儲一樣遭遇元數(shù)據(jù)管理的困擾。基于對象的存儲系統(tǒng)還具有廣域擴展能力,可以在多個不同的地點部署并組成一個跨區(qū)域的大型存儲基礎架構。[page] 延遲問題
“大數(shù)據(jù)”應用還存在實時性的問題。特別是涉及到與網(wǎng)上交易或者金融類相關的應用。舉個例子來說,網(wǎng)絡成衣銷售行業(yè)的在線廣告推廣服務需要實時的對客戶的瀏覽記錄進行分析,并準確的進行廣告投放。這就要求存儲系統(tǒng)在必須能夠支持上述特性同時保持較高的響應速度,因為響應延遲的結果是系統(tǒng)會推送“過期”的廣告內容給客戶。這種場景下,Scale-out架構的存儲系統(tǒng)就可以發(fā)揮出優(yōu)勢,因為它的每一個節(jié)點都具有處理和互聯(lián)組件,在增加容量的同時處理能力也可以同步增長。而基于對象的存儲系統(tǒng)則能夠支持并發(fā)的數(shù)據(jù)流,從而進一步提高數(shù)據(jù)吞吐量。
有很多“大數(shù)據(jù)”應用環(huán)境需要較高的IOPS性能,比如HPC高性能計算。此外,服務器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統(tǒng)IT環(huán)境一樣。為了迎接這些挑戰(zhàn),各種模式的固態(tài)存儲設備應運而生,小到簡單的在服務器內部做高速緩存,大到全固態(tài)介質的可擴展存儲系統(tǒng)等等都在蓬勃發(fā)展。
并發(fā)訪問 一旦企業(yè)認識到大數(shù)據(jù)分析應用的潛在價值,他們就會將更多的數(shù)據(jù)集納入系統(tǒng)進行比較,同時讓更多的人分享并使用這些數(shù)據(jù)。為了創(chuàng)造更多的商業(yè)價值,企業(yè)往往會綜合分析那些來自不同平臺下的多種數(shù)據(jù)對象。包括全局文件系統(tǒng)在內的存儲基礎設施就能夠幫助用戶解決數(shù)據(jù)訪問的問題,全局文件系統(tǒng)允許多個主機上的多個用戶并發(fā)訪問文件數(shù)據(jù),而這些數(shù)據(jù)則可能存儲在多個地點的多種不同類型的存儲設備上。
安全問題
某些特殊行業(yè)的應用,比如金融數(shù)據(jù)、醫(yī)療信息以及政府情報等都有自己的安全標準和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數(shù)據(jù)分析往往需要多類數(shù)據(jù)相互參考,而在過去并不會有這種數(shù)據(jù)混合訪問的情況,因此大數(shù)據(jù)應用也催生出一些新的、需要考慮的安全性問題。
成本問題
“大”,也可能意味著代價不菲。而對于那些正在使用大數(shù)據(jù)環(huán)境的企業(yè)來說,成本控制是關鍵的問題。想控制成本,就意味著我們要讓每一臺設備都實現(xiàn)更高的“效率”,同時還要減少那些昂貴的部件。目前,像重復數(shù)據(jù)刪除等技術已經(jīng)進入到主存儲市場,而且現(xiàn)在還可以處理更多的數(shù)據(jù)類型,這都可以為大數(shù)據(jù)存儲應用帶來更多的價值,提升存儲效率。在數(shù)據(jù)量不斷增長的環(huán)境中,通過減少后端存儲的消耗,哪怕只是降低幾個百分點,都能夠獲得明顯的投資回報。此外,自動精簡配置、快照和克隆技術的使用也可以提升存儲的效率。[page] 很多大數(shù)據(jù)存儲系統(tǒng)都包括歸檔組件,尤其對那些需要分析歷史數(shù)據(jù)或需要長期保存數(shù)據(jù)的機構來說,歸檔設備必不可少。從單位容量存儲成本的角度看,磁帶仍然是最經(jīng)濟的存儲介質,事實上,在許多企業(yè)中,使用支持TB級大容量磁帶的歸檔系統(tǒng)仍然是事實上的標準和慣例。
對成本控制影響最大的因素是那些商業(yè)化的硬件設備。因此,很多初次進入這一領域的用戶以及那些應用規(guī)模最大的用戶都會定制他們自己的“硬件平臺”而不是用現(xiàn)成的商業(yè)產品,這一舉措可以用來平衡他們在業(yè)務擴展過程中的成本控制戰(zhàn)略。為了適應這一需求,現(xiàn)在越來越多的存儲產品都提供純軟件的形式,可以直接安裝在用戶已有的、通用的或者現(xiàn)成的硬件設備上。此外,很多存儲軟件公司還在銷售以軟件產品為核心的軟硬一體化裝置,或者與硬件廠商結盟,推出合作型產品。
數(shù)據(jù)的積累
許多大數(shù)據(jù)應用都會涉及到法規(guī)遵從問題,這些法規(guī)通常要求數(shù)據(jù)要保存幾年或者幾十年。比如醫(yī)療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數(shù)據(jù)存儲的用戶卻希望數(shù)據(jù)能夠保存更長的時間,因為任何數(shù)據(jù)都是歷史記錄的一部分,而且數(shù)據(jù)的分析大都是基于時間段進行的。要實現(xiàn)長期的數(shù)據(jù)保存,就要求存儲廠商開發(fā)出能夠持續(xù)進行數(shù)據(jù)一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現(xiàn)數(shù)據(jù)直接在原位更新的功能需求。
靈活性
大數(shù)據(jù)存儲系統(tǒng)的基礎設施規(guī)模通常都很大,因此必須經(jīng)過仔細設計,才能保證存儲系統(tǒng)的靈活性,使其能夠隨著應用分析軟件一起擴容及擴展。在大數(shù)據(jù)存儲環(huán)境中,已經(jīng)沒有必要再做數(shù)據(jù)遷移了,因為數(shù)據(jù)會同時保存在多個部署站點。一個大型的數(shù)據(jù)存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數(shù)據(jù)場景。
應用感知
最早一批使用大數(shù)據(jù)的用戶已經(jīng)開發(fā)出了一些針對應用的定制的基礎設施,比如針對政府項目開發(fā)的系統(tǒng),還有大型互聯(lián)網(wǎng)服務商創(chuàng)造的專用服務器等。在主流存儲系統(tǒng)領域,應用感知技術的使用越來越普遍,它也是改善系統(tǒng)效率和性能的重要手段,所以,應用感知技術也應該用在大數(shù)據(jù)存儲環(huán)境里。
小用戶怎么辦?
依賴大數(shù)據(jù)的不僅僅是那些特殊的大型用戶群體,作為一種商業(yè)需求,小型企業(yè)未來也一定會應用到大數(shù)據(jù)。我們看到,有些存儲廠商已經(jīng)在開發(fā)一些小型的“大數(shù)據(jù)”存儲系統(tǒng),主要吸引那些對成本比較敏感的用戶。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03