
重視大數(shù)據(jù)引領(lǐng)數(shù)據(jù)管理變革
供應(yīng)商在每發(fā)布一款產(chǎn)品時(shí)都往往會(huì)有這樣一種偏好,將其產(chǎn)品和最新的一些熱炒的話題結(jié)合起來。而這次,廠商們又開始在每項(xiàng)產(chǎn)品中增加“大數(shù)據(jù)”的概念。如果你是一位存儲(chǔ)管理員的話,你或許會(huì)在管理你自己環(huán)境中的大數(shù)據(jù)時(shí)遇到困惑。供應(yīng)商口中的大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)分析非常相似,因此你很容易理解成這兩者是相關(guān)的--大數(shù)據(jù)存儲(chǔ)是用于大數(shù)據(jù)分析的。然而,到目前為止這是兩種截然不同的計(jì)算機(jī)技術(shù)領(lǐng)域:一項(xiàng)致力于研發(fā)可以擴(kuò)展至PB甚至EB級別的數(shù)據(jù)存儲(chǔ)平臺(大數(shù)據(jù)存儲(chǔ));另一項(xiàng)則關(guān)注在最短時(shí)間內(nèi)處理大量不同類型的數(shù)據(jù)集(大數(shù)據(jù)分析)。
不過,在這些快速變化的趨勢之中有至少兩個(gè)結(jié)點(diǎn),是存儲(chǔ)管理員需要越為重視的。其一,大數(shù)據(jù)分析流程和傳統(tǒng)的數(shù)據(jù)倉庫的方式完全不同,其已經(jīng)變成了業(yè)務(wù)部門級別和數(shù)據(jù)中心級別的關(guān)鍵應(yīng)用。這也是存儲(chǔ)管理員的切入點(diǎn)。隨著基礎(chǔ)平臺(分布式計(jì)算或其它架構(gòu))變得業(yè)務(wù)關(guān)鍵化,用戶群較以往更加地依賴這一平臺,這也使得其成為企業(yè)安全性、數(shù)據(jù)保護(hù)和數(shù)據(jù)管理策略的關(guān)鍵課題。
其二,通常用于數(shù)據(jù)分析平臺的分布式計(jì)算平臺內(nèi)的存儲(chǔ)不是你以往面對的網(wǎng)絡(luò)附加存儲(chǔ)(NAS)和存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)--其通常是內(nèi)置的直連存儲(chǔ)(NAS)以及組成集群的分布式計(jì)算節(jié)點(diǎn)。這使得管理大數(shù)據(jù)變得更為復(fù)雜,因?yàn)槟銦o法像以前那樣對這些數(shù)據(jù)部署安全、保護(hù)和保存流程。然而,執(zhí)行這些流程策略的必要性被集成在管理分布式計(jì)算集群之中,并且改變了計(jì)算和存儲(chǔ)層交互的方式。
在我們一系列管理企業(yè)的大數(shù)據(jù)專題的第一篇文稿中,我們將關(guān)注在大數(shù)據(jù)分析和傳統(tǒng)的數(shù)據(jù)倉庫的不同之處,并且引入分布式計(jì)算集群作為大數(shù)據(jù)分析的基礎(chǔ)。下一步,我們將著眼于分布式計(jì)算中的存儲(chǔ),并且進(jìn)一步觀察分布式計(jì)算如何創(chuàng)建并使用存儲(chǔ)層。然后,我們將檢驗(yàn)一個(gè)三段式的存儲(chǔ)模型,其中在分布式計(jì)算的存儲(chǔ)層中包含了NAS和SAN.最后,我們通過使用一些同樣的判斷因素--這些因素你作為存儲(chǔ)管理員在評估存儲(chǔ)陣列中同樣會(huì)用到--來對分布式計(jì)算作為一個(gè)存儲(chǔ)設(shè)備進(jìn)行評估。
區(qū)別大數(shù)據(jù)分析和傳統(tǒng)的數(shù)據(jù)倉庫的不同
大數(shù)據(jù)分析中包含了各種快速成長中的技術(shù)。因此,簡單用某一種技術(shù)嘗試對其定義,比如分布式計(jì)算,會(huì)比較困難。不過,這些定義大數(shù)據(jù)分析的通用性技術(shù)可以用如下特征闡述:[page]
對于傳統(tǒng)數(shù)據(jù)倉庫處理流程效率和擴(kuò)展性方面限制的感知。將數(shù)據(jù),不論是結(jié)構(gòu)化還是非結(jié)構(gòu)化數(shù)據(jù)從多個(gè)數(shù)據(jù)源匯聚的能力。以及認(rèn)識到數(shù)據(jù)的及時(shí)性是擴(kuò)展非結(jié)構(gòu)化數(shù)據(jù)源的關(guān)鍵,其中包括移動(dòng)設(shè)備,RFID,網(wǎng)絡(luò)和不斷增長的自動(dòng)化感知技術(shù)。
傳統(tǒng)的數(shù)據(jù)倉庫系統(tǒng)通常從現(xiàn)有的關(guān)系型數(shù)據(jù)庫中抓取數(shù)據(jù)。然而,據(jù)估計(jì)超過80%的企業(yè)數(shù)據(jù)是非結(jié)構(gòu)化的,即無法關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS),比如DB2和Oracle完成的數(shù)據(jù)。一般而言,處于此次討論的目的,非結(jié)構(gòu)化數(shù)據(jù)可以看成所有無法簡單轉(zhuǎn)化到結(jié)構(gòu)化關(guān)系型數(shù)據(jù)庫中的所有數(shù)據(jù)。而企業(yè)現(xiàn)在希望從這些非結(jié)構(gòu)化數(shù)據(jù)類型中抽取有價(jià)值的信息,包括:
郵件和其它形式的電子通訊記錄
網(wǎng)站上的資料,包括點(diǎn)擊量和社交媒體相關(guān)的內(nèi)容
數(shù)字視頻和音頻
設(shè)備產(chǎn)生的數(shù)據(jù)(RFID,GPS,傳感器產(chǎn)生的數(shù)據(jù),日志文件等)以及物聯(lián)網(wǎng)
在大數(shù)據(jù)分析的情況下,查看遠(yuǎn)多于RDBMS的數(shù)據(jù)類型十分必要--這代表了各種重要的新信息源。并且隨著每年非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)總量較結(jié)構(gòu)化數(shù)據(jù)增長率高出10到50倍,從業(yè)務(wù)角度看這些數(shù)據(jù)也變得更為重要。
為什么需要更新的技術(shù)?
從大數(shù)據(jù)分析角度看,業(yè)務(wù)主管的挑戰(zhàn)在于從各種數(shù)據(jù)源獲取信息,并執(zhí)行分析流程以打開信息的價(jià)值。傳統(tǒng)數(shù)據(jù)倉庫技術(shù)并不是設(shè)計(jì)在很短的時(shí)間內(nèi)(5秒鐘甚至更少)用于處理海量的非結(jié)構(gòu)化數(shù)據(jù),因此市場上產(chǎn)生了管理大數(shù)據(jù)的需求。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03