
云計算環(huán)境中的數(shù)據(jù)挖掘存儲管理設計
1.引言
Hadoop提供了一個基于HDFs的簡單數(shù)據(jù)庫HBase,它的設計思想和數(shù)據(jù)模型都與Google開發(fā)的模型簡化的大規(guī)模分布式數(shù)據(jù)庫BigTabIe極為相似。HBase不支持完全的關系數(shù)據(jù)模型,只為用戶提供了簡單的數(shù)據(jù)模型,讓客戶來動態(tài)控制數(shù)據(jù)的分布和格式。從數(shù)據(jù)模型角度看,HBase是一個稀疏的、長期存儲的(存在硬盤上)、多維度的、排序的映射表。這張表的索引是行關鍵字、列關鍵字和時間戳。每個值是一個不解釋的字符數(shù)組,用戶需要自己解釋存儲的字串的類型和含義。這種模型具有很大的靈活性,通過仔細選擇數(shù)據(jù)表示,用戶可以控制數(shù)據(jù)的局部化。但是這種靈活性的代價就是不支持完全的關系數(shù)據(jù)模型,這導致傳統(tǒng)的數(shù)據(jù)存儲格式無法應用于HBase。Google自身的GFS是為網(wǎng)頁搜索功能量身定做的,采用BigTable的簡單數(shù)據(jù)模型可以以字符串形式靈活存儲網(wǎng)頁的URL、時間戳等信息。HDFS的設計完全借鑒了GFS的思想,因此從目前的版本來看,HDFS對網(wǎng)頁搜索具有較好的支持,但是對于使用傳統(tǒng)的關系數(shù)據(jù)模型的產(chǎn)品來說,HDFS并不是一個很好的選擇,因為它不能提供傳統(tǒng)的關系數(shù)據(jù)庫的相關功能。如上所述,以Hadoop為例,目前的開源解決方案并不完全適用于某公司的新產(chǎn)品需求,因此我們需要參照現(xiàn)有解決方案,設計符合自身需要的新方案。
2.DDF的數(shù)據(jù)劃分策略
面對大量的異構(gòu)的用戶數(shù)據(jù),我們有必要對數(shù)據(jù)進行劃分,以期得到更好的查詢性能。
數(shù)據(jù)劃分策略可分為垂直數(shù)據(jù)劃分(Horizontal panition)和水平數(shù)據(jù)劃分(VerticaI partition),在DDF中同時采用了這兩種劃分策略。垂直數(shù)據(jù)劃分是按照功能劃分:
(1)首先把對象數(shù)據(jù)、查詢數(shù)據(jù)和其他數(shù)據(jù)劃分到不同的數(shù)據(jù)表中(數(shù)據(jù)庫的表)。
(2)對于對象數(shù)據(jù),由于是按對象類型(Object type)訪問的,那么我們可以進一步按照對象類型進行垂直劃分,把不同類型的對象數(shù)據(jù)劃分到相應的數(shù)據(jù)表中。
(3)對于查詢數(shù)據(jù),在目前的研究階段,也將其按照對象類型進行垂直劃分,存儲到相應的數(shù)據(jù)表中。
另外,采用對象的全局標識(UID)的哈希值(Hash)進行水平劃分,從而將對象數(shù)據(jù)劃分到不同的數(shù)據(jù)節(jié)點(Datanode)的策略,需要面對數(shù)據(jù)遷移的問題,即當增加新的數(shù)據(jù)節(jié)點時,如何確保原有數(shù)據(jù)節(jié)點上的數(shù)據(jù)不進行或者盡量少進行遷移。
3.DDF的數(shù)據(jù)存儲策略
DDF借鑒了HDFS的設計思想,在架構(gòu)中引入了數(shù)據(jù)節(jié)點的概念,整個數(shù)據(jù)存儲策略的設計理念如下。
(1)每個數(shù)據(jù)劃分只可能存放在同一個數(shù)據(jù)庫中,不允許一個數(shù)據(jù)劃分分裂存放在多個數(shù)據(jù)庫的情況出現(xiàn)。但是,具有相同數(shù)據(jù)對象類型的不同劃分可以存放在不同的數(shù)據(jù)庫中。
(2)允許不同類型的數(shù)據(jù)(如對象數(shù)據(jù)和查詢數(shù)據(jù))采用不同的劃分策略。
(3)概念層次上的劃分和存儲層次上的數(shù)據(jù)庫是一個多對多的關系,也就是說,我們甚至可以將所有的劃分存放在同一個數(shù)據(jù)庫內(nèi)。這種極端情況同樣是被允許的。
(4)當我們將一個劃分指定給一個數(shù)據(jù)庫時,它們的對應關系應被記錄,這樣在查詢數(shù)據(jù)時可以定位到正確的數(shù)據(jù)庫。
4.DDF的節(jié)點劃分策略
DDF的節(jié)點劃分策略是建立在數(shù)據(jù)劃分和數(shù)據(jù)存儲策略的基礎之上的,節(jié)點劃分策略從應用層面上描述了DDF各節(jié)點的功能。
對于收到的遠程更新和查詢操作的請求,調(diào)度節(jié)點必須進行分析,以判斷這些操作的作用域。如果操作與當前位置的數(shù)據(jù)無關,那么這些更新和查詢操作會被拒絕。數(shù)據(jù)節(jié)點則應具有以下功能:
(1)存儲數(shù)據(jù)。
(2)處理索引相關的請求。
(3)處理查詢請求。
(4)負責部分對查詢結(jié)果進行分頁的功能。
(5)創(chuàng)建并管理集合對象(對緩存的查詢)。
(6)負責對過期數(shù)據(jù)進行處理,這包括刪除與過期數(shù)據(jù)相關的對象和索引。
數(shù)據(jù)節(jié)點本身并不關心數(shù)據(jù)的位置問題,調(diào)度節(jié)點應該關心數(shù)據(jù)所處的位置。數(shù)據(jù)對象的全局標識符決定了它應該位于哪個位置。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03