
大數(shù)據(jù)存儲(chǔ)平臺(tái)之異構(gòu)存儲(chǔ)實(shí)踐深度解讀
經(jīng)常做數(shù)據(jù)處理的伙伴們肯定會(huì)有這樣一種體會(huì):最近一周內(nèi)的數(shù)據(jù)會(huì)被經(jīng)常使用到,而比如最近幾周的數(shù)據(jù)使用率會(huì)有下降,每周僅僅被訪問幾次;在比如3月以前的數(shù)據(jù)使用率會(huì)大幅下滑,存儲(chǔ)的數(shù)據(jù)可能一個(gè)月才被訪問幾次。
這就產(chǎn)生了一種熱和冷數(shù)據(jù),對(duì)需要頻繁訪問的數(shù)據(jù)我們稱之為“熱”數(shù)據(jù),反之我們稱之為”冷”數(shù)據(jù),而處于中間的數(shù)據(jù)我們稱之為”溫”數(shù)據(jù)。
在數(shù)據(jù)被視為公司資產(chǎn)的時(shí)代,每個(gè)公司基本都會(huì)保存最近數(shù)年的數(shù)據(jù),而這些數(shù)據(jù)尤其是冷數(shù)據(jù)的累積也給存儲(chǔ)平臺(tái)帶來了甜蜜的負(fù)擔(dān)。下面就來分享下如何解決這些“負(fù)擔(dān)”。
首先如何定義數(shù)據(jù)為冷熱數(shù)據(jù)呢,eBay公司根據(jù)數(shù)據(jù)年齡和使用頻率來定義不失為一種辦法,下圖為eBay關(guān)于數(shù)據(jù)溫度的定義。
從hadoop2.6開始,HDFS更好的支持了這種冷熱數(shù)據(jù)的分離存儲(chǔ),我們可以按HDFS路徑指定其存儲(chǔ)策略,目前HDFS支持的存儲(chǔ)策略有:HOT、WARM、COLD、All_SSD、One_SSD、Lazy_Persist,我們著重介紹SSD相關(guān)的存儲(chǔ)策略,具體如下:
All_SSD - 用于將所有副本存儲(chǔ)在SSD中
One_SSD - 用于將其中一個(gè)副本存儲(chǔ)在SSD中。剩余的副本存儲(chǔ)在DISK中
Lazy_Persist - 用于在內(nèi)存中寫入單個(gè)副本的塊。該副本首先寫入RAM_DISK,然后在DISK中延續(xù)
創(chuàng)建文件或目錄時(shí),其存儲(chǔ)策略未指定。可以使用“hdfs dfsadmin -setStoragePolicy ”命令指定存儲(chǔ)策略。文件或目錄的有效存儲(chǔ)策略由以下規(guī)則解決。
如果文件或目錄特定于存儲(chǔ)策略,則返回。
對(duì)于未指定的文件或目錄,如果是根目錄,則返回默認(rèn)存儲(chǔ)策略。否則,返回其父級(jí)的有效存儲(chǔ)策略。
我們在實(shí)踐過程中,因?yàn)橛幸徊糠謱?shí)時(shí)分析的需求,一部分是歷史數(shù)據(jù)的保存,歷史數(shù)據(jù)很少參與計(jì)算,只需偶爾查詢會(huì)用到。那么對(duì)于歷史數(shù)據(jù)來說,我們可以使用一批計(jì)算能力較弱,而硬盤較多、容量較大的SATA盤,而實(shí)時(shí)分析的場景,需要高性能的計(jì)算力和硬盤吞吐能力,我們選用SSD硬盤來支撐,此外HDFS還提供了內(nèi)存存儲(chǔ)類型,但我們的內(nèi)存還是有限,暫未使用到。實(shí)際上,我們的每臺(tái)服務(wù)器的12塊硬盤slot中有3個(gè)是SSD,其余9個(gè)是SATA。我們實(shí)踐結(jié)果表明,使用這種策略的效果比以前好了4倍以上。
要使用存儲(chǔ)策略,我們需要在在每個(gè)數(shù)據(jù)節(jié)點(diǎn)上hdfs-site.xml中參數(shù)dfs.datanode.data.dir配置的由逗號(hào)分隔的存儲(chǔ)位置使用的存儲(chǔ)類型進(jìn)行標(biāo)記。例如:
使用[DISK]file:///dfs/dn來標(biāo)識(shí)這個(gè)存儲(chǔ)位置為普通硬盤
使用[SSD]file:/// dfs/dn來標(biāo)識(shí)這個(gè)存儲(chǔ)位置為SSD硬盤
此外,默認(rèn)情況下的存儲(chǔ)格式為DISK。
下面介紹設(shè)置存儲(chǔ)策略命令:
總結(jié)下:我們可以在一個(gè)限定的Hadoop集群中進(jìn)行設(shè)置不同的磁盤使用不同的存儲(chǔ)策略,還可以利用API將數(shù)據(jù)存儲(chǔ)到不同的存儲(chǔ)層。HDFS設(shè)計(jì)的詳細(xì)存儲(chǔ)類型和存儲(chǔ)策略如下表,有興趣的同學(xué)可以看看:
注:HDFS新加的ARCHIVE存儲(chǔ)類型, 它是一種支持PB級(jí)的高容量存儲(chǔ)但很少的 計(jì)算能力,用于歸檔數(shù)據(jù)使用,從上圖可以看出冷數(shù)據(jù)適合使用archive存儲(chǔ)類型。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03