
1)時間序列數(shù)據(jù)庫(OpenTSDB)
用HBase儲存時間序列數(shù)據(jù),每時每刻都在解決,數(shù)據(jù)庫為開源
2)HBase爬蟲調(diào)度庫
垂直搜索爬蟲
大規(guī)模爬蟲(全網(wǎng)爬蟲)
這里界定URL爬蟲調(diào)度
3)HBase文檔庫
儲存文檔數(shù)據(jù)庫,偏重于儲存
4)銀行人民幣查詢系統(tǒng)
HBase在實際問題中的應(yīng)用:
當數(shù)據(jù)需要隨機讀寫應(yīng)用,或者高并發(fā)操作(大數(shù)據(jù)多次操作),或者當數(shù)據(jù)結(jié)構(gòu)簡單,但是量大(非關(guān)系型需要大量應(yīng)用join操作)
HBase對關(guān)系型查詢,如join等比較難操作
關(guān)鍵要設(shè)計Rowkey,可加快查詢
常用語言有Java, thrift引用其他語言操作
在rowkey設(shè)計里要避免rowkey熱點,要充分利用rowkey有序特點,并可以把需求字段組合成rowkey
時間序列數(shù)據(jù)庫
OpenTSDB屬于分布式、可伸縮的時間序列數(shù)據(jù)庫
可以在秒級數(shù)據(jù)進行采集,并支持永久存儲與容量規(guī)劃,另外可以從不同的metrics進行存儲、索引
普通mysql容量不夠,維度支持不夠
該數(shù)據(jù)庫的經(jīng)驗(應(yīng)該會有遺漏。。)
1)更多的列,更多的數(shù)據(jù),掃描更快(在列上掃描比行上掃描快)
2)要讓每一行的數(shù)據(jù)相對獨立。把行按照一定的規(guī)律進行切分(譬如認為10秒是一行數(shù)據(jù),時間戳)
3)要在每一個KeyValue里儲存更多的數(shù)據(jù)
4)不要把同步的儲存到server里面(如HTable/HTablePool等),多用asynchbase的護理高并發(fā)數(shù)據(jù)庫
5)key盡量等長
6)不要在一個Region里儲存過多?
儲存時間序列的方法
每一行保存一個metric & time 以及值,這樣可以按不同維度儲存
把metric id放在時間前面做組合的key,能夠更快掃描相應(yīng)的維度,而且可以節(jié)省儲存空間(把metrics編號,而不是直接用其名字做metrics)
還可以把行變寬,使行儲存更多數(shù)據(jù)(+0,+1,+2),但是這個不會節(jié)省任何空間,只是展示上有所變化而已
但是行不能無限度變寬。
另外,為了防止網(wǎng)絡(luò)中斷錯行,建議按照時間戳分行,而不是時間+1、+2、+3這樣按列數(shù)斷行
有相應(yīng)的PDF,網(wǎng)上搜就可以了。。
總結(jié)
加寬行可以增加掃描速度,組合使用rowkey,但這些并不能節(jié)省空間
只有合并列、縮短column family名字才能一定程度上縮短空間
垂度爬蟲調(diào)度庫
多個組(如圖片組新聞組等)同時進行爬蟲處理,并儲存到調(diào)度庫里,HBase定期讀取即可
特點
爬蟲軟件需要根據(jù)實時性、優(yōu)先級等存儲調(diào)度需要爬取的url
且爬蟲需要為不同組維護url列表
基本上是隊列特征,先插入的URL要優(yōu)先爬取。但是也要有可以自定義優(yōu)先級的功能。而且由于數(shù)據(jù)量差異大(圖片很大),也要合理分配資源。
如垂直業(yè)務(wù)同時調(diào)度、站點抓取速度限速處理、還有時間戳調(diào)度處理。
調(diào)度庫
為不同頻道儲存host特點及host url列表。
在url里按照hostid與優(yōu)先級排序
這里符合之前OpenTSDB的特性,不要直接用名字做rowkey,而是用ID(來自host name表)排序
這樣就可以有間隔的掃描線程來執(zhí)行URL
總結(jié):
要充分運用rowkey進行有序排序
要把rowkey融入有用的字段hostid+PID+URLID
不要直接用字符串作為rowkey,而是編碼以后(整數(shù))進行掃描,節(jié)省空間(因為每個列都要儲存rowkey
而且整數(shù)化以后就規(guī)整化了
文檔庫
文檔庫與調(diào)度庫原理比較相似
文檔庫,可以存儲網(wǎng)頁分析以后更加精細化的數(shù)據(jù)
特點:
數(shù)據(jù)格式不一樣,需要實時讀取和寫入(還有更新),數(shù)據(jù)之間存儲會有關(guān)聯(lián)(如BLOG的評論和正文之間是有關(guān)聯(lián)的)
技術(shù)特點
拆分基礎(chǔ)數(shù)據(jù)和動態(tài)數(shù)據(jù)(兩個column family)
基礎(chǔ)的基本不會變(網(wǎng)頁標題啊內(nèi)容啊創(chuàng)建時間?。?nbsp;
動態(tài)數(shù)據(jù)可以實時變化(瀏覽量啊等等)
這里不再是一個server應(yīng)對不同組,而是多個server應(yīng)對多個組,以應(yīng)對不同組的不同數(shù)據(jù)精細化要求
關(guān)聯(lián)
銀行人民幣查詢系統(tǒng)
特點:
規(guī)模極大,且設(shè)備分散(如ATM啊點鈔機啊等等),采集系統(tǒng)要求要及時且不能有遺漏
可按照人民幣冠字號來看,做HASH值或逆轉(zhuǎn)(因為冠字號可能是連續(xù)的,有些連號鈔票會儲存在一起,無法有效切分數(shù)據(jù)儲存,有時候會造成訪問熱點,因此需要更改冠字號來做rowkey)
要求
及時可靠,能夠快速檢索及存儲,且擴展性要好
因為涉及到多設(shè)備采集輸入,所以可以用Flume+HBase解決問題
選擇HBase的原因是應(yīng)用非常簡單,只是簡單查詢而已,用HBase就夠了
可以參考Cloudera開源的日志收集系統(tǒng)
總結(jié)
HBase常常需要與其他系統(tǒng)結(jié)合使用
要盡量避免產(chǎn)生訪問熱點(尤其要避免直接采用時間作為rowkey),要把連續(xù)號打散
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03