
1)時(shí)間序列數(shù)據(jù)庫(kù)(OpenTSDB)
用HBase儲(chǔ)存時(shí)間序列數(shù)據(jù),每時(shí)每刻都在解決,數(shù)據(jù)庫(kù)為開(kāi)源
2)HBase爬蟲(chóng)調(diào)度庫(kù)
垂直搜索爬蟲(chóng)
大規(guī)模爬蟲(chóng)(全網(wǎng)爬蟲(chóng))
這里界定URL爬蟲(chóng)調(diào)度
3)HBase文檔庫(kù)
儲(chǔ)存文檔數(shù)據(jù)庫(kù),偏重于儲(chǔ)存
4)銀行人民幣查詢(xún)系統(tǒng)
HBase在實(shí)際問(wèn)題中的應(yīng)用:
當(dāng)數(shù)據(jù)需要隨機(jī)讀寫(xiě)應(yīng)用,或者高并發(fā)操作(大數(shù)據(jù)多次操作),或者當(dāng)數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單,但是量大(非關(guān)系型需要大量應(yīng)用join操作)
HBase對(duì)關(guān)系型查詢(xún),如join等比較難操作
關(guān)鍵要設(shè)計(jì)Rowkey,可加快查詢(xún)
常用語(yǔ)言有Java, thrift引用其他語(yǔ)言操作
在rowkey設(shè)計(jì)里要避免rowkey熱點(diǎn),要充分利用rowkey有序特點(diǎn),并可以把需求字段組合成rowkey
時(shí)間序列數(shù)據(jù)庫(kù)
OpenTSDB屬于分布式、可伸縮的時(shí)間序列數(shù)據(jù)庫(kù)
可以在秒級(jí)數(shù)據(jù)進(jìn)行采集,并支持永久存儲(chǔ)與容量規(guī)劃,另外可以從不同的metrics進(jìn)行存儲(chǔ)、索引
普通mysql容量不夠,維度支持不夠
該數(shù)據(jù)庫(kù)的經(jīng)驗(yàn)(應(yīng)該會(huì)有遺漏。。)
1)更多的列,更多的數(shù)據(jù),掃描更快(在列上掃描比行上掃描快)
2)要讓每一行的數(shù)據(jù)相對(duì)獨(dú)立。把行按照一定的規(guī)律進(jìn)行切分(譬如認(rèn)為10秒是一行數(shù)據(jù),時(shí)間戳)
3)要在每一個(gè)KeyValue里儲(chǔ)存更多的數(shù)據(jù)
4)不要把同步的儲(chǔ)存到server里面(如HTable/HTablePool等),多用asynchbase的護(hù)理高并發(fā)數(shù)據(jù)庫(kù)
5)key盡量等長(zhǎng)
6)不要在一個(gè)Region里儲(chǔ)存過(guò)多?
儲(chǔ)存時(shí)間序列的方法
每一行保存一個(gè)metric & time 以及值,這樣可以按不同維度儲(chǔ)存
把metric id放在時(shí)間前面做組合的key,能夠更快掃描相應(yīng)的維度,而且可以節(jié)省儲(chǔ)存空間(把metrics編號(hào),而不是直接用其名字做metrics)
還可以把行變寬,使行儲(chǔ)存更多數(shù)據(jù)(+0,+1,+2),但是這個(gè)不會(huì)節(jié)省任何空間,只是展示上有所變化而已
但是行不能無(wú)限度變寬。
另外,為了防止網(wǎng)絡(luò)中斷錯(cuò)行,建議按照時(shí)間戳分行,而不是時(shí)間+1、+2、+3這樣按列數(shù)斷行
有相應(yīng)的PDF,網(wǎng)上搜就可以了。。
總結(jié)
加寬行可以增加掃描速度,組合使用rowkey,但這些并不能節(jié)省空間
只有合并列、縮短column family名字才能一定程度上縮短空間
垂度爬蟲(chóng)調(diào)度庫(kù)
多個(gè)組(如圖片組新聞組等)同時(shí)進(jìn)行爬蟲(chóng)處理,并儲(chǔ)存到調(diào)度庫(kù)里,HBase定期讀取即可
特點(diǎn)
爬蟲(chóng)軟件需要根據(jù)實(shí)時(shí)性、優(yōu)先級(jí)等存儲(chǔ)調(diào)度需要爬取的url
且爬蟲(chóng)需要為不同組維護(hù)url列表
基本上是隊(duì)列特征,先插入的URL要優(yōu)先爬取。但是也要有可以自定義優(yōu)先級(jí)的功能。而且由于數(shù)據(jù)量差異大(圖片很大),也要合理分配資源。
如垂直業(yè)務(wù)同時(shí)調(diào)度、站點(diǎn)抓取速度限速處理、還有時(shí)間戳調(diào)度處理。
調(diào)度庫(kù)
為不同頻道儲(chǔ)存host特點(diǎn)及host url列表。
在url里按照hostid與優(yōu)先級(jí)排序
這里符合之前OpenTSDB的特性,不要直接用名字做rowkey,而是用ID(來(lái)自host name表)排序
這樣就可以有間隔的掃描線(xiàn)程來(lái)執(zhí)行URL
總結(jié):
要充分運(yùn)用rowkey進(jìn)行有序排序
要把rowkey融入有用的字段hostid+PID+URLID
不要直接用字符串作為rowkey,而是編碼以后(整數(shù))進(jìn)行掃描,節(jié)省空間(因?yàn)槊總€(gè)列都要儲(chǔ)存rowkey
而且整數(shù)化以后就規(guī)整化了
文檔庫(kù)
文檔庫(kù)與調(diào)度庫(kù)原理比較相似
文檔庫(kù),可以存儲(chǔ)網(wǎng)頁(yè)分析以后更加精細(xì)化的數(shù)據(jù)
特點(diǎn):
數(shù)據(jù)格式不一樣,需要實(shí)時(shí)讀取和寫(xiě)入(還有更新),數(shù)據(jù)之間存儲(chǔ)會(huì)有關(guān)聯(lián)(如BLOG的評(píng)論和正文之間是有關(guān)聯(lián)的)
技術(shù)特點(diǎn)
拆分基礎(chǔ)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)(兩個(gè)column family)
基礎(chǔ)的基本不會(huì)變(網(wǎng)頁(yè)標(biāo)題啊內(nèi)容啊創(chuàng)建時(shí)間?。?nbsp;
動(dòng)態(tài)數(shù)據(jù)可以實(shí)時(shí)變化(瀏覽量啊等等)
這里不再是一個(gè)server應(yīng)對(duì)不同組,而是多個(gè)server應(yīng)對(duì)多個(gè)組,以應(yīng)對(duì)不同組的不同數(shù)據(jù)精細(xì)化要求
關(guān)聯(lián)
銀行人民幣查詢(xún)系統(tǒng)
特點(diǎn):
規(guī)模極大,且設(shè)備分散(如ATM啊點(diǎn)鈔機(jī)啊等等),采集系統(tǒng)要求要及時(shí)且不能有遺漏
可按照人民幣冠字號(hào)來(lái)看,做HASH值或逆轉(zhuǎn)(因?yàn)楣谧痔?hào)可能是連續(xù)的,有些連號(hào)鈔票會(huì)儲(chǔ)存在一起,無(wú)法有效切分數(shù)據(jù)儲(chǔ)存,有時(shí)候會(huì)造成訪(fǎng)問(wèn)熱點(diǎn),因此需要更改冠字號(hào)來(lái)做rowkey)
要求
及時(shí)可靠,能夠快速檢索及存儲(chǔ),且擴(kuò)展性要好
因?yàn)樯婕暗蕉嘣O(shè)備采集輸入,所以可以用Flume+HBase解決問(wèn)題
選擇HBase的原因是應(yīng)用非常簡(jiǎn)單,只是簡(jiǎn)單查詢(xún)而已,用HBase就夠了
可以參考Cloudera開(kāi)源的日志收集系統(tǒng)
總結(jié)
HBase常常需要與其他系統(tǒng)結(jié)合使用
要盡量避免產(chǎn)生訪(fǎng)問(wèn)熱點(diǎn)(尤其要避免直接采用時(shí)間作為rowkey),要把連續(xù)號(hào)打散
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10