
大數(shù)據(jù)時代如何構(gòu)建高性能數(shù)據(jù)庫平臺
在數(shù)據(jù)爆炸的時代,給眾多IT從業(yè)人員帶來了相當(dāng)大的困擾—伴隨著大數(shù)據(jù)分析,商業(yè)智能的發(fā)展,數(shù)據(jù)量呈現(xiàn)指數(shù)增長,傳統(tǒng)數(shù)據(jù)處理系統(tǒng)已不堪重負(fù)。在這樣的背景下,“數(shù)據(jù)庫平臺的構(gòu)建”逐漸成為一個備受關(guān)注的話題。
影響數(shù)據(jù)庫性能的三要素
對于數(shù)據(jù)庫系統(tǒng)而言,絕大多數(shù)情況下影響數(shù)據(jù)庫性能的三個要素是:數(shù)據(jù)運(yùn)算能力、數(shù)據(jù)讀寫時延和數(shù)據(jù)吞吐帶寬,簡稱計算、時延、吞吐。計算指的是CPU的運(yùn)算能力,時延是數(shù)據(jù)從存儲介質(zhì)跑到CPU所需的時間長短,吞吐則是數(shù)據(jù)從存儲介質(zhì)到CPU的道路寬度。一般情況下,關(guān)注計算和時延是比較多的,但是在數(shù)據(jù)量越來越多的情況下,吞吐也成為影響數(shù)據(jù)庫性能的重要因素。如果吞吐帶寬不夠,會造成計算等待隊列的增加,CPU占用率虛高不下。這種情況下,即使增加再多的計算資源也于事無補(bǔ),相當(dāng)于千軍萬馬擠獨(dú)木橋,馬再好也是枉然。一個高性能的數(shù)據(jù)庫平臺,一定是計算、時延、吞吐三方面的能力齊頭并進(jìn),相互匹配。
計算能力由CPU主頻和核數(shù)決定,實(shí)踐中看CPU占用率就能夠大致確定CPU配置是否合適。時延的指標(biāo)很簡單,時間是衡量時延的唯一指標(biāo)。吞吐量則是通過每秒在I/O流中傳輸?shù)臄?shù)據(jù)總量來衡量的。
從三要素到三方法
明確了影響性能的要素后,就可以著手改變各要素來提升數(shù)據(jù)庫平臺的性能。
1.計算能力:x86化的今天,提升計算能力就是:增加CPU內(nèi)核數(shù)量或升級CPU主頻。
2.時延能力:加快數(shù)據(jù)從存儲介質(zhì)到CPU的速度,即提升數(shù)據(jù)讀寫時延,從以下三方面努力:
a)降低存儲介質(zhì)的讀寫時延:使用電子尋址的Flash顆粒來替換旋轉(zhuǎn)的機(jī)械磁頭,是降低存儲介質(zhì)讀寫時延最有效的方法。實(shí)踐中可結(jié)合數(shù)據(jù)吞吐量來確定是選擇SAS總線上的SSD盤還是選擇PCIE總線上的Flash卡。
b)降低網(wǎng)絡(luò)的傳送時延:網(wǎng)絡(luò)時延則可以通過InfiniBand網(wǎng)絡(luò)來解決,注意不要選擇IPoIB,而是要使用RDS,相比傳統(tǒng)UDP協(xié)議,網(wǎng)絡(luò)延遲至少減一半。通過SRP協(xié)議,利用RDMA技術(shù)在網(wǎng)絡(luò)層面?zhèn)魉蚐CSI指令和數(shù)據(jù),使得數(shù)據(jù)庫節(jié)點(diǎn)能夠像操作本地SCSI設(shè)備一樣讀寫遠(yuǎn)程的數(shù)據(jù),對于時延的降低,不是FC網(wǎng)絡(luò)能夠企及的。
c)擴(kuò)大存儲層的數(shù)據(jù)緩存大小:存儲層的數(shù)據(jù)緩存大小對時延也至關(guān)重要,如果有盡可能多的數(shù)據(jù)讀寫在緩存中進(jìn)行,就避免了數(shù)據(jù)下盤。緩存的大小以及緩存算法都對緩存命中率有直接的影響,這一點(diǎn)往往被忽略。除了單點(diǎn)緩存之外,分布式緩存技術(shù)也是非常重要的,通過分布式緩存技術(shù),可以避免單點(diǎn)緩存的局限性,擴(kuò)大緩存的全局能力,增加緩存規(guī)模,提高緩存命中率。
3.吞吐能力:拓寬數(shù)據(jù)通路的方法有兩種:使用高速InfiniBand網(wǎng)絡(luò)、使用分布式存儲。前者比較容易想到,實(shí)施也簡單,基于FDR 的56Gb/s InfiniBand解決方案可實(shí)現(xiàn)每秒1.37億條消息的信息通信速率,在16個計算節(jié)點(diǎn)上,性能表現(xiàn)比QDR 40Gb/s InfiniBand高出20%-30%,而與FC、萬兆和4萬兆以太網(wǎng)相比,性能更是領(lǐng)先了100%到300%,是最高效的計算和存儲互聯(lián)方案。對于后者,分布式存儲,其好處在于不將數(shù)據(jù)集中存放在某幾塊存儲介質(zhì)上,而是將數(shù)據(jù)全部打散存放在多個存儲節(jié)點(diǎn)的許多個介質(zhì)上,這樣避免在大規(guī)模數(shù)據(jù)并發(fā)讀寫訪問時,存儲介質(zhì)的單點(diǎn)能力成為數(shù)據(jù)讀寫的瓶頸,通過分布式的并發(fā)能力來提升數(shù)據(jù)讀寫吞吐能力。注意的是,一定要使用高性能低時延的分布式塊存儲,分布式文件存儲是無法滿足性能要求的。
通過計算、時延、吞吐的三管齊下,通過使用SSD存儲介質(zhì)、InfiniBand網(wǎng)絡(luò)交換以及分布式存儲,數(shù)據(jù)庫平臺的性能將得到極大提升。
未來為是何種模樣
高性能數(shù)據(jù)庫系統(tǒng)未來向著內(nèi)存化、云化的方向在不斷發(fā)展。SAP的HANA內(nèi)存數(shù)據(jù)庫,Oracle 12c的內(nèi)存特性,GemFire的分布式內(nèi)存數(shù)據(jù)緩存,以及Spark的內(nèi)存并行計算,都在昭示著內(nèi)存化的未來方向,其本質(zhì)還是通過內(nèi)存的高速讀寫與高速總線來解決時延和吞吐問題。
數(shù)據(jù)庫的云化,即DBaaS(數(shù)據(jù)庫即服務(wù)),其核心就是整合IT基礎(chǔ)設(shè)施中的硬軟件,實(shí)現(xiàn)簡單化、標(biāo)準(zhǔn)化和靈活性,提升可用性以及安全保障,同時降低成本。當(dāng)然,云化在性能和QoS方面也對IT基礎(chǔ)設(shè)施提出了更多增強(qiáng)性的挑戰(zhàn)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03