
達(dá)夢(mèng)“模塊化數(shù)據(jù)中心”筑夢(mèng)大數(shù)據(jù)時(shí)代_數(shù)據(jù)分析師
模塊化數(shù)據(jù)中心已經(jīng)成為解決當(dāng)今企業(yè)所面臨的不斷增長(zhǎng)的數(shù)據(jù)處理需求的一種普遍的解決方案,越來(lái)越多的政府單位、企業(yè)正在考慮借助模塊化數(shù)據(jù)中心的諸多優(yōu)勢(shì)和其獨(dú)特的能力,以滿足各方面的數(shù)據(jù)處理需求。
PB級(jí)大數(shù)據(jù)帶來(lái)的挑戰(zhàn)
互聯(lián)網(wǎng)時(shí)代,尤其是社交網(wǎng)絡(luò)、電子商務(wù)、移動(dòng)通信等把人類帶入一個(gè)以“PB”為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時(shí)代。那么PB級(jí)數(shù)據(jù)是什么概念?一提到數(shù)據(jù)量級(jí),人們通常會(huì)聯(lián)想到美國(guó)國(guó)會(huì)圖書館。麥肯錫首席分析師Michael Chui指出,美國(guó)國(guó)會(huì)圖書館“在2011年4月前已經(jīng)收集了235TB的數(shù)據(jù),而一個(gè)PB相當(dāng)于它的4倍。”
未來(lái)10年之內(nèi)人均,實(shí)時(shí)消費(fèi)數(shù)據(jù)將達(dá)到PB級(jí),是目前數(shù)據(jù)消費(fèi)TB級(jí)的1000倍,如此大的數(shù)據(jù)處理需求將給現(xiàn)有的以計(jì)算為中心的傳統(tǒng)數(shù)據(jù)中心帶來(lái)一系列巨大挑戰(zhàn),包括實(shí)時(shí)數(shù)據(jù)處理、按需動(dòng)態(tài)資源分配及調(diào)整、大規(guī)模系統(tǒng)運(yùn)行的能效等諸多方面。從業(yè)務(wù)層面來(lái)看,亟需解決軟硬件資源統(tǒng)一管理、按需分配、合理調(diào)度,信息資源的共享交換、池化管理,形成一套“合規(guī)”的資源服務(wù)池,并從該池中按需獲取所需資源或服務(wù)。
“以數(shù)據(jù)為中心”的新型數(shù)據(jù)中心
在這種情況下,傳統(tǒng)的數(shù)據(jù)中心必然需要轉(zhuǎn)型,向以數(shù)據(jù)為中心的方向發(fā)展,能夠靈活地將任務(wù)調(diào)度到數(shù)據(jù)位置較近的處理單元。傳統(tǒng)數(shù)據(jù)中心的設(shè)計(jì)目標(biāo)是能夠持續(xù)工作,設(shè)計(jì)者們要求所設(shè)計(jì)的產(chǎn)品能夠用幾百年不損壞、保持正常工作。設(shè)計(jì)者心目中的數(shù)據(jù)中心是一大堆物理設(shè)備孤立的堆砌;事實(shí)上,建立傳統(tǒng)數(shù)據(jù)中心最初的動(dòng)機(jī),就是管理好日益增多的物理設(shè)備,保持良好的環(huán)境,不要損壞和丟失,出了故障有人維修。并且傳統(tǒng)的數(shù)據(jù)中心資源孤立、且不能實(shí)現(xiàn)在整個(gè)數(shù)據(jù)中心的實(shí)時(shí)、動(dòng)態(tài)調(diào)度,這也是傳統(tǒng)數(shù)據(jù)中心資源利用效率低下的根本原因。
隨著數(shù)據(jù)中心的發(fā)展,傳統(tǒng)數(shù)據(jù)中心的問(wèn)題逐漸顯露。達(dá)夢(mèng)數(shù)據(jù)中心在充分吸收傳統(tǒng)數(shù)據(jù)中心的問(wèn)題基礎(chǔ)上,推出了“以數(shù)據(jù)為中心”的新型數(shù)據(jù)中心理念。從邏輯上看,達(dá)夢(mèng)的新型數(shù)據(jù)中心提供一個(gè)全局的資源目錄,包含了各種應(yīng)用系統(tǒng)的所有數(shù)據(jù),構(gòu)成了一個(gè)全局統(tǒng)一的邏輯數(shù)據(jù)庫(kù)。當(dāng)用戶向這個(gè)虛擬的邏輯數(shù)據(jù)庫(kù)發(fā)起數(shù)據(jù)訪問(wèn)請(qǐng)求時(shí),它首先通過(guò)檢索全局資源目錄,回答該數(shù)據(jù)是否存在,然后從資源目錄信息中獲取其位置信息,如果該數(shù)據(jù)從物理位置上是存放在本地,則從本地物理庫(kù)中獲取,否則根據(jù)資源目錄信息中獲取的遠(yuǎn)程位置信息,通過(guò)統(tǒng)一的遠(yuǎn)程數(shù)據(jù)訪問(wèn)接口來(lái)獲取實(shí)際數(shù)據(jù)。
由此可見,達(dá)夢(mèng)的新型數(shù)據(jù)中心相當(dāng)于是一個(gè)龐大的全局化邏輯庫(kù),可以根據(jù)業(yè)務(wù)的需要,采用某種算法。而實(shí)際的物理庫(kù)中只會(huì)存放那些使用頻率相對(duì)較多的數(shù)據(jù),這樣既可以節(jié)約存儲(chǔ)資源,也能減少數(shù)據(jù)集中后所帶來(lái)的數(shù)據(jù)更新的代價(jià)。同時(shí)根據(jù)數(shù)據(jù)的訪問(wèn)熱度,可實(shí)現(xiàn)對(duì)物理庫(kù)中數(shù)據(jù)的動(dòng)態(tài)存儲(chǔ)管理,將最常使用的數(shù)據(jù)放到速度最快的內(nèi)存當(dāng)中,次之的數(shù)據(jù)放到固態(tài)盤,一般的數(shù)據(jù)放到磁盤,較長(zhǎng)時(shí)間不用的數(shù)據(jù)則移到外部磁盤磁帶中,而長(zhǎng)期無(wú)人使用的數(shù)據(jù)會(huì)被清除以騰出空間。
模塊化實(shí)現(xiàn)高效部署
物聯(lián)網(wǎng)、互聯(lián)網(wǎng)等信息技術(shù)的快速發(fā)展帶來(lái)了數(shù)據(jù)爆炸式增長(zhǎng),為了適應(yīng)大數(shù)據(jù)的發(fā)展趨勢(shì),數(shù)據(jù)中心不斷擴(kuò)大規(guī)模、提升性能,以支持越來(lái)越復(fù)雜的海量數(shù)據(jù)管理需求。
出于性能的考慮,一般對(duì)于經(jīng)常要使用的數(shù)據(jù)、以及分析應(yīng)用所需要的數(shù)據(jù),要從遠(yuǎn)程數(shù)據(jù)源中將數(shù)據(jù)抽取、交換到數(shù)據(jù)中心的目標(biāo)數(shù)據(jù)庫(kù)進(jìn)行集中處理。數(shù)據(jù)集中帶來(lái)處理方便、性能提升等好處的同時(shí),也帶來(lái)了數(shù)據(jù)一致性的問(wèn)題。如何以較小的代價(jià)、最快的速度將數(shù)據(jù)源中發(fā)生變化的數(shù)據(jù)傳遞到數(shù)據(jù)中心目標(biāo)數(shù)據(jù)庫(kù)中進(jìn)行更新,以保持兩邊數(shù)據(jù)的一致,已成為數(shù)據(jù)中心建設(shè)必須要考慮的問(wèn)題。而達(dá)夢(mèng)突破傳統(tǒng)解決之道,采取“模塊化”的數(shù)據(jù)中心建設(shè)思想,不僅實(shí)現(xiàn)數(shù)據(jù)同步、還實(shí)現(xiàn)了顯著的性能優(yōu)化。
首先,在數(shù)據(jù)交換層面,傳統(tǒng)的數(shù)據(jù)交換采用時(shí)間戳、觸發(fā)器、MD5等方式來(lái)捕獲增量數(shù)據(jù),使數(shù)據(jù)源的數(shù)據(jù)庫(kù)產(chǎn)生較大負(fù)載,延時(shí)也比較大。當(dāng)數(shù)據(jù)量很大,同步時(shí)間要求很短的時(shí)候,傳統(tǒng)方案難以同時(shí)滿足處理性能和數(shù)據(jù)一致性的要求。達(dá)夢(mèng)的模塊化數(shù)據(jù)中心則采用讀取數(shù)據(jù)源的數(shù)據(jù)庫(kù)運(yùn)行日志文件的方法,從中分析出數(shù)據(jù)變化的情況,通過(guò)監(jiān)控日志文件的變化,能近乎實(shí)時(shí)地捕獲到數(shù)據(jù)變化,值得一提的是,這只占用的非常少量的操作系統(tǒng)監(jiān)控和讀取文件資源,對(duì)被監(jiān)控的數(shù)據(jù)庫(kù)實(shí)例的運(yùn)行基本沒(méi)有影響。
其次,在數(shù)據(jù)中心建設(shè)方面,傳統(tǒng)的數(shù)據(jù)中心建設(shè)周期非常長(zhǎng),而達(dá)夢(mèng)模塊化數(shù)據(jù)中心在現(xiàn)場(chǎng)部署的速度非常高效,主要是因?yàn)槟K化的數(shù)據(jù)分類預(yù)制,從數(shù)據(jù)處理的全生命周期這個(gè)角度來(lái)說(shuō),它主要分為數(shù)據(jù)采集抽取、數(shù)據(jù)整合管理、面向業(yè)務(wù)的數(shù)據(jù)服務(wù)、多樣化數(shù)據(jù)應(yīng)用等四個(gè)方面,各自擁有統(tǒng)一接口、統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一頂層設(shè)計(jì)的模塊化產(chǎn)品,這些以達(dá)夢(mèng)數(shù)據(jù)庫(kù)產(chǎn)品為核心的產(chǎn)品集合,為模塊化數(shù)據(jù)中心的快速部署奠定了堅(jiān)實(shí)基礎(chǔ)。我們沿著數(shù)據(jù)管理生命周期的順序,通過(guò)了解模塊化數(shù)據(jù)中心內(nèi)部的管理機(jī)制,可發(fā)現(xiàn)達(dá)夢(mèng)新型數(shù)據(jù)中心優(yōu)于傳統(tǒng)數(shù)據(jù)中心的特色亮點(diǎn):
數(shù)據(jù)交換:從其他業(yè)務(wù)系統(tǒng)采集數(shù)據(jù)、訪問(wèn)數(shù)據(jù)時(shí),數(shù)據(jù)交換平臺(tái)可針對(duì)交換頻繁、數(shù)據(jù)量極大的自動(dòng)采集需求,使用達(dá)夢(mèng)異構(gòu)數(shù)據(jù)實(shí)時(shí)同步工具處理“海量密集,實(shí)時(shí)異構(gòu)”的采集需求。而針對(duì)交換頻度較低,但有一定清洗轉(zhuǎn)換要求的自動(dòng)采集需求,使用ETL工具定時(shí)處理“定期采集,清洗轉(zhuǎn)換”的采集需求。針對(duì)涉密敏感、不允許直接交換的數(shù)據(jù),使用請(qǐng)求服務(wù)引擎實(shí)現(xiàn)“按需訪問(wèn),數(shù)據(jù)自治”的查詢比對(duì)需求。
數(shù)據(jù)管理:在數(shù)據(jù)交換、采集完成后,需要對(duì)數(shù)據(jù)進(jìn)行整合和梳理,數(shù)據(jù)管理平臺(tái)可實(shí)現(xiàn)該類需求。對(duì)于整合來(lái)的各類項(xiàng)目數(shù)據(jù)資源,針對(duì)多種采集渠道、承載方式,數(shù)據(jù)資源管理平臺(tái)均采用一致的方式進(jìn)行可視化管理和維護(hù),將碎片離散的信息整體呈現(xiàn)。同時(shí),針對(duì)各類信息資源的業(yè)務(wù)屬性描述、來(lái)源信息等內(nèi)容,通過(guò)元數(shù)據(jù)管理進(jìn)行統(tǒng)一描述、統(tǒng)一歸集、統(tǒng)一管理,使信息資源的重用成為可能。針對(duì)數(shù)據(jù)歸集過(guò)程中,數(shù)據(jù)不一致、不準(zhǔn)確的情況,主要基于質(zhì)量管理平臺(tái)進(jìn)行質(zhì)量管理和提升,基于質(zhì)量規(guī)則,發(fā)現(xiàn)各類數(shù)據(jù)質(zhì)量問(wèn)題,給出質(zhì)量整改門戶,推進(jìn)數(shù)據(jù)整合的質(zhì)量提升。針對(duì)數(shù)據(jù)整合后的梳理和編目需求,主要依靠數(shù)據(jù)資源目錄系統(tǒng),按照業(yè)務(wù)屬性、提供單位、系統(tǒng)類型等因素進(jìn)行編目梳理,使數(shù)據(jù)能夠被成功訪問(wèn)和重用。針對(duì)所涉及的大量原始非結(jié)構(gòu)數(shù)據(jù),則是通過(guò)文檔管理系統(tǒng)進(jìn)行統(tǒng)一管理,可以有效節(jié)約存儲(chǔ)空間,提供全文檢索等增值能力。
數(shù)據(jù)分析:數(shù)據(jù)整合后進(jìn)行服務(wù)發(fā)布運(yùn)用的過(guò)程,主要基于數(shù)據(jù)分析服務(wù)平臺(tái)來(lái)實(shí)現(xiàn)。針對(duì)數(shù)據(jù)整合建立數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析的需求,主要采用BI分析平臺(tái)來(lái)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)、聯(lián)機(jī)分析設(shè)計(jì)、聯(lián)機(jī)分析呈現(xiàn)等功能。
數(shù)據(jù)呈現(xiàn):針對(duì)數(shù)據(jù)選擇性呈現(xiàn)需求,基于數(shù)據(jù)門戶可實(shí)現(xiàn)數(shù)據(jù)的組合及篩選處理,完成數(shù)據(jù)面向不同人員、不同環(huán)節(jié)、不同方式的選擇性呈現(xiàn)能力。
而數(shù)據(jù)服務(wù)平臺(tái),則提供基于已整合數(shù)據(jù)的非可視化(API,REST,WEBSERVICE)數(shù)據(jù)服務(wù)接口,來(lái)滿足數(shù)據(jù)的橫向比對(duì)、縱向比對(duì)、跨業(yè)務(wù)系統(tǒng)的對(duì)接需求。針對(duì)數(shù)據(jù)中心及業(yè)務(wù)系統(tǒng)運(yùn)轉(zhuǎn)的情況的可視化需求(如系統(tǒng)承載能力、訪問(wèn)狀況、異常信息等),主要使用運(yùn)維監(jiān)控系統(tǒng),通過(guò)監(jiān)控門戶、儀表盤、駕駛艙進(jìn)行多角度可視化呈現(xiàn)。針對(duì)管數(shù)據(jù)的可視化呈現(xiàn)需求,基于數(shù)據(jù)展現(xiàn)應(yīng)用提供基于已整合數(shù)據(jù)的可視化組件設(shè)計(jì)及呈現(xiàn)。
結(jié)語(yǔ)
在大數(shù)據(jù)時(shí)代,達(dá)夢(mèng)數(shù)據(jù)庫(kù)堅(jiān)持創(chuàng)新發(fā)展的技術(shù)路線,業(yè)界率先推行新型模塊化數(shù)據(jù)中心建設(shè)理念,以數(shù)據(jù)流為主線,實(shí)現(xiàn)從大數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)交換、數(shù)據(jù)管理、數(shù)據(jù)分析到數(shù)據(jù)應(yīng)用的全生命周期管理,并結(jié)合多年的項(xiàng)目建設(shè)與實(shí)踐經(jīng)驗(yàn),致力于為更多政府機(jī)關(guān)、各行業(yè)領(lǐng)域單位提供大數(shù)據(jù)平臺(tái)咨詢與技術(shù)服務(wù),作為國(guó)產(chǎn)數(shù)據(jù)庫(kù)品牌的中堅(jiān)力量、領(lǐng)軍企業(yè),為國(guó)產(chǎn)信息化建設(shè)貢獻(xiàn)力量!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04