
大數(shù)據(jù)需不需要備份和災(zāi)難恢復(fù)
大數(shù)據(jù)應(yīng)用的發(fā)展趨勢(shì)是在擁有大存儲(chǔ)容量的同時(shí)配備用于執(zhí)行數(shù)據(jù)分析的融合硬件設(shè)備與分析軟件包。這些應(yīng)用通常不會(huì)用于處理運(yùn)營(yíng)數(shù)據(jù);相反,用戶會(huì)通過(guò)查詢(xún)數(shù)據(jù)來(lái)分析過(guò)去的產(chǎn)品銷(xiāo)售、預(yù)測(cè)趨勢(shì)和確定未來(lái)的客戶購(gòu)買(mǎi)模式。大數(shù)據(jù)應(yīng)用通常并不會(huì)被定位為關(guān)鍵業(yè)務(wù)系統(tǒng),雖然它們也支持銷(xiāo)售和營(yíng)銷(xiāo)決策,但是并不會(huì)顯著影響一些核心運(yùn)營(yíng)業(yè)務(wù),如客戶管理、訂單、庫(kù)存和配送等。
那么,為什么許多領(lǐng)先的企業(yè)IT部門(mén)都迅速將大數(shù)據(jù)整合到他們的災(zāi)難恢復(fù)計(jì)劃中呢?這些數(shù)據(jù)量如此之大,會(huì)不會(huì)給備份帶來(lái)影響呢?即便是備份了數(shù)據(jù),從備份恢復(fù)數(shù)據(jù)是否會(huì)花費(fèi)幾天(幾周或更長(zhǎng)時(shí)間)呢?帶著這些問(wèn)題,我們來(lái)看一下如何進(jìn)行大數(shù)據(jù)的災(zāi)難恢復(fù)。
數(shù)據(jù)太大,無(wú)法備份
災(zāi)難恢復(fù)最佳實(shí)踐包括在指定的時(shí)間里將重要數(shù)據(jù)及時(shí)恢復(fù)到一致?tīng)顟B(tài)的能力。這段時(shí)間稱(chēng)為恢復(fù)時(shí)間目標(biāo)(RTO),它必須在業(yè)務(wù)所依賴(lài)的運(yùn)營(yíng)數(shù)據(jù)的限制范圍之內(nèi)(最多幾個(gè)小時(shí))。但是,遇到大數(shù)據(jù)時(shí)該怎么辦?大多數(shù)公司認(rèn)為大數(shù)據(jù)的備份與恢復(fù)并不重要。其中包括以下這些原因。
運(yùn)營(yíng)系統(tǒng)更重要。在發(fā)生災(zāi)難之后,最高優(yōu)先級(jí)的工作是恢復(fù)那些支持運(yùn)營(yíng)系統(tǒng)的數(shù)據(jù)。這些系統(tǒng)包括會(huì)計(jì)、訂單條目、支付受理、工資等,它們是保證公司正常運(yùn)營(yíng)的必要條件。在這些數(shù)據(jù)恢復(fù)之后,第二優(yōu)先級(jí)的工作是支持這些系統(tǒng)的運(yùn)行。
大數(shù)據(jù)并不是關(guān)鍵業(yè)務(wù)系統(tǒng)。預(yù)測(cè)和趨勢(shì)分析可能是營(yíng)銷(xiāo)的重要手段,但是這些分析及其相關(guān)的查詢(xún)和用戶報(bào)表都基于歷史數(shù)據(jù),而非實(shí)時(shí)數(shù)據(jù)。
大數(shù)據(jù)的體量非常巨大,一個(gè)大數(shù)據(jù)應(yīng)用所存儲(chǔ)的數(shù)據(jù)量可能是所有運(yùn)營(yíng)數(shù)據(jù)之和的數(shù)十倍。這是因?yàn)榇髷?shù)據(jù)應(yīng)用工作在數(shù)據(jù)的歷史快照上。十年的歷史數(shù)據(jù)就會(huì)包含幾千天的快照。它備份在什么介質(zhì)上,備份需要多長(zhǎng)時(shí)間,然后需要的備份存儲(chǔ)有多大?
備份與恢復(fù)流程需要I/O通道容量。在短時(shí)間內(nèi)遷移大容量的數(shù)據(jù)要求使用較大的容量。備份與恢復(fù)會(huì)耗盡I/O通道,唯一可行的替代方法是安裝足夠的附加容量去處理這些任務(wù)。
當(dāng)大數(shù)據(jù)成為關(guān)鍵業(yè)務(wù)系統(tǒng)
上面介紹的原因并非適用于所有公司。有一些關(guān)注客戶的系統(tǒng)也會(huì)使用大數(shù)據(jù)分析,這意味著大數(shù)據(jù)應(yīng)用將屬于運(yùn)營(yíng)處理的一部分。在其他企業(yè)中,大數(shù)據(jù)開(kāi)始成為一種簡(jiǎn)單的查詢(xún)和報(bào)表工具。有一些專(zhuān)用查詢(xún)會(huì)慢慢體現(xiàn)其重要作用,然后變成一些常規(guī)報(bào)表。這些有用的報(bào)表會(huì)受到管理層的關(guān)注,他們會(huì)因此將這些報(bào)表變成一些重要的操作。最終,管理層會(huì)逐漸依賴(lài)這些報(bào)表來(lái)作出運(yùn)營(yíng)決策。因此,他們的大數(shù)據(jù)應(yīng)用就會(huì)逐漸向關(guān)鍵業(yè)務(wù)系統(tǒng)靠攏。
大數(shù)據(jù)應(yīng)用發(fā)展成為關(guān)鍵業(yè)務(wù)系統(tǒng)的趨勢(shì)是不可避免的。這些應(yīng)用的安裝和配置過(guò)程代價(jià)高昂且耗費(fèi)時(shí)間,同時(shí)也需要由高素質(zhì)的技術(shù)人員來(lái)完成。此外,查詢(xún)數(shù)據(jù)的業(yè)務(wù)分析師很少會(huì)親自處理數(shù)據(jù)。通常他們會(huì)使用一些專(zhuān)門(mén)用于查詢(xún)和分析大數(shù)據(jù)的分析軟件包。這些軟件同樣非常昂貴,同時(shí)只有經(jīng)過(guò)大量培訓(xùn)的技術(shù)人員才能高效使用這些軟件。
公司在大數(shù)據(jù)應(yīng)用投入了大量的金錢(qián)。公司迫切希望從他們的投資中獲取有價(jià)值的回報(bào)。從數(shù)據(jù)分析得到的報(bào)表可能產(chǎn)生更好的客戶服務(wù)、更快的產(chǎn)品周轉(zhuǎn)速度和更高的收益。而收益恰恰就意味著關(guān)鍵業(yè)務(wù)。
大數(shù)據(jù)備份方法
如果準(zhǔn)備在災(zāi)難恢復(fù)計(jì)劃過(guò)程中恢復(fù)全部或部分大數(shù)據(jù)應(yīng)用,那么可以考慮選擇下面這些備份方法。
最重要的是要記?。捍髷?shù)據(jù)主要是歷史數(shù)據(jù)和靜態(tài)數(shù)據(jù)。運(yùn)營(yíng)數(shù)據(jù)快照會(huì)被提取到一個(gè)分段集結(jié)區(qū)域,進(jìn)行整理和轉(zhuǎn)換,然后再加載到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)和大數(shù)據(jù)應(yīng)用中。在此之后,它們都不會(huì)更新。這意味著在每一個(gè)快照上只需要運(yùn)行一次備份流程。
最常用的備份方法主要有:
·數(shù)據(jù)復(fù)制。這是一個(gè)常用的備份方法。當(dāng)數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)或大數(shù)據(jù)應(yīng)用程序時(shí),它們會(huì)同步傳輸?shù)揭粋€(gè)備份流程中,其中會(huì)載入大數(shù)據(jù)應(yīng)用程序的一個(gè)備份副本。這個(gè)流程通常發(fā)生在災(zāi)難恢復(fù)站點(diǎn)中,然后在發(fā)生災(zāi)難時(shí)它仍然保有一份最新的數(shù)據(jù)。
·虛擬快照。這是一個(gè)硬件解決方案,它允許在存儲(chǔ)介質(zhì)上創(chuàng)建整個(gè)系統(tǒng)的虛擬備份。數(shù)據(jù)庫(kù)寫(xiě)操作會(huì)在中斷一小段時(shí)間,這時(shí)管理存儲(chǔ)子系統(tǒng)的硬件會(huì)對(duì)所有文件執(zhí)行內(nèi)部復(fù)制操作。這個(gè)復(fù)制流程可能非???,有時(shí)會(huì)在幾秒鐘內(nèi)完成。在復(fù)制完成之后,數(shù)據(jù)庫(kù)管理系統(tǒng)又會(huì)重新允許執(zhí)行寫(xiě)操作。
快照提供了超快速的恢復(fù)時(shí)間,它的假定前提是可以恢復(fù)到創(chuàng)建快照的指定時(shí)間點(diǎn)。除此之外,恢復(fù)到非快照創(chuàng)建的時(shí)間點(diǎn)需要有一些方法能夠?qū)⑺凶钚聰?shù)據(jù)庫(kù)變化(日志捕捉)應(yīng)用到快照中。另一個(gè)問(wèn)題是存儲(chǔ)容量??煺湛赡芤髮?dāng)前使用的存儲(chǔ)加倍。而且,當(dāng)災(zāi)難發(fā)生時(shí),當(dāng)時(shí)的快照會(huì)作為當(dāng)前數(shù)據(jù),但是還必須分配另一個(gè)快照區(qū)域,以備應(yīng)付新的災(zāi)難事件。
·本地與遠(yuǎn)程副本。這是一個(gè)經(jīng)典方法,它由磁盤(pán)備份和包含物理磁盤(pán)驅(qū)動(dòng)器或數(shù)據(jù)庫(kù)的陣列備份構(gòu)成。DBA使用供應(yīng)商工具訪問(wèn)那些通常存儲(chǔ)為一種壓縮私有格式的數(shù)據(jù)。這些備份會(huì)快速地執(zhí)行和加載,因?yàn)樗鼈儾捎玫氖莾?nèi)部數(shù)據(jù)格式。
恢復(fù)自動(dòng)化與測(cè)試
災(zāi)難計(jì)劃的另一個(gè)重要部分是保證恢復(fù)在規(guī)定的RTO內(nèi)完成。對(duì)于大數(shù)據(jù)而言,這通常意味著要使用標(biāo)準(zhǔn)流量或供應(yīng)商工具實(shí)現(xiàn)恢復(fù)自動(dòng)化。聰明的DBA會(huì)盡可能自動(dòng)化更多的任務(wù),從而最大可能減少相對(duì)較慢的人為干預(yù)。這其中就包括要避免以下行為:
·人工處理備份存儲(chǔ)(例如,移動(dòng)和操作磁帶);
·輸入命令行;
·檢查紙質(zhì)報(bào)表或文檔。
在實(shí)現(xiàn)恢復(fù)自動(dòng)化之后,要定期測(cè)試、測(cè)試再測(cè)試。記住,大數(shù)據(jù)總是在不斷地增長(zhǎng),而且隨著數(shù)據(jù)量的增加,備份和恢復(fù)時(shí)間也會(huì)增加。
總結(jié)
大數(shù)據(jù)無(wú)論部署還是使用都非常耗費(fèi)時(shí)間、金錢(qián)和資源。許多公司迫切希望從這些大投入中獲取回報(bào),查詢(xún)和報(bào)表能夠提供一些寶貴的洞察力,幫助執(zhí)行決策、應(yīng)付變化和獲得收益。大數(shù)據(jù)應(yīng)用最終會(huì)變成關(guān)鍵業(yè)務(wù)系統(tǒng)。在此之前,一定要保證自己的IT基礎(chǔ)架構(gòu)能夠備份和恢復(fù)這些數(shù)據(jù)。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03