
大數(shù)據(jù)需不需要備份和災難恢復
大數(shù)據(jù)應用的發(fā)展趨勢是在擁有大存儲容量的同時配備用于執(zhí)行數(shù)據(jù)分析的融合硬件設備與分析軟件包。這些應用通常不會用于處理運營數(shù)據(jù);相反,用戶會通過查詢數(shù)據(jù)來分析過去的產(chǎn)品銷售、預測趨勢和確定未來的客戶購買模式。大數(shù)據(jù)應用通常并不會被定位為關鍵業(yè)務系統(tǒng),雖然它們也支持銷售和營銷決策,但是并不會顯著影響一些核心運營業(yè)務,如客戶管理、訂單、庫存和配送等。
那么,為什么許多領先的企業(yè)IT部門都迅速將大數(shù)據(jù)整合到他們的災難恢復計劃中呢?這些數(shù)據(jù)量如此之大,會不會給備份帶來影響呢?即便是備份了數(shù)據(jù),從備份恢復數(shù)據(jù)是否會花費幾天(幾周或更長時間)呢?帶著這些問題,我們來看一下如何進行大數(shù)據(jù)的災難恢復。
數(shù)據(jù)太大,無法備份
災難恢復最佳實踐包括在指定的時間里將重要數(shù)據(jù)及時恢復到一致狀態(tài)的能力。這段時間稱為恢復時間目標(RTO),它必須在業(yè)務所依賴的運營數(shù)據(jù)的限制范圍之內(nèi)(最多幾個小時)。但是,遇到大數(shù)據(jù)時該怎么辦?大多數(shù)公司認為大數(shù)據(jù)的備份與恢復并不重要。其中包括以下這些原因。
運營系統(tǒng)更重要。在發(fā)生災難之后,最高優(yōu)先級的工作是恢復那些支持運營系統(tǒng)的數(shù)據(jù)。這些系統(tǒng)包括會計、訂單條目、支付受理、工資等,它們是保證公司正常運營的必要條件。在這些數(shù)據(jù)恢復之后,第二優(yōu)先級的工作是支持這些系統(tǒng)的運行。
大數(shù)據(jù)并不是關鍵業(yè)務系統(tǒng)。預測和趨勢分析可能是營銷的重要手段,但是這些分析及其相關的查詢和用戶報表都基于歷史數(shù)據(jù),而非實時數(shù)據(jù)。
大數(shù)據(jù)的體量非常巨大,一個大數(shù)據(jù)應用所存儲的數(shù)據(jù)量可能是所有運營數(shù)據(jù)之和的數(shù)十倍。這是因為大數(shù)據(jù)應用工作在數(shù)據(jù)的歷史快照上。十年的歷史數(shù)據(jù)就會包含幾千天的快照。它備份在什么介質上,備份需要多長時間,然后需要的備份存儲有多大?
備份與恢復流程需要I/O通道容量。在短時間內(nèi)遷移大容量的數(shù)據(jù)要求使用較大的容量。備份與恢復會耗盡I/O通道,唯一可行的替代方法是安裝足夠的附加容量去處理這些任務。
當大數(shù)據(jù)成為關鍵業(yè)務系統(tǒng)
上面介紹的原因并非適用于所有公司。有一些關注客戶的系統(tǒng)也會使用大數(shù)據(jù)分析,這意味著大數(shù)據(jù)應用將屬于運營處理的一部分。在其他企業(yè)中,大數(shù)據(jù)開始成為一種簡單的查詢和報表工具。有一些專用查詢會慢慢體現(xiàn)其重要作用,然后變成一些常規(guī)報表。這些有用的報表會受到管理層的關注,他們會因此將這些報表變成一些重要的操作。最終,管理層會逐漸依賴這些報表來作出運營決策。因此,他們的大數(shù)據(jù)應用就會逐漸向關鍵業(yè)務系統(tǒng)靠攏。
大數(shù)據(jù)應用發(fā)展成為關鍵業(yè)務系統(tǒng)的趨勢是不可避免的。這些應用的安裝和配置過程代價高昂且耗費時間,同時也需要由高素質的技術人員來完成。此外,查詢數(shù)據(jù)的業(yè)務分析師很少會親自處理數(shù)據(jù)。通常他們會使用一些專門用于查詢和分析大數(shù)據(jù)的分析軟件包。這些軟件同樣非常昂貴,同時只有經(jīng)過大量培訓的技術人員才能高效使用這些軟件。
公司在大數(shù)據(jù)應用投入了大量的金錢。公司迫切希望從他們的投資中獲取有價值的回報。從數(shù)據(jù)分析得到的報表可能產(chǎn)生更好的客戶服務、更快的產(chǎn)品周轉速度和更高的收益。而收益恰恰就意味著關鍵業(yè)務。
大數(shù)據(jù)備份方法
如果準備在災難恢復計劃過程中恢復全部或部分大數(shù)據(jù)應用,那么可以考慮選擇下面這些備份方法。
最重要的是要記?。捍髷?shù)據(jù)主要是歷史數(shù)據(jù)和靜態(tài)數(shù)據(jù)。運營數(shù)據(jù)快照會被提取到一個分段集結區(qū)域,進行整理和轉換,然后再加載到企業(yè)數(shù)據(jù)倉庫和大數(shù)據(jù)應用中。在此之后,它們都不會更新。這意味著在每一個快照上只需要運行一次備份流程。
最常用的備份方法主要有:
·數(shù)據(jù)復制。這是一個常用的備份方法。當數(shù)據(jù)加載到數(shù)據(jù)倉庫或大數(shù)據(jù)應用程序時,它們會同步傳輸?shù)揭粋€備份流程中,其中會載入大數(shù)據(jù)應用程序的一個備份副本。這個流程通常發(fā)生在災難恢復站點中,然后在發(fā)生災難時它仍然保有一份最新的數(shù)據(jù)。
·虛擬快照。這是一個硬件解決方案,它允許在存儲介質上創(chuàng)建整個系統(tǒng)的虛擬備份。數(shù)據(jù)庫寫操作會在中斷一小段時間,這時管理存儲子系統(tǒng)的硬件會對所有文件執(zhí)行內(nèi)部復制操作。這個復制流程可能非??欤袝r會在幾秒鐘內(nèi)完成。在復制完成之后,數(shù)據(jù)庫管理系統(tǒng)又會重新允許執(zhí)行寫操作。
快照提供了超快速的恢復時間,它的假定前提是可以恢復到創(chuàng)建快照的指定時間點。除此之外,恢復到非快照創(chuàng)建的時間點需要有一些方法能夠將所有最新數(shù)據(jù)庫變化(日志捕捉)應用到快照中。另一個問題是存儲容量??煺湛赡芤髮斍笆褂玫拇鎯颖?。而且,當災難發(fā)生時,當時的快照會作為當前數(shù)據(jù),但是還必須分配另一個快照區(qū)域,以備應付新的災難事件。
·本地與遠程副本。這是一個經(jīng)典方法,它由磁盤備份和包含物理磁盤驅動器或數(shù)據(jù)庫的陣列備份構成。DBA使用供應商工具訪問那些通常存儲為一種壓縮私有格式的數(shù)據(jù)。這些備份會快速地執(zhí)行和加載,因為它們采用的是內(nèi)部數(shù)據(jù)格式。
恢復自動化與測試
災難計劃的另一個重要部分是保證恢復在規(guī)定的RTO內(nèi)完成。對于大數(shù)據(jù)而言,這通常意味著要使用標準流量或供應商工具實現(xiàn)恢復自動化。聰明的DBA會盡可能自動化更多的任務,從而最大可能減少相對較慢的人為干預。這其中就包括要避免以下行為:
·人工處理備份存儲(例如,移動和操作磁帶);
·輸入命令行;
·檢查紙質報表或文檔。
在實現(xiàn)恢復自動化之后,要定期測試、測試再測試。記住,大數(shù)據(jù)總是在不斷地增長,而且隨著數(shù)據(jù)量的增加,備份和恢復時間也會增加。
總結
大數(shù)據(jù)無論部署還是使用都非常耗費時間、金錢和資源。許多公司迫切希望從這些大投入中獲取回報,查詢和報表能夠提供一些寶貴的洞察力,幫助執(zhí)行決策、應付變化和獲得收益。大數(shù)據(jù)應用最終會變成關鍵業(yè)務系統(tǒng)。在此之前,一定要保證自己的IT基礎架構能夠備份和恢復這些數(shù)據(jù)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03