
大數(shù)據(jù)時代下,DBA該何去何從
數(shù)據(jù)庫管理員(DBA)的職能已擴展到數(shù)據(jù)管理、基礎架構管理以及工作負載和SLA管理上。作為大數(shù)據(jù)戰(zhàn)略的一部分,DBA的角色又是如何變化的呢?
數(shù)據(jù)管理
* 為成為數(shù)據(jù)管理專家而努力。雖然SQL數(shù)據(jù)庫可以擴展以處理大數(shù)據(jù),但數(shù)據(jù)庫并不是最優(yōu)解決方案。DBA正在預算方面做努力,在預算范圍內,以最低的成本滿足SLA。
* 出現(xiàn)數(shù)據(jù)ops概念。數(shù)據(jù)管理和數(shù)據(jù)治理。數(shù)據(jù)操作是團隊的一部分,在收集和創(chuàng)建數(shù)據(jù)時共享目標、協(xié)作工作。使用自動化來擠壓延遲、采取最合適的敏捷方案以提高提高效率。
* 管理、治理和軟件交付。維護數(shù)據(jù)庫模型和模式。在大數(shù)據(jù)中,從定義明確的轉換到應用程序和工程師之間的協(xié)同工作,一切都是具有探索性的。
* 雖然開發(fā)人員認為不需要數(shù)據(jù)管理,但為了后續(xù)的分析數(shù)據(jù),DBA們仍需要進行數(shù)據(jù)管理。
* DBA從管理數(shù)據(jù)庫轉變?yōu)榭缍鄠€系統(tǒng)的數(shù)據(jù)工程師。他們關注的是數(shù)據(jù)如何從一個數(shù)據(jù)庫轉移到另一個數(shù)據(jù)庫、數(shù)據(jù)的消耗、數(shù)據(jù)的調整以及數(shù)據(jù)流程的管理,對于數(shù)據(jù)自動分配和執(zhí)行來說這些都至關重要。
* DBA已經(jīng)不再是單單只關注像SQLServer和Oracle這樣的個人產品,而是必須要處理好企業(yè)大數(shù)據(jù)實施方案的執(zhí)行問題。
基礎架構和平臺
DBA的角色已經(jīng)被推到第一線上。對IT棧的演變負責。基礎設施和平臺的認定范圍變的更大。
* 這是一個不容忽視的大挑戰(zhàn),應用程序所使用的數(shù)據(jù)庫技術不再歸于DBA的控制范圍內。遷移到云上的比重越大,DBA的控制范圍就越小。數(shù)據(jù)越來越多,同時也在不斷推出新的數(shù)據(jù)庫。管理數(shù)據(jù)基礎設施、提出大數(shù)據(jù)的解決喝整合方案、掌握如何歸檔和處理災難恢復的技能。AWS似乎將云中的數(shù)據(jù)庫選項綁定到了DBA上。DBA仍然需要在備份、災難恢復和海量存儲上多費心思。值得在備份和存儲方面進行更具戰(zhàn)略性的思考。
DBA比以往更重要,因此他們也需要學習:如何有效地集成存儲在RDBMS系統(tǒng)中的遺留數(shù)據(jù),同時大數(shù)據(jù)技術也是必不可少的。
* 由于大數(shù)據(jù)改變了數(shù)據(jù)架構,DBA的存在可能需要不是立竿見影的,但確實是實實在在的。新技術為數(shù)據(jù)管理提供了新的契機,使DBA和數(shù)據(jù)模式打開了一個新時代。
* 事實上,沒有數(shù)據(jù)模式和Hadoop的NoSQL平臺,以及支持它的一系列工具,會越來越多地部署在企業(yè)中?,F(xiàn)在開發(fā)人員在數(shù)據(jù)本身的設計上有更多的影響力。
* 這在擴大DBA的專業(yè)范圍上起到了推動作用:必須學習NoSQL系統(tǒng)的機制和操作;掌握管理Hadoop集群的能力;實施“無需存儲數(shù)據(jù)存儲數(shù)據(jù)”的方法。
* 而且,NoSQL的靈活性是以數(shù)據(jù)完整性為代價,這種模型的難度更高。目前,許多公司的網(wǎng)絡應用程序的數(shù)據(jù)完整性已經(jīng)給靈活性讓位了。
* DBA必須適應設計和開發(fā)的風格變化。DBA也需要運行幾個關系系統(tǒng),并且認真學習NoSQL技術,對指導公司做出的部署負責。將來可能會劃分出幾種類型的DBA:局限于技術的;傳統(tǒng)的管理員;努力學習并適應管理大數(shù)據(jù)的新技術和工具的。
* DBA始終是整個軟件開發(fā)流程的一部分。在目前的環(huán)境中,更是需要所有的DBA都參與到整個開發(fā)過程中,尤其是規(guī)劃、范圍界定和原型設計部分。DBA能為企業(yè)提供有關數(shù)據(jù)基礎設施功能、所需變更成本、潛在性能影響以及總體容量規(guī)劃等項目的具體信息。
* 鑒于對數(shù)據(jù)的使用要求,更多特定數(shù)據(jù)平臺范圍之外的技術正被用于實施解決方案。DBA不僅僅要專注于SQL、DDL等,還要掌握JavaScript、Java、.NET等技術。DBA會越來越精通應用容器化和系統(tǒng)容器化(Docker、Rkt、Linux容器等)。DBA壓力會越來越大,一旦與其他角色聯(lián)系到一起,數(shù)據(jù)及其管理都是穿插著多條生命線,因此需要掌握的技術就不斷增加。
成功采用大數(shù)據(jù)策略的企業(yè),早已經(jīng)把DBA轉變?yōu)樾滦蛿?shù)據(jù)基礎管理員,包括NoSQL數(shù)據(jù)庫和Hadoop在內。與開發(fā)數(shù)據(jù)管理邏輯的數(shù)據(jù)開發(fā)人員、處理和準備數(shù)據(jù)的數(shù)據(jù)科學家以及業(yè)務線上的數(shù)據(jù)分析人員相結合,DBA是操作大數(shù)據(jù)戰(zhàn)略的重要部分。現(xiàn)在,DBA依賴于更智能的工具,這些工具可以管理并報告各種數(shù)據(jù)庫和技術框架的數(shù)據(jù)基礎架構和流程。
工作負載和SLA
* 工作結構消失了。有類型更為廣泛的問題需要解決。要實現(xiàn)混合的環(huán)境在流和批處理中交付新的工作負載,同時又能跟得上變化。
* 現(xiàn)在,有許多不在數(shù)據(jù)庫中管理數(shù)據(jù),而是將數(shù)據(jù)組織成超級管理數(shù)據(jù)的數(shù)據(jù)生態(tài)系統(tǒng)一部分的做法。了解通信、鏈接的速度、安全性以及如何將來源匯集在一起。
* 比起以往,現(xiàn)在有更多的技術管理。理解并管理一個數(shù)據(jù)倉庫的技術方法有10到20種。為了能給問題選擇出正確的技術,便于管理,規(guī)模較大的企業(yè)正在考慮將搜索、NoSQL、Hadoop和GPU技術標準化。
* 從一個擁有數(shù)據(jù)庫領域知識的系統(tǒng)管理員,到現(xiàn)在需要掌握處理數(shù)據(jù)集成、非結構化數(shù)據(jù)、自然語言處理、文檔存儲和統(tǒng)計。工具集可以能夠簡化工作。關系數(shù)據(jù)庫不會有大的進展,但大數(shù)據(jù)存儲會有新變化。
1. 大數(shù)據(jù)時代,DBA的角色發(fā)生了重大變化。在很長一段時間里,DBA僅僅只是一個系統(tǒng)管理員。他們的確有SQL知識、知道該如何優(yōu)化SQL,以及對構建數(shù)據(jù)庫的理解,但他們并沒有主動參與到數(shù)據(jù)庫系統(tǒng)里數(shù)據(jù)的特定用途上。
2. 大數(shù)據(jù)DBA對數(shù)據(jù)和非關系數(shù)據(jù)模型的應用程序有更深入的了解,并且必須具備執(zhí)行數(shù)據(jù)集成的知識,這些數(shù)據(jù)集超出了用于商業(yè)智能(BI)應用的傳統(tǒng)提取——轉換——加載過程(ETL)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10