
OLTP類系統(tǒng)數(shù)據(jù)結(jié)轉(zhuǎn)最佳實踐
一、 背景介紹
業(yè)務(wù)系統(tǒng)在長期運行的過程中會積累大量的數(shù)據(jù),這些數(shù)據(jù)有些是需要長期保存的,例如一些訂單數(shù)據(jù),有些只需要短期保存,例如一些日志信息。業(yè)務(wù)數(shù)據(jù)一般都會有一個生命周期,生命周期內(nèi)的我們叫生產(chǎn)數(shù)據(jù),生命周期之外(即業(yè)務(wù)已經(jīng)關(guān)閉)的叫歷史數(shù)據(jù),我們這里提到的數(shù)據(jù)結(jié)轉(zhuǎn),指的是將需要長期保存的歷史數(shù)據(jù)從生產(chǎn)庫遷移到歷史庫(轉(zhuǎn)),而將需要短期保存的數(shù)據(jù)定期刪除(結(jié))。
我們已經(jīng)進入了大數(shù)據(jù)時代,但在OLTP類系統(tǒng)中,關(guān)系型數(shù)據(jù)庫依然占據(jù)主導地位,在關(guān)系型數(shù)據(jù)庫中,如果不及時進行數(shù)據(jù)結(jié)轉(zhuǎn),會嚴重影響系統(tǒng)的性能。
關(guān)系型數(shù)據(jù)庫單機容量有限,因此業(yè)界普遍的做法是進行垂直分庫和水平分片,一些大型互聯(lián)網(wǎng)企業(yè)由于業(yè)務(wù)量龐大,僅分片的集群規(guī)模就能達到上千節(jié)點,再加上分庫的集群,規(guī)模非常巨大。傳統(tǒng)的數(shù)據(jù)歸檔方法往往針對單庫操作,難以處理如此大規(guī)模集群的數(shù)據(jù)歸檔。
同時,在大型互聯(lián)網(wǎng)企業(yè),每日的數(shù)據(jù)增長量非常大,數(shù)據(jù)結(jié)轉(zhuǎn)的頻率遠大于傳統(tǒng)行業(yè),這些行業(yè)的IT系統(tǒng)往往是7*24小時不間斷提供服務(wù),而且全天24小時的并發(fā)量都很大,因此數(shù)據(jù)結(jié)轉(zhuǎn)操作必須盡量減少對生產(chǎn)庫的性能影響。
為此,我們自主研發(fā)了數(shù)據(jù)結(jié)轉(zhuǎn)平臺,以解決大數(shù)據(jù)背景下的數(shù)據(jù)結(jié)轉(zhuǎn)問題。
二、 技術(shù)架構(gòu)
2.1 設(shè)計要點
(1)盡量減少對生產(chǎn)庫的影響
數(shù)據(jù)結(jié)轉(zhuǎn)操作沒有復雜的業(yè)務(wù)邏輯,因此對數(shù)據(jù)庫性能的影響主要體現(xiàn)在IO方面,減少對生產(chǎn)庫的影響,最主要的就是減少對生產(chǎn)庫的IO操作。目前我們采用的方案是通過從庫查詢數(shù)據(jù),將數(shù)據(jù)插入歷史庫,然后再從主庫中刪除,如圖1數(shù)據(jù)結(jié)轉(zhuǎn)邏輯圖所示,將查詢的IO操作轉(zhuǎn)嫁到從庫上,可以大大減輕對主庫的影響。為了保障數(shù)據(jù)庫的高可用,業(yè)內(nèi)基本都采用了主從部署模式,因此這個方案具有很高的通用性。
圖1 數(shù)據(jù)結(jié)轉(zhuǎn)邏輯圖
(2)支持分庫分片集群
我們希望數(shù)據(jù)結(jié)轉(zhuǎn)平臺的配置足夠簡單并且易于理解。在和用戶的溝通過程中,我們發(fā)現(xiàn)他們最強烈的需求就是分庫分片集群的數(shù)據(jù)結(jié)轉(zhuǎn)。傳統(tǒng)的單機數(shù)據(jù)結(jié)轉(zhuǎn)操作可以抽象描述為:將數(shù)據(jù)庫實例A中表B的歷史數(shù)據(jù)結(jié)轉(zhuǎn)到歷史庫C,用戶的配置主要有4個元素:生產(chǎn)庫實例A、結(jié)轉(zhuǎn)表B、結(jié)轉(zhuǎn)條件和歷史庫。對于大規(guī)模的分庫分片集群規(guī)模,如果采用傳統(tǒng)單機數(shù)據(jù)結(jié)轉(zhuǎn)的配置方式,每一個數(shù)據(jù)庫實例都要配置4個元素,配置量非常大。
在我們的方案中,按照圖2所示對數(shù)據(jù)庫集群進行劃分,將主庫、從庫、歷史庫作為一個結(jié)轉(zhuǎn)單元,對于分片的數(shù)據(jù)庫集群,表結(jié)構(gòu)相同,我們將其作為一個分組,對于分庫的集群,表結(jié)構(gòu)不同則劃分為不同的分組。用戶進行配置的時候不是面向一個數(shù)據(jù)庫實例,而是面向一個分組,數(shù)據(jù)結(jié)轉(zhuǎn)操作抽象為:結(jié)轉(zhuǎn)分組X中表B的歷史數(shù)據(jù),用戶的配置元素有3個:分組X、結(jié)轉(zhuǎn)表B和結(jié)轉(zhuǎn)條件。分組信息僅需配置一次。這樣大大簡化了用戶的配置工作。
(3)支持水平擴展
由于數(shù)據(jù)庫集群規(guī)模較大,數(shù)據(jù)結(jié)轉(zhuǎn)平臺應(yīng)該具備水平擴展能力。我們采用的方案是將數(shù)據(jù)結(jié)轉(zhuǎn)最核心的組件定時任務(wù)和數(shù)據(jù)庫操作(數(shù)據(jù)結(jié)轉(zhuǎn)執(zhí)行器)獨立出來,進行分布式部署。如下圖3所示,
圖2 數(shù)據(jù)庫集群模型
配置中心為用戶的入口,用戶通過配置中心定義數(shù)據(jù)結(jié)轉(zhuǎn)任務(wù),任務(wù)的關(guān)鍵屬性包括:觸發(fā)條件、執(zhí)行條件、目標分組等,配置中心將結(jié)轉(zhuǎn)任務(wù)分發(fā)給代理程序,同時對代理程序的執(zhí)行狀態(tài)進行監(jiān)控。結(jié)轉(zhuǎn)任務(wù)的觸發(fā)條件配置在代理程序中的定時任務(wù)中,而執(zhí)行條件和目標分組則作為數(shù)據(jù)結(jié)轉(zhuǎn)執(zhí)行器的執(zhí)行參數(shù)。通過水平擴展代理程序,我們對更多的數(shù)據(jù)庫進行結(jié)轉(zhuǎn)。
圖3 數(shù)據(jù)結(jié)轉(zhuǎn)組件關(guān)系圖
2.2 總體架構(gòu)
綜合上面提到的3個設(shè)計要點,我們得到圖4所示的總體架構(gòu),需要特別說明的是,對于水平分片的分組,我們采用的是多線程結(jié)轉(zhuǎn),對于不同結(jié)轉(zhuǎn)單元不存在數(shù)據(jù)共享問題,所以無需考慮并發(fā)鎖等問題。
三、 一些經(jīng)驗總結(jié)
a) 配置中心與代理程序之間的信息同步
圖4 數(shù)據(jù)結(jié)轉(zhuǎn)總體架構(gòu)圖
配置中心和代理程序在我們的方案中被設(shè)計為一種松耦合結(jié)構(gòu):在系統(tǒng)的運行過程中,代理程序宕機不會影響配置中心的運行,同樣配置中心短暫的不可用也不會影響代理程序的運行。松耦合結(jié)構(gòu)可以大大增強系統(tǒng)的可用性,而且配置中心、代理程序升級的時候不會影響整個系統(tǒng)的正常運行。
為了實現(xiàn)松耦合的結(jié)構(gòu),配置中心與代理程序之間的信息同步我們都是采用的異步處理,比如配置中心向代理程序分發(fā)結(jié)轉(zhuǎn)任務(wù),實際處理的時候我們采用的是拉的方式,而不是推的方式,我們在配置中心和代理程序之間維持了一個心跳,心跳的內(nèi)容是代理程序負載的所有結(jié)轉(zhuǎn)任務(wù)的校驗碼(該校驗碼在代理程序向配置中心發(fā)送心跳信息時由配置中心計算),當代理程序發(fā)現(xiàn)從配置中心得到的校驗碼和本地校驗碼不同時,則說明用戶對結(jié)轉(zhuǎn)任務(wù)進行了修改(包括新增、修改、刪除),此時代理程序主動向配置中心發(fā)起同步結(jié)轉(zhuǎn)任務(wù)的請求。這樣做的好處是,代理程序在發(fā)生宕機重啟后,會自動進行任務(wù)的同步。
b) 進度可視化
結(jié)轉(zhuǎn)任務(wù)的進度在我們的方案中是實時匯總到配置中心的,我們稱為進度可視化,代理程序通過一個獨立的線程來異步處理進度可視化,一方面這樣可以降低對結(jié)轉(zhuǎn)任務(wù)性能的干擾,另一方面可以避免由于網(wǎng)絡(luò)問題、配置中心暫時不可用等問題導致結(jié)轉(zhuǎn)任務(wù)異常。進度可視化對于用戶來說非常重要,用戶在第一次定義結(jié)轉(zhuǎn)任務(wù)并執(zhí)行該任務(wù)的時候,進度可視化信息是用戶和系統(tǒng)互動的唯一窗口,對用戶來說是莫大的心理安慰。
c) 異常可視化
代理程序在執(zhí)行數(shù)據(jù)結(jié)轉(zhuǎn)任務(wù)時,會遇到各種異常信息,比如數(shù)據(jù)庫URL配置錯誤,歷史庫生產(chǎn)庫表結(jié)構(gòu)不一致等,對于這些異常信息,除了在本地記錄日志外,我們還將它們發(fā)送到了配置中心。將這些異常可視化,而不是讓用戶在大量的日志中去檢索,這種方式非常便于在線問題的診斷。
d) 事務(wù)一致性
將生產(chǎn)庫數(shù)據(jù)轉(zhuǎn)到歷史庫本身是一個分布式的事務(wù),在我們的方案中,不能保證數(shù)據(jù)的強一致性,比如在歷史數(shù)據(jù)Insert到歷史庫的瞬間,用戶修改了生產(chǎn)庫的數(shù)據(jù),我們的方案不會檢測這種變化,會導致用戶的修改并不會反映到歷史庫中,造成數(shù)據(jù)不一致。雖然在生產(chǎn)庫中刪除歷史數(shù)據(jù)時,可以增加強一致性的校驗,以解決這種問題,但是這樣會對生產(chǎn)庫造成一定的壓力,同時考慮到這種情況發(fā)生的概率極低,因此并沒有進行特殊處理。
歷史數(shù)據(jù)Insert到歷史庫后,可能由于某種異常導致生產(chǎn)庫執(zhí)行Delete操作時失敗,此時會造成數(shù)據(jù)冗余(生產(chǎn)庫和歷史庫存在相同數(shù)據(jù))。對于這種問題,我們的方案是利用Redo Log(重做日志)機制,在結(jié)轉(zhuǎn)任務(wù)重新執(zhí)行時根據(jù)Redo Log恢復異?,F(xiàn)場,糾正異常數(shù)據(jù)。
e) 結(jié)轉(zhuǎn)數(shù)據(jù)的回滾
我們提供了一個數(shù)據(jù)回滾功能,可以將已經(jīng)結(jié)轉(zhuǎn)到歷史庫的數(shù)據(jù)逆向回滾到生產(chǎn)庫,用戶可以配置Where條件精確指定需要回滾的數(shù)據(jù)。有些特殊情況,業(yè)務(wù)上需要對已經(jīng)結(jié)轉(zhuǎn)的歷史數(shù)據(jù)進行修改,該功能主要用于處理這種情況。同時在測試階段,我們可以通過該功能快速恢復測試數(shù)據(jù),方便對數(shù)據(jù)結(jié)轉(zhuǎn)平臺的測試。
f) 代理程序的自動升級
代理程序和配置中心本質(zhì)上是一種典型的C/S(客戶端/服務(wù)端)結(jié)構(gòu),客戶端是多實例部署,服務(wù)器端是集群部署,為了系統(tǒng)能夠平滑地進行升級,我們需要對客戶端的版本進行統(tǒng)一管理,同時我們提供了代理程序的自動升級功能,系統(tǒng)管理員可以通過配置中心對代理程序部署實例進行升級。自動升級功能,統(tǒng)一了代理程序的版本,使得我們可以不用被兼容性問題羈絆,是我們能夠進行快速迭代開發(fā)有力支撐。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10