
企業(yè)的數(shù)據(jù)中臺的價值
在經(jīng)分的年代,數(shù)據(jù)倉庫推倒重來了幾遍,構(gòu)建了很多的專題項目,經(jīng)歷了上萬次取數(shù),制作了成百上千的報表,但在支撐了當初的業(yè)務發(fā)展的同時,到底給如今的企業(yè)留下了多少資產(chǎn)?
也許是培養(yǎng)了一代又一代的數(shù)據(jù)人員,如今有的成為數(shù)據(jù)專家,有的轉(zhuǎn)型業(yè)務人員,有的晉升為領(lǐng)導,有的離職踏上新的崗位,為企業(yè)服務的合作伙伴也由此獲得快速成長,很多也成了龐然大物。
但這個夠嗎?
顯然不夠,但很多企業(yè)現(xiàn)有的數(shù)據(jù)歷史底蘊就是這些了吧,老系統(tǒng)遲早要倒,新系統(tǒng)還是要建,但老系統(tǒng)的好基因卻很難留下來,這一代的數(shù)據(jù)倉庫與上一代數(shù)據(jù)倉庫一般不能說是演進,而是重來,或者是靠著個人的經(jīng)驗撐起整片天,又如10年前筆者用邏輯回歸實現(xiàn)的飛信潛在模型,現(xiàn)在只能到歷史的PPT中去尋找其蹤影了,反應了同樣的道理。
想向新人介紹一下歷史,囧于歷史沒什么好說的,也沒什么好展示的,說明了傳承的不夠,曾經(jīng)滄海難為水,其實可以做的更好。
那么問題的核心在哪里?
答案就是數(shù)據(jù)中臺,今天就來談一談。
廣義的數(shù)據(jù)中臺包括了數(shù)據(jù)技術(shù),比如對海量數(shù)據(jù)進行采集、計算、存儲、加工的一系列技術(shù)集合,對于大多企業(yè),這些能力是能夠買到的,因此無所謂積淀,要積淀大多也是別人的積淀,而不是企業(yè)的,當然自主研發(fā)的除外,比如阿里的ODPS等。
筆者提的數(shù)據(jù)中臺要更往上走,包括數(shù)據(jù)模型,算法服務,數(shù)據(jù)產(chǎn)品,數(shù)據(jù)管理等等,這些服務跟企業(yè)的業(yè)務有較強的關(guān)聯(lián)性,是這個企業(yè)獨有的且能復用的,比如企業(yè)自建的2000個基礎(chǔ)模型,300個融合模型,5萬個標簽,這些就是筆者說的中臺,它是企業(yè)業(yè)務和數(shù)據(jù)的沉淀,其不僅能降低重復建設,減少煙囪式協(xié)作的成本,也是差異化競爭優(yōu)勢所在。
為什么數(shù)據(jù)中臺如此重要呢,筆者概括大致有以下四個原因:
1、回歸服務的本質(zhì)-數(shù)據(jù)重用
今天的浙江移動已經(jīng)將2000個基礎(chǔ)模型作為所有數(shù)據(jù)服務開發(fā)的基礎(chǔ),這些基礎(chǔ)模型做到了“書同文,車同軌”,無論應用的數(shù)據(jù)模型有多復雜,總是能溯源到2000張基礎(chǔ)表,這奠定了數(shù)據(jù)核對和認知的基礎(chǔ),最大程度的避免了“重復數(shù)據(jù)抽取和維護帶來的成本浪費?!?
曾經(jīng)企業(yè)的數(shù)據(jù)抽取就有多份,報表一份,數(shù)據(jù)倉庫一份,地市集市一份,無論是抽取壓力、維護難度及數(shù)據(jù)一致性要求都很高。
同時,統(tǒng)一的基礎(chǔ)模型將相關(guān)業(yè)務領(lǐng)域的數(shù)據(jù)做了很好的匯聚,解決了數(shù)據(jù)互通的訴求,這點的意義巨大,誰都知道數(shù)據(jù)1+1>2的意思。
2、數(shù)據(jù)中臺需要不斷的業(yè)務滋養(yǎng)
在企業(yè)內(nèi),無論是專題、報表或取數(shù),當前基本是煙囪式數(shù)據(jù)生產(chǎn)模式或者是項目制建設方式,必然導致數(shù)據(jù)知識得不到沉淀和持續(xù)發(fā)展,從而造成模型不能真正成為可重用的組件,無法支撐數(shù)據(jù)分析的快速響應和創(chuàng)新。
究其原因是模型建設往往是項目式的建設方式,一旦項目結(jié)束,在面對業(yè)務提出更多需求時,項目模型團隊可能已經(jīng)撤離了,或者考核指標早已經(jīng)隨著項目結(jié)束,模型提供者在主觀上沒有太大的積極性去滿足新的需求,如果當初模型的擴展性設計的不好,或者時間太緊,或者系統(tǒng)穩(wěn)定的需要,往往導致有心無力滿足新的需求,結(jié)果是數(shù)據(jù)模型無法再擴展,成為事實上穩(wěn)定的但無用的模型。
其實,業(yè)務最不需要的就是模型的穩(wěn)定,一個數(shù)據(jù)模型如果一味追求穩(wěn)定不變,一定程度就是故步自封,這樣的做法必然導致其他的新的類似的數(shù)據(jù)模型產(chǎn)生,當越來越多的模型都采用自建的方式滿足需求時,意味著老的數(shù)據(jù)模型就可能要離開歷史舞臺了,而留下的是割裂的成千上萬的模型,也就失去了模型知識沉淀的可能,曾經(jīng)做過一張幾百個字段的萬能寬表,由于太大后來就沒人敢去動它,隨著新的業(yè)務不斷增加,這張寬表的價值卻越來越低直至退出歷史舞臺。
數(shù)據(jù)模型不需要“穩(wěn)定”,而需要不斷的滋養(yǎng),只有在滋養(yǎng)中才能從最初的字段單一到逐漸成長為企業(yè)最為寶貴的模型資產(chǎn)。
其實標簽也一樣,做過不少異動標簽或離網(wǎng)模型,曾經(jīng)效果不錯,隨著公司轉(zhuǎn)型流量經(jīng)營,原來以語音異動判斷為主的這類標簽開始難以適應變化,但后續(xù)已經(jīng)沒人能改得動它,這個標簽也就退出了歷史舞臺,退出的可不僅僅是一個標簽,這個標簽承載的所有的既有經(jīng)驗也就被廢棄掉了,想想這些標簽當初花了多大的代價做成就會感覺非??上?。
再以報表為例,企業(yè)報表成千上萬的原因往往也是沒有沉淀造成的,針對一個業(yè)務報表,由于不同的業(yè)務人員提出的角度不同,會幻化出成百上千的報表,如果有報表中臺的概念,就可以提出一些基準報表的原則,比如一個業(yè)務一張報表,已經(jīng)有的業(yè)務報表只允許修改而不允許新增,自然老報表就會由于新的需求而不斷完善,從而能演化成企業(yè)的基礎(chǔ)報表目錄,否則就是一堆報表的堆砌,后續(xù)的數(shù)據(jù)一致性問題層出不窮,管理成本急劇增加,人力投入越來越多,這樣的事情在每個企業(yè)都在發(fā)生。
3、數(shù)據(jù)中臺是培育業(yè)務創(chuàng)新的土壤
企業(yè)的數(shù)據(jù)創(chuàng)新一定要站在巨人的肩膀上,即從數(shù)據(jù)中臺開始,不能總是從基礎(chǔ)做起,數(shù)據(jù)中臺是數(shù)據(jù)創(chuàng)新效率的保障。
搞過機器學習的都知道,沒有好的規(guī)整數(shù)據(jù),數(shù)據(jù)準備的過程極其冗長,這也是數(shù)據(jù)倉庫模型的一個核心價值所在,比如運營商中要獲取3個月的ARPU數(shù)據(jù),如果沒有融合模型的支撐,得自己從賬單一層層匯總及關(guān)聯(lián),速度可想而知。
很多合作伙伴的數(shù)據(jù)科學家到一個企業(yè)水土不服,除了業(yè)務上不熟悉外,往往還面臨著數(shù)據(jù)準備的困境,取數(shù)的高難度導致他難以快速的去驗證想法,企業(yè)想借助外力去搞數(shù)據(jù)創(chuàng)新有時成了一廂情愿。
標簽也一樣,企業(yè)打造標簽可并不僅僅是做幾個標簽那么簡單,它需要打造的是一個標簽服務平臺,要能最大限度的規(guī)范標簽的格式,接入方式,組合方式,調(diào)用方式等等,只有這樣,基于標簽的二次快速創(chuàng)新才有可能,企業(yè)每發(fā)布一個新的標簽,就意味著新增了一種能力,這才是數(shù)據(jù)知識的真正傳承。
比如當常駐地模型發(fā)布成為標簽平臺的一個標簽后,以后凡是涉及到常駐地判斷的都可以直接調(diào)用,這極大降低了關(guān)于用戶位置數(shù)據(jù)準備的成本。
在如今的互聯(lián)網(wǎng)時代,企業(yè)都在全力謀求轉(zhuǎn)型,轉(zhuǎn)型的關(guān)鍵是要具備跟互聯(lián)網(wǎng)公司一樣的快速創(chuàng)新能力,大數(shù)據(jù)是其中一個核心驅(qū)動力,但擁有大數(shù)據(jù)還是不夠的,數(shù)據(jù)中臺的能力往往最終決定速度,擁有速度意味著試錯成本很低,意味著可以再來一次。
4、數(shù)據(jù)中臺是人才成長的搖籃
記得筆者剛進企業(yè)的時候,要獲得成長一是靠人帶,二是找人問,三是自己登陸各種系統(tǒng)去看源代碼,這樣的學習比較支離破碎,其實很難了解全貌,無法知道什么東西對于企業(yè)是最重要的,獲得的文檔資料也往往也是過了時的。
現(xiàn)在有了數(shù)據(jù)中臺,很多成長問題就能解決,有了基礎(chǔ)模型,新人可以系統(tǒng)的學習企業(yè)有哪些基本數(shù)據(jù)能力,O域數(shù)據(jù)的增加更是讓其有更廣闊的視野,有了融合模型,新人可以知道有哪些主題域,從主題域切入去全局的理解公司的業(yè)務概念,有了標簽庫,新人可以獲得前人的所有智慧結(jié)晶,有了數(shù)據(jù)管理平臺,新人能清晰的追溯數(shù)據(jù)、標簽和應用的來龍去脈,所有的知識都是在線的,最新的,意味著新人的高起點。
更為關(guān)鍵的是,數(shù)據(jù)中臺讓新人擺脫了在起步階段對于導師的過渡依賴,能快速的融入團隊,在前人的基礎(chǔ)上進行創(chuàng)新。
數(shù)據(jù)中臺天然的統(tǒng)一,集成的特性,有可能讓新人打破點線的束縛,快速構(gòu)筑起自己的知識體系,成為企業(yè)數(shù)據(jù)領(lǐng)域的專家。
當然,數(shù)據(jù)中臺的建立不是一蹴而就的,每個企業(yè)都應該基于實際打造獨有的中臺能力,在這個過程中,需要遵循一些原則:
首先,企業(yè)的組織架構(gòu)及機制需要順勢而變,比如以前負責數(shù)據(jù)的部門或團隊往往缺乏話語權(quán),面對業(yè)務需求往往是被動的接受的角色,這讓一切數(shù)據(jù)中臺的想法化為泡影,需要為數(shù)據(jù)中臺團隊授權(quán)。
其次,要改變工作方式,現(xiàn)在很多企業(yè)的數(shù)據(jù)團隊的主要工作內(nèi)容就是項目管理、需求管理等等,當一個項目完成后又投入到下一個項目,做好一個需求后又開始負責下一個需求,這樣的工作確實非常鍛煉人的組織、協(xié)調(diào)能力,但這樣能力的提升與工作時間的長短并不是呈線性增長的,雖然增加了項目和需求管理經(jīng)驗,但并不能在某一個專業(yè)領(lǐng)域得到知識和經(jīng)驗的沉淀,隨著時間的流逝,越來越多的人會失去最初的工作積極性和創(chuàng)造性,事實上,數(shù)據(jù)人員只有深入的研究業(yè)務、數(shù)據(jù)和模型,端到端的去實踐,打造出數(shù)據(jù)中臺,才是最大的價值創(chuàng)造,才能使得持續(xù)創(chuàng)新成為可能。
第三,數(shù)據(jù)中臺的團隊要從傳統(tǒng)的支撐角色逐步向運營角色轉(zhuǎn)變,不僅在數(shù)據(jù)上,在業(yè)務上也要努力趕超業(yè)務人員,中臺人員要逐步建立起對于業(yè)務的話語權(quán),不僅僅是接受需求的角色,更要能提出合理的建議,能為業(yè)務帶來新的增長點,比如精確營銷。
DT時代,接下來整個社會會進入開放共享的時代,致力于大數(shù)據(jù)變現(xiàn)的企業(yè)最大的價值就是將這些核心數(shù)據(jù)能力進行對外開放的運營,到那個時代,數(shù)據(jù)中臺將成為企業(yè)最為寶貴的資產(chǎn)。
從個人的角度講,將自己的貢獻幻化為中臺能力,能夠持續(xù)的為公司創(chuàng)造價值,這是值得驕傲的事情。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10