
大數據的理想與現實之間
我與數據打了25年的交道,經歷了從電信、網通到聯通的多次重組,親身參與了數據專業(yè)線從弱勢群體逐漸發(fā)展壯大的全過程。一直想找個機會,談談我的體會,但是沒有下這個決心動筆。最近,受范總原創(chuàng)《“一篇文看懂Hadoop”讀后感》的鼓舞,想從數據工作實務的角度分享一下我的想法,就當拋磚引玉吧。
我們就按照論文里通常的套路開始吧。首先“什么是數據?”通俗的理解就是:如果把企業(yè)比作一個“生產線”,數據就是在這個“生產線”上各項活動所產生的,以各種形式存放在各個系統中或者其他載體上的信息,把這些信息按照一定的屬性和規(guī)則進行分類加工就形成了數據,它反映著企業(yè)經營發(fā)展的狀況,記錄著企業(yè)用戶的使用情況,還有產業(yè)鏈上各個參與者的狀況。
受現代企業(yè)的部門設置、專業(yè)線管理架構的影響,企業(yè)完整的“生產線”被各部門分割,數據散落在由各部門管理的系統中,這就是大型企業(yè)通常的業(yè)務和數據管理的現狀~~“職責分割、數據分散”。那么,如何反映企業(yè)整體的發(fā)展現狀呢?通常是公司月度經營分析會上,財務部門的分析報告中,匯報公司的總體情況,而市場、集團客戶等部門的報告分別匯報本專業(yè)條線的經營情況。曾經出現的情況就是財務部門匯報公司總體利潤下降,而各業(yè)務部門紛紛完成任務形勢一片大好的反差。老板心里納悶~~“你們都完成了任務,敢情就我沒完成任務?”
聯通重組以來,頂著來自省里還有其他專業(yè)的壓力,一直在推行數據的集中。信息化部把各省、各系統中的數以億計的用戶明細數據在集團層面進行了集中存儲,并經過統一的規(guī)則加工數據,再加上后來的分析應用,不僅使每個月統計的用戶發(fā)展數據更加真實了,還發(fā)現地市層面違規(guī)經營、業(yè)績造假的行為。集團董事長召開全國地市級工作會議,點名批評、撤換了幾個地市老總。當時,地市老總還在云里霧里~~“我都沒有這么詳細的數據,董事長怎么知道的?”這就是數據在打破部門和省分之間的壁壘,使領導層能縱觀企業(yè)真實情況,“知其然,知其所以然”方面發(fā)揮的至關重要的作用。
近兩年來,聯通通過與外部公司的合作,使用脫敏的用戶標簽數據為企業(yè)創(chuàng)造了真金白銀的實際價值,“數據”的應用價值日益突出,真正成為企業(yè)的又一寶貴資源。而之前,企業(yè)內部并沒有這么一個專門的部門是站在全局的角度,承擔起“數據資源”管理者的角色的,這就是成立“數據中心”的初衷,也是其定位和義不容辭的責任。聯通數據中心的成立,是“數據線”這個弱勢專業(yè)有史以來擺脫依附關系成為獨立二級部門的第一次,也是對于聯通信息化部門實踐數據集中整合、應用,支撐公司管理方面取得成果的高度肯定。說起這個,數據線工作的人都會有深深的共鳴,這里面有多少苦衷啊。
“數據中心”脫身于信息化部門,而信息化部門的基本定位就是“支撐”,就是要“有求必應”。我們熟悉的場景是每個月的那么幾天,業(yè)務部門的人員為了寫分析報告,需要些報表以外的數據進行分析,給數據部門打電話,然后心急火燎地等待他們提供的數據結果。另一場景,數據部門的人員被各部門各種的數據需求折騰得團團轉,為了提供數據,加班到天亮。曾經有負責數據服務的處室,在總結年度工作時用到的數據是“提供報表上萬張”。經分系統在用戶的堅持下,開發(fā)了大量內容相近、格式不同的報表。一方面是用戶層出不窮的需求無法滿足,另一面卻是系統里大量的報表沒有人訪問。因為用戶無法自己獲取數據,日常數據服務工作顯得相當被動。
其實從內容上看,一個企業(yè)的數據是唯一的,只是各部門因為關注的角度不同,提出了不同的展現要求,實際上在數據層面有較高的重疊性。如果想要在減少需求量的同時,提高用戶滿意度,就需要數據管理部門的人員具備高度的綜合能力,這個人不僅要熟悉公司的業(yè)務、流程、部門的職責分工,還要有很好的溝通能力,能夠正確理解、綜合、引導用戶的需求,然后在總體框架下將整合后的、被驗證過的需求在系統中固化。如果能力強,從個人層面,還是可以主動地做一些事情的。
但是,要想改變數據工作的被動局面,就需要數據管理部門不再局限于“支撐”的角色,而是應該站在”數據資源管理者”的角度,主動地從數據、應用、管控、系統四個方面,形成一個體系化的數據管理架構,并指導日常工作和系統建設。
上圖是2009年聯通開展的數據管理體系研究工作的成果,是對數據工作的一次很好的總結和提升。它是數據管理體系L0架構,揭示了數據管理工作的組成部分以及各個部分之間的關系。與其他專業(yè)線不同,數據專業(yè)的管理核心是”數據”,數據質量、生命周期和安全管理都是核心的管控內容,而組織(人員、制度)和系統是數據產生價值的基本保障。數據、應用、管控、系統四個方面的內容缺一不可,同時又存在相互關聯、不斷優(yōu)化的過程(流程),絕對不是建幾個系統那么簡單,這也是數據專業(yè)管理的難度所在。
上面這張圖就是對數據工作的流程很好的詮釋,數據部門要想扭轉被動的局面,首先必須有自己完整的架構(數據、應用、系統、流程、管理制度)。而這一架構的形成,是需要通過以下4個步驟:
信息化的同事對于數據、應用、系統這三項內容都容易理解,但是,對于制度和流程就不太容易理解了。制度就是游戲規(guī)則,規(guī)定了該誰做,做什么,怎么做,做到什么程度。流程則是為了明確一件工作的步驟和涉及的部門之間的關系。目前流程的缺失帶來太多的問題,常見的場景就是一項業(yè)務已經下線了,我們的系統中還在展示;新的業(yè)務已經為公司創(chuàng)造價值了,其收入還沒有在財務報表中單獨體現,不能及時反映這項業(yè)務的發(fā)展狀況;系統中數據和報表功能已經具備了,業(yè)務部門還在要求數據部門人工提供數據,用戶的需求無法及時傳遞到建設環(huán)節(jié)。
解決這些問題的根本就是必須形成閉環(huán)的數據工作流程,在數據生產、服務、建設、維護內部各個環(huán)節(jié)的有效溝通的同時,加入到公司運營、網絡、管理的前端環(huán)節(jié),第一時間參與產品策劃、基建計劃、科目調整等前期工作,才能確保數據工作的有效積累和正常運轉。
在清楚了定位和工作內容之后,首先要明確的就是工作目標,而目標的確定就需要了解數據的使用者是誰,他們的核心需求是什么。那么,誰是數據的需求方呢?
站在企業(yè)經營的角度看,通常把數據需求分為:內部需求和外部需求。具體包括:
(1)內部需求是數據服務于企業(yè)管理的職責所在。從管理層級上看,包括集團及分子公司、省級分公司;從管理職責上分就是公司管理層、職能部門、基層操作人員。
管理層的訴求就是通過數據掌握公司運營的整體情況,知道“發(fā)生了什么?什么是主要原因?我應該去找誰?”你給我10個指標都多,因為這10個指標也許是反方向變化的,我要自己判斷哪個是核心指標。管理層需要的是“簡潔但不簡單”,這個要求也是最高的?!叭绾巫岊I導的桌面變得簡潔?”如果這樣的問題你沒有想過,領導層對你的工作就很難滿意。滿足領導層需求的最好辦法就是提供綜合指數,就像是溫度計,或者上證指數,一個指標就能縱覽全局。而這一個指數背后是高度綜合的評價體系,需要專門的研究與大量的實踐檢驗。
(上圖為DW1.0設計的領導首頁UI規(guī)范,這是一個工作臺,包括:問題發(fā)現、任務指派和問題反饋三個功能。中間是對目前公司當月總體情況的評價結果,雷達圖中顯示綜合評價指標池中業(yè)務發(fā)展、財務狀況、企業(yè)運營、創(chuàng)新能力四類指標值與目標值的差距,并支持預警提示和問題的下鉆探索。頁面下方,是熱點信息和信息反饋的連接,支持領導任務指派和問題反饋。)
職能部門是我們打交道最多的,他們的訴求就是獲取本專業(yè)的數據支持日常管理。應用最多的就是每月的經營分析,有的部門使用的是自己的報表體系,有的部門基本靠數據部門支撐,有的部門基本沒有什么可用的數據,有的部門干脆重新建立了自己的系統進行模型沉淀。從數據的應用層次看,我們能夠提供給職能部門使用的還停留在數據的粗加工層面?!澳膫€是我們最賺錢的產品?哪些是我們含金量最高的用戶?我們應該采用什么樣的策略?我們采取的措施收效如何?”太多的問題需要用數據來回答?,F在是離開數據部門的后臺提數,職能部門的人自己基本拿不到數據,做不了事情。什么時候他們能自己取數自己分析,什么時候職能部門的用戶滿意度就能提升了。
基層操作人員是與用戶最接近的環(huán)節(jié),他們能夠用到的數據確實非常少。近年來的激發(fā)基層單元活力的工作,對數據服務于基層提出了更多的要求。但是,一個基于產品線的用戶級粒度的收入數據,與一個基于管理主體的成本數據,怎么能夠支撐一線人員的資源配置和績效管理?數據層面為基層人員做的還非常少。
最后為我們的用戶說幾句吧,如果我是一個世界500強的用戶,第一次走進聯通的營業(yè)廳辦業(yè)務,聯通能不能第一時間給我提供大客戶級的服務而不要等我給聯通創(chuàng)造了多少收入之后才發(fā)現我的價值?如果我使用了聯通10年以上的寬帶業(yè)務,聯通能不能辨識出我的價值,給我提供VIP級的一體化服務?聯通能不能通過我喜歡的方式、在我方便的時間、通過更加便捷的手段,推薦給我貼心的服務,而不是關注于挖掘我的隱私?以上用戶的訴求,背后都是大量的數據作為支撐的。公司經營策略中說了多少年的“以客戶為中心”,但是從數據指標體系上看,仍然是“以產品為中心”。數據層面確實應該為我們的用戶做點什么了。
上面這張圖,幫助我們換個角度去思考我們的工作目標,我們應該站在數據的使用者的角度,考慮應該做什么,能做什么,做了些什么,形成我們的工作目標。不能再固守傳統的工作模式,數據工作需要總結和創(chuàng)新。
(2)外部需求是數據服務于社會,為企業(yè)創(chuàng)造價值的體現。
近年來,由于聯通數據集中的優(yōu)勢,與招商、螞蟻金服多家企業(yè)進行合作,開拓了手機終端、用戶信用指數等多項應用,為企業(yè)創(chuàng)造了新的收入來源。(我不了解的工作,沒有發(fā)言權)
“去年9月國務院印發(fā)《促進大數據發(fā)展行動綱要》稱,國家政府數據統一開放平臺將在2018年底前建成,率先在氣象、環(huán)境、信用、交通、醫(yī)療、衛(wèi)生等20余項重要領域,實現公共數據資源合理適度向社會開放?!薄霸谡褪袌龅碾p重催動下,那些原本封存在服務器里的陳年數據,成為一座座蘊藏豐富的“金礦”,興奮的企業(yè)和研究人員一邊著手搜尋數據,一邊將有價值數據按需篩選出來重構。然而,能真正做深度挖掘的企業(yè)并不多,這一領域正在等待著“殺手級”應用的出現,助推金融、醫(yī)療健康、零售業(yè)、制造業(yè)等各行業(yè)產生根本性的變革?!薄洞髷祿耐袋c》
聯通正經歷著和社會上其他領域一樣的探索過程,首先是完成了自身數據的集中整合,接下來就是考慮外部數據整合和應用的事情。對于聯通而言,外部用戶包括:政府主管部門、資本市場監(jiān)管和審計機構,有意向的合作伙伴。對外服務合作,特別是收費服務,產品化的要求也就更高。另外,作為一個國企有它必須承擔的社會責任,聯通的大數據應用也許能夠在治理交通擁堵、解決看病難等社會問題、提升居民幸福指數方面發(fā)揮點兒自己的作用。
各行業(yè)的大數據都有同樣的感覺,目前缺少“殺手級”的應用。個人認為,“殺手級”應用首先應該是基于大數據的分析預測能力與個性化需求相結合的結果,比如:高德導航提供每條路的擁堵峰值的預測,用戶輸入出行計劃時,就可以預測到一天甚至一周分時段的擁堵情況,選擇出行時間,而不是已經在路上了,再糾結于選擇哪條路。再比如,最近微信發(fā)布的電子發(fā)票功能,在為用戶解決實際問題,提高效率的同時,撬動企業(yè)級的應用,從個人應用深入到企業(yè)內部,讓銀行進一步感覺無力。另外,最近很高興地收到了高德地圖推出的早高峰的預警信息。我想無論怎樣的應用,都要站在親身體驗的角度,問問自己需要的是什么,再用負責任和踏實的態(tài)度,沉下心來把問題解決到最好,就不會被評價成“簡單粗暴”了。
最近接連幾次有其他部門的朋友跟我抱怨,現在提一張報表的需求需要很長的時間,跟新的同事溝通多次根本不知道我們想要什么,真是無語。這樣的事情已經是人員變動之后的常態(tài)了。小的事情看,無論是市場部的分析人員、信息化部的需求管理人員、廠商的開發(fā)人員,換了人,就會出現一段時間“歸零”的狀況。大的事情看,人換了,之前的工作沒有積累,后來的人根本不明白之前工作做到什么程度了,這項工作似乎也“歸零”了。
另一個場景,每個月市場部分析人員獲取數據編寫分析報告,經營分析會開過之后,就“塵埃落定”了。數據部門加班為市場部人員提供的數據及材料,每年都花費了大量的費用。而這些支出到底創(chuàng)造了什么價值?是不是就是為了領導聽起匯報來賞心悅目?我們真的需要坐下來好好想想了。曾經見過一個市場部的同事,使用Excel做了一個很復雜的模板,就為了把每月的數據匯總成逐月的數據,然后計算同比、環(huán)比、構成、繪制趨勢圖,而這些東西,用技術手段很容易實現的。為什么他們不把這個模板變成系統能力,讓系統幫他?
之前曾經有技術弟跟我說,現在懂業(yè)務的人才是最有價值的,沒有技術實現不了的事兒,主要是要知道用技術做什么。再好的技術也要想好了要做什么,能做什么。個人認為,系統要做的事情就是復制、流程和積累,人都沒有解決的問題,系統也不可能替你解決。如果你已經擁有成熟的模板,系統就可以把它復制用于各月、全國,在提高效率的同時,避免了人為操作的錯誤。如果你制定了完善的閉環(huán)流程,系統就能幫助你嚴格地執(zhí)行。但是,最最有價值的還是積累,不僅數據應用、流程的積累,還有固化在系統中的“知識”的積累。它幫助后來的人熟悉數據,也不會因為人員的變動讓工作歸零。“積累”,是需要時時刻刻想到的事兒。
上面這張圖,從大數據應用價值、系統能力層次的角度顯示了能力積累的層級,也幫助我們很快地定位到我們目前能夠達到的層級,清楚自己努力的目標。我們是在滿足于提供數據粗加工的原材料,還是已經嵌入到企業(yè)的生產環(huán)節(jié)中,形成了商業(yè)合作模式?
從2008年聯通公司重組到2012年數據中心成立,經過了4年的時間,期間多少艱辛不用多說。(此處略去301個字。)做什么事兒也離不開人,特別是數據專業(yè),需要一批懂數據、用數據、踏實肯干、耐得住寂寞的人,團隊才是最寶貴的資源。而人才隊伍的建設必須具備的條件包括:
(1)支持優(yōu)勝劣汰的干部任免制度;
(2)支持留住最優(yōu)質的員工薪酬體系;
(3)幫助員工快速成長的有效的培訓交流、知識積累機制;
(4)支持我們擁有競爭力的自主開發(fā)團隊的薪酬體系;
(5)支持我們選擇最優(yōu)質的合作伙伴的招標流程;
(6)合作伙伴意識到自身的不足,專心積累,認真做事,和我們一起成長。
最后,按照“自己的事兒、別人的事兒、老天爺的事兒”的分類方法,說說我們能做點兒什么“自己的事兒”吧:
(1)首先要有穩(wěn)定的數據管理架構,包括了數據、應用、系統、制度。這樣的架構與公司戰(zhàn)略目標相結合,形成演進路線和年度工作目標,通過年度目標的達成,循序漸進地逐步實現。數據管理架構需要在數據中心內部(集團、省級分公司),以及公司管理層、信息化部內部、其他業(yè)務部門之間達成共識,并堅定地、不打折扣地一起去推進實施。
(2)明確崗位職責和分工界面(集團、省級分公司),并保持相對穩(wěn)定,避免“臨時的因事兒設崗”。定期組織員工培訓、溝通,做好知識傳遞、信息共享,年度工作目標在員工層面達成共識,使新來的員工盡快進入新角色。通過專題研究組的形式邀請省公司參與數據的能力建設,調動省公司層面的積極性,養(yǎng)成數據中心人人“看數據、用數據”、“發(fā)現問題、解決問題”的良好習慣,做好自我完善、形成有效積累,形成“成長型”數據專業(yè)團隊。
(3)建立定期的用戶(數據服務對象)溝通制度,主動介紹我們的數據架構和系統能力的提升情況,職責分工及年度工作目標,在用戶層面達成共識。引導用戶更多地使用系統能力并從中獲益,讓用戶真實地感受到效率的提升,并愿意和我們一起來積累。
(4)多方位整合身邊資源,在完善自身能力、提高方法論、產品化水平等方面與合作伙伴達成共識,共同進步。引進咨詢機構及高校專業(yè)人士參與開展綜合指數、客戶指標體系等多項專題研究,提升數據產品化和創(chuàng)新能力。
(5)建立一個閉環(huán)的工作流程,使相對后端的數據流程參與到企業(yè)運營的前端流程中,以便及時反映企業(yè)的經營的變化,定期更新指標體系、報表架構及相關應用,避免前后脫節(jié)的問題,有效實施數據及應用的生命周期管理。
說了這么多,一方面是因為這些年積攢的心里話不吐不快,另一方面想著這個專業(yè)能抓住機會,取得更好的發(fā)展成果。想起某位領導多少年前說的那句話~~“有為才有位”。乘著大數據的東風,我們的隊伍已經再次壯大,但是,“理想很豐滿,現實很骨感”,我們更應該意識到差距和肩上的責任,切忌浮躁,要腳踏實地。希望新來的同事們盡快適應,進入角色吧。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03