
企業(yè)大數(shù)據(jù)分析實踐指南
數(shù)據(jù)無處不在
在我們身處的時代,數(shù)據(jù)無處不在。據(jù)IBM公司估算,人類每天產(chǎn)生約2.5萬ZB的數(shù)據(jù),這意味著世界上90%數(shù)據(jù)都是過去的兩年中產(chǎn)生的。Gartner公司分析報告顯示,在2015年財富500強的公司中百分之八十五的企業(yè)無法利用大數(shù)據(jù)來獲取競爭優(yōu)勢。
到2020年,全世界將有上百萬大數(shù)據(jù)相關(guān)的就業(yè)機會產(chǎn)生。這些龐大的數(shù)據(jù)蘊藏了寶貴財富,企業(yè)可以使用最先進的分析技術(shù),利用這些數(shù)據(jù)更好地了解客戶的行為,識別商業(yè)機會,制定運營戰(zhàn)略。
讓我們舉幾個例子,金融機構(gòu)每天通過信用評分模型,了解他們的客戶在未來12個月內(nèi)每種信貸產(chǎn)品(抵押貸款、信用卡、分期貸款)上的信用。他們以該信用評分為基礎(chǔ)來進行壞帳準(zhǔn)備,計算巴塞爾協(xié)議II/III規(guī)定所需資本金數(shù)量,或是制定營銷方案(例如根據(jù)信用評分調(diào)整信用卡額度)。
電信運營商使用最近通話行為數(shù)據(jù)建立流失模型,估計客戶在未來一到三個月流失的可能性。運營商會根據(jù)模型得分來制定營銷活動,避免有價值的客戶流失。Facebook和Twitter會使用社交媒體分析技術(shù)進行內(nèi)容分析和情感語義分析,以便更好地了解品牌認知度,進一步調(diào)整產(chǎn)品服務(wù)設(shè)計。
亞馬遜和Netflix等在線零售商不斷地分析顧客的購買行為,以決定產(chǎn)品捆綁銷售策略,并利用推薦系統(tǒng)為客戶下一次購買推薦產(chǎn)品。信用卡公司使用欺詐檢測模型,檢測付款是否具有欺騙性,是否發(fā)生了信用卡盜刷。政府采用數(shù)據(jù)分析技術(shù)來預(yù)測逃稅行為,優(yōu)化公共預(yù)算分配,分析交通數(shù)據(jù)提高公共交通效率,分析預(yù)測恐怖襲擊保障國家安全。
化數(shù)據(jù)為價值
數(shù)據(jù)是任何分析模型成功的基礎(chǔ)。當(dāng)啟動分析項目時,有必要詳細列出企業(yè)內(nèi)所有可用于分析的數(shù)據(jù)。這里的原則就是數(shù)據(jù)越多越好!因為很多分析模型都能自動決定哪些數(shù)據(jù)對當(dāng)前分析很重要,哪些數(shù)據(jù)可以排除在下一步分析之外。
我們的研究不斷印證了這樣一個觀點:改善分析模型最好的辦法,就是投資于你的數(shù)據(jù)!這可以通過數(shù)量和質(zhì)量兩個維度的提升來完成。對于前者,一個關(guān)鍵點是如何整合結(jié)構(gòu)化數(shù)據(jù)(例如關(guān)系數(shù)據(jù)庫)和非結(jié)構(gòu)化數(shù)據(jù)(如文本),提供全方位綜合視角進行客戶行為分析,另一個關(guān)鍵點則是在線數(shù)據(jù)和離線數(shù)據(jù)的整合,很多企業(yè)為這個問題所困擾。
此外企業(yè)還可以超越其內(nèi)部邊界,考慮從外部數(shù)據(jù)供應(yīng)商那里購買外部數(shù)據(jù),以彌補其內(nèi)部數(shù)據(jù)的不足。大量的研究表明采用外部數(shù)據(jù),對比較和完善分析模型非常有用。雖然數(shù)據(jù)常常體量巨大,但是數(shù)據(jù)質(zhì)量經(jīng)常是一個痛點。GIGO(garbage in garbage out)的原則在這里非常適用,爛數(shù)據(jù)只會生成爛模型。
聽起來顯而易見,然而實踐中數(shù)據(jù)質(zhì)量往往成為許多分析項目的“阿喀琉斯之踵”。數(shù)據(jù)質(zhì)量可以分解成很多維度:準(zhǔn)確性、完整性、新近度、一致性等。在大數(shù)據(jù)分析中,企業(yè)必須專門制定數(shù)據(jù)質(zhì)量管理方案,設(shè)立數(shù)據(jù)審核員、數(shù)據(jù)管家或數(shù)據(jù)質(zhì)量經(jīng)理等職位,持續(xù)監(jiān)測數(shù)據(jù)質(zhì)量。
數(shù)據(jù)分析應(yīng)該從商業(yè)問題開始,而不是從具體的技術(shù)解決方案開始。但是這帶有一絲“雞生蛋,蛋生雞”的意味。要解決商業(yè)問題、識別商業(yè)機會,需要對潛在的技術(shù)解決方案有了解。以社交媒體分析為例,只有首先了解分析技術(shù)后,公司才能開始思考如何利用它們研究在線品牌認知度,進行趨勢監(jiān)測。為了跨越分析技術(shù)和業(yè)務(wù)之間的鴻溝,持續(xù)性培訓(xùn)和學(xué)習(xí)是關(guān)鍵,它能使企業(yè)始終屹立在分析技術(shù)的潮頭,保持競爭優(yōu)勢。在這一點上,學(xué)術(shù)界應(yīng)該深刻檢討,因為現(xiàn)有的很多大數(shù)據(jù)分析(或數(shù)據(jù)科學(xué))碩士課程無法滿足上述的要求。
將數(shù)據(jù)轉(zhuǎn)化為洞察力和提升價值的另一個關(guān)鍵點是分析模型的驗證。分析模型需要適當(dāng)?shù)臋C制和工具來進行審核和驗證,越來越多的公司將分析團隊拆分成模型開發(fā)和模型驗證兩個團隊。良好的公司治理能夠在兩個團隊之間筑起一道防火墻,使得由前一小組開發(fā)的模型可以客觀和獨立地被后者團隊評估。
公司甚至可以考慮由外部合作伙伴進行模型驗證。通過建立分析基礎(chǔ)信息設(shè)施,公司能夠不斷基于現(xiàn)有狀況對模型進行評估和驗證,提升分析模型性能,抓住更多目標(biāo)客戶。
數(shù)據(jù)分析往往不是一蹴而就的事情。事實上,當(dāng)分析模型投入使用時就已經(jīng)過時了!分析模型總是落后于現(xiàn)實,我們能做的只是保持這種滯后性盡可能小。分析模型所使用的數(shù)據(jù),都是在一個特定的時間點和特定的內(nèi)外部環(huán)境條件下采集得到的。
這一特定環(huán)境不是靜態(tài)的,而是隨著內(nèi)部因素(如新戰(zhàn)略,不斷變化的客戶行為)和外部因素(新宏觀經(jīng)濟環(huán)境和法律法規(guī))不斷變化而變化。例如,欺詐檢測分析中,欺詐者總是試圖不斷逃避模型的偵測,以騙取更多的錢財。另一個例子是信用評分模型在很大程度上依賴于當(dāng)前的宏觀經(jīng)濟狀況(復(fù)蘇或是衰退)。因此,分析模型要取得成功創(chuàng)造價值,就必須對內(nèi)外部環(huán)境進行監(jiān)測,以及時調(diào)整或重建模型。
構(gòu)建底層基礎(chǔ)
為了建立一個分析環(huán)境,企業(yè)需要就所采納的硬件和軟件技術(shù)進行選擇。
硬件方面,需要專門的基礎(chǔ)設(shè)施(如Hadoop和相關(guān)的軟件棧)來清理、整合、存儲和管理數(shù)據(jù)。為了減少支出,企業(yè)可能選擇云存儲,并將大數(shù)據(jù)作為一種服務(wù)。公司在同外部進行數(shù)據(jù)傳輸和交換時,應(yīng)采取適當(dāng)?shù)闹斏鞔胧?,保證數(shù)據(jù)私密性。
軟件方面,很多廠商提供了大數(shù)據(jù)分析的商業(yè)解決方案。目前市場還有很多的開源分析軟件(R、weka、Rapidminer),雖然這些開源軟件解決方案變得非常流行,但是他們還不夠成熟,還不足以很好的處理具有大體量、多樣性等特性的大數(shù)據(jù)。
大數(shù)據(jù)分析成為越來越多公司的DNA 組成部分,但是政府、金融、醫(yī)藥,每個行業(yè)都有自己發(fā)展足跡,數(shù)據(jù)、業(yè)務(wù)和監(jiān)管都具有特異性,需要針對不同的基因組成進行不同的設(shè)置。因此企業(yè)需要的是能提供綜合全面垂直業(yè)務(wù)解決方案的軟件,而不是一個跨行業(yè)的橫向通用軟件。
鑒于建立數(shù)據(jù)分析構(gòu)架環(huán)境的復(fù)雜性,公司可能會考慮外包。然而,公司內(nèi)部數(shù)據(jù)及其蘊藏的信息是公司最寶貴的戰(zhàn)略資產(chǎn),因此不宜讓第三方完全擁有數(shù)據(jù)訪問權(quán)。相反,企業(yè)應(yīng)該建立內(nèi)部分析中心和培養(yǎng)公司人員的分析技能,以服務(wù)公司廣泛的分析需求,這是公司在管理中應(yīng)該考慮的問題。
同樣公司董事會和高級管理人員都應(yīng)該參與到分析環(huán)境構(gòu)建中。很多企業(yè)還嘗試設(shè)立首席分析官(CAO)這樣的職位,專門負責(zé)建立企業(yè)范圍內(nèi)的分析環(huán)境和基礎(chǔ)設(shè)施,管理各業(yè)務(wù)單位分析模型的研發(fā)、審核及部署。
最后一點,我們現(xiàn)在看到越來越多的中小型企業(yè)開始借助大數(shù)據(jù)分析。這些公司通常預(yù)算有限,因此它們比較中意那些現(xiàn)成的可以直接用于數(shù)據(jù)分析的現(xiàn)成軟件解決方案。比如利用在線分析工具來研究網(wǎng)站的使用現(xiàn)狀,優(yōu)化網(wǎng)站設(shè)置、改善網(wǎng)站在搜索引擎排名,并購買付費引擎營銷方案。
總結(jié)與展望
在文章的結(jié)尾之處,我們想再次重申企業(yè)進行大數(shù)據(jù)分析所必須注意的幾個問題:
從公司管理的角度來看:
(1)公司應(yīng)同時關(guān)注數(shù)據(jù)體量和數(shù)據(jù)質(zhì)量;
(2)持續(xù)學(xué)習(xí)和培訓(xùn)能填平新分析技術(shù)和新商機之間的鴻溝;
(3)分析開發(fā)團隊?wèi)?yīng)該包括獨立的模型開發(fā)團隊和模型驗證團隊;
(4)分析并不僅僅是模型開發(fā)和驗證,還包括模型的監(jiān)測和回溯測試。
從技術(shù)的角度企業(yè)應(yīng)該:
(1)考慮使用云服務(wù)來進行大數(shù)據(jù)分析;
(2)應(yīng)該關(guān)注垂直式行業(yè)解決方案,謹慎選擇開源軟件;
(3)對待外包分析要慎之又慎,最好能在企業(yè)內(nèi)部建立分析環(huán)境,并置于高層的管理之下。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10