
實(shí)際工作中的數(shù)據(jù)挖掘流程
數(shù)據(jù)工作者最長(zhǎng)也是有效的一種工作方式是帶項(xiàng)目,無論是數(shù)據(jù)分析還是專項(xiàng)挖掘,項(xiàng)目制能使數(shù)據(jù)盡量貼近業(yè)務(wù)并且有效理解業(yè)務(wù)和數(shù)據(jù)的各個(gè)維度。那么如何建立面向業(yè)務(wù)落地的數(shù)據(jù)分析(挖掘)流程?
在做本篇介紹之前,有以下幾個(gè)方向需要做一個(gè)界定,這些界定是做本篇的前提:
該項(xiàng)目流程是面向業(yè)務(wù)層的,直接通過模型做代碼優(yōu)化或者以BI技術(shù)為方向的不同;
該項(xiàng)目的領(lǐng)導(dǎo)者是具有一定能力的數(shù)據(jù)分析師,需要具備業(yè)務(wù)常識(shí)、數(shù)據(jù)理解能力和專項(xiàng)分析挖掘能力,說白了,能接受問題并且能解決問題;
該項(xiàng)目是以業(yè)務(wù)落地為導(dǎo)向的,那些面向市場(chǎng)分析方向的戰(zhàn)略項(xiàng)目等不在此列。
在以上的界定下,我們放心的來談本篇的核心,我相信大多數(shù)一線的數(shù)據(jù)分析師都能適用這套流程。完整的數(shù)據(jù)分析(挖掘)流程包括:需求提報(bào)審核、商業(yè)理解、數(shù)據(jù)理解、專項(xiàng)分析(建模)、部署與實(shí)施優(yōu)化、項(xiàng)目總結(jié)六大部分。
任何數(shù)據(jù)分析的起點(diǎn)都是從業(yè)務(wù)需求開始的。在收到業(yè)務(wù)需求后,首先要做的還不是業(yè)務(wù)夠通,是考量這個(gè)需求是否可以受理。導(dǎo)致需求不能受理的原因包括業(yè)務(wù)需求本身是個(gè)偽命題以及目前的數(shù)據(jù)無法支撐該需求的分析。
目的:第一步需求提報(bào)的審核目的是找到最佳需求命題,并確定該命題的可行性。
輸出物料:無
周期:1天內(nèi)響應(yīng)
商業(yè)理解包括業(yè)務(wù)語言轉(zhuǎn)化成數(shù)據(jù)語言的整個(gè)過程,目的是確定業(yè)務(wù)通過數(shù)據(jù)需要實(shí)現(xiàn)的具體緯度,粒度,數(shù)據(jù)范圍等,通過方案思路進(jìn)行二次確認(rèn)。確認(rèn)思路后,會(huì)正式開始項(xiàng)目的數(shù)據(jù)部分工作。
目的:確認(rèn)業(yè)務(wù)邏輯、數(shù)據(jù)分析需求、數(shù)據(jù)產(chǎn)出內(nèi)容方向及分析思路。
輸出物料:分析思維導(dǎo)圖、測(cè)試數(shù)據(jù)
周期:2天
數(shù)據(jù)準(zhǔn)備是對(duì)即將進(jìn)行的分析和挖掘工作進(jìn)行預(yù)處理,包括從數(shù)據(jù)倉庫中取數(shù),驗(yàn)證數(shù)據(jù)質(zhì)量,數(shù)據(jù)特征提取,異常值處理,數(shù)據(jù)轉(zhuǎn)換,合并等,為最終的數(shù)據(jù)分析挖掘做準(zhǔn)備。這個(gè)階段是非常費(fèi)時(shí)但是重要的工作,前期這個(gè)工作做不好會(huì)直接影響數(shù)據(jù)質(zhì)量。
目的:數(shù)據(jù)前期清洗。
輸出物料:數(shù)據(jù)
周期:4天
經(jīng)過需求確認(rèn),數(shù)據(jù)清洗之后,開始了專項(xiàng)數(shù)據(jù)分析和挖掘工作,包括常用的描述性數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)分類、聚類、管理、序列、規(guī)則提取等建模工作,并在專項(xiàng)分析或建模結(jié)束后完成模型測(cè)試工作,保持模型的穩(wěn)定性和最佳擬合度。
目的:報(bào)告撰寫、模型搭建。
輸出物料:分析報(bào)告、建模流程和節(jié)點(diǎn)、模型評(píng)估報(bào)告等
周期:7天
本階段包括數(shù)據(jù)結(jié)果輸出,方式可能是郵件、會(huì)議類(通常是二者配合),在業(yè)務(wù)報(bào)告溝通中確認(rèn)落地執(zhí)行計(jì)劃,并安排排期和計(jì)劃方案,同時(shí)數(shù)據(jù)分析師進(jìn)行數(shù)據(jù)收集,等業(yè)務(wù)執(zhí)行完畢后進(jìn)行效果再評(píng)估,并根據(jù)評(píng)估結(jié)果優(yōu)化前期報(bào)告或模型結(jié)果。
目的:數(shù)據(jù)落地。
輸出物料:業(yè)務(wù)執(zhí)行計(jì)劃、落地排期、數(shù)據(jù)落地收集計(jì)劃等
周期:14天(根據(jù)所需數(shù)據(jù)量和業(yè)務(wù)時(shí)間需求而定)
在整個(gè)項(xiàng)目結(jié)束后,進(jìn)行整體總結(jié),反思本項(xiàng)目整個(gè)過程,包括前期需求溝通與確認(rèn)是否清晰,中期數(shù)據(jù)處理、分析和挖掘如何優(yōu)化,后期數(shù)據(jù)落地效果和建議等,對(duì)整個(gè)項(xiàng)目有新的認(rèn)知,最終為下一次項(xiàng)目積累經(jīng)驗(yàn)。如果有必要,可以跟業(yè)務(wù)一起溝通討論本次項(xiàng)目的優(yōu)劣得失。另外,不是所有的有效項(xiàng)目都是以成功結(jié)束,失敗的項(xiàng)目也可以為我們帶來啟發(fā),最起碼能說明業(yè)務(wù)的邏輯或出發(fā)點(diǎn)不可行。
目的:經(jīng)驗(yàn)總結(jié)
輸出物料:項(xiàng)目總結(jié)報(bào)告
周期:1天
只會(huì)做挖掘、只會(huì)寫報(bào)告的數(shù)據(jù)分析師只能算一半,另一半就是如何把我們的思想、建議融入業(yè)務(wù)中,真正讓他們理解并付諸實(shí)踐。這才是數(shù)據(jù)分析師存在的真正價(jià)值。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10