
數(shù)據(jù)定義的挑戰(zhàn)
從數(shù)據(jù)科學的角度看,這次航天仼務的失利是數(shù)據(jù)定義沒有做好,正所謂“失之毫厘,謬以千里”。數(shù)據(jù)定義是數(shù)據(jù)收集和分析的基礎,看似簡單,想要在實踐中做好卻并不容易。尤其是在大數(shù)據(jù)系統(tǒng)中(如宇航工程),維護數(shù)據(jù)定義的正確性和一致性就更具挑戰(zhàn)性了。
數(shù)據(jù)定義有兩個要素,一個是關于定義的概念,另一個是關于定義的測度。前者可被稱為概念定義,而后者可被稱為操作定義。好的數(shù)據(jù)定義應該同時具有清晰的概念定義和操作定義?;鹦菤夂蛱綔y者號的悲劇就是操作定義沒有在系統(tǒng)中做到一致性而導致的。
而在另一些應用場合,概念定義可能成為問題的癥結所在。一家國內(nèi)著名電商的大數(shù)據(jù)負責人曾經(jīng)告訴我,一個讓他們非常頭疼的問題就是應該如何定義什么是一筆“訂單”。從IT人的角度,“訂單”的概念似乎應是很簡單的,那就是顧客一次付款購買的全部商品。然而實際卻遠比這個復雜。比如說,有時候下單之后,后臺發(fā)現(xiàn)某個產(chǎn)品斷貨,然后征得顧客同意取消了原訂單中的這一項產(chǎn)品。這樣就有了兩種訂單的定義,初始訂單和真正執(zhí)行的訂單。接著在倉庫配送時,一張訂單可能會被拆成兩次或多次送貨。這樣一個訂單在運營記錄中變成了幾張單子,在財務那邊也造成了多張發(fā)票。最后,顧客可能發(fā)現(xiàn)自己不喜歡購買的一些產(chǎn)品而要求退貨。結果一張訂單的實收款往往有別于下單時的金額和配送時的金額。這樣以來一筆訂單到底該如何定義,一張訂單的金額和包含的產(chǎn)品數(shù)到底該如何計算,就成了個棘手問題。
重要的是,這一數(shù)據(jù)定義不僅是個技術問題,而且還有戰(zhàn)略層面的意義。從營銷和客戶關系管理的角度看,訂單的定義需要能反映顧客購買次數(shù)和(考慮退貨后的)實際消費金額。但是從運營管理的角度,訂單的定義最好能反映實際配送成本和配送質(zhì)量(如遞送速度,準確率等);因此拆分后的實際配送訂單對運營決策更具意義。而在公司高層決策者看來,以上各種的訂單概念都有其重要性和對應的管理作用,因此都希望保留。所以對數(shù)據(jù)部門來說,挑戰(zhàn)一下就大了起來。因為不僅要在系統(tǒng)中維護不同的訂單定義,而且還要注意及時提醒使用數(shù)據(jù)的決策者當前看到的數(shù)據(jù)和分析結果是基于何種訂單概念。因為不同部門有自己對數(shù)據(jù)定義的偏好,在提供數(shù)據(jù)圖表時還要盡量給出個性化的定制。
更多的時候,清晰的概念定義和操作定義都不容易給出。筆者曾經(jīng)給一家著名的跨國石油公司做過零售方面的咨詢,是關于其在全球各個自有加油站的定價優(yōu)化。要給某個加油站做定價優(yōu)化,知道其競爭對手是誰應是必不可少的??墒歉偁帉κ值降自撛趺炊x呢?競爭的概念似乎是不言而喻的,但是不言而喻恰恰正是隱患所在。強調(diào)數(shù)據(jù)科學,就是要消除這些隱患,把概念清晰地表達出來。
從經(jīng)濟學角度,對于競爭對手的嚴格定義應該是:如果至少有一部分消費者在購買時會考慮在A和B中做出選擇,那么B是A的競爭者。但是這一定義卻缺乏可操作性。該公司收集了自己加油站每天每時段的銷售情況,但只能追蹤同城其它加油站的每天定價和廣告變化。另外,對于持品牌積分卡的顧客,他們在該公司的消費情況能被完整地追蹤,但是他們是否也加過其它品牌的油就不得而知了。
經(jīng)過一番仔細思考,我們決定采用如下的定義:B加油站是A加油站的競爭者,如果B的營銷活動(如價格降低、廣告等)對A的銷量有負面影響。這一定義符合我們對競爭的一般理解,而且還考慮到了數(shù)據(jù)收集的可行性,所需的數(shù)據(jù)都是已經(jīng)有了的??墒羌幢阌辛诉@個定義,操作起來還是充滿了挑戰(zhàn)。首先,澘在競爭者的范圍該如何定?離A一公里,五公里?還有更遠的可能性因為消費者可能會比較居住地附近的加油站和上班地附近的加油站。大數(shù)據(jù)在這一點上能幫助我們。比如說我們可以把網(wǎng)撒得很大,擴大到一百公里的半徑,把潛在的競爭者都查一遍。
可是下一個問題又來了:我們怎么判斷B的營銷活動(如價格變化,廣告等等)對A的銷量有影響呢?和有些流行大數(shù)據(jù)讀物所宣稱的不同,我們發(fā)現(xiàn)單純看相關性并不可行。
舉個例子,由于原油價格上升,B提了價,而消費者也總體減少了開車的里程。這樣從數(shù)據(jù)上我們看到的是B的價格提升往往伴隨著A的銷量減少,這似乎意味著B不是A的競爭者,而事實則可能正好相反。
最后我們的解決方案是放棄了尋找A的具體競爭對手的想法,而是把所有A以外的加油站的營銷活動匯總起來做成一個A的市場環(huán)境指數(shù),再基于這一指數(shù)做出A的定價優(yōu)化。其中的細節(jié)十分復雜,篇幅所限,就不贅述了。
以上的這些例子讓我們看到數(shù)據(jù)定義的問題看似簡單,也因此往往被忽視,但是這其中的挑戰(zhàn)不可不察。所謂“千里之行,始于足下”,“好的開端是成功的一半”,這些用來描述數(shù)據(jù)定義的重要性決不為過。要用好大數(shù)據(jù),我們必須對數(shù)據(jù)定義慎而慎之。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10