
淺析預(yù)測分析注定失敗的思考方式
雖說預(yù)測分析是一項很得人心的技術(shù),每個人都希望能通過使用預(yù)測分析方法和預(yù)測分析工具,從而可提前看到未知的結(jié)果,來避免失敗,但如果沒有做好準(zhǔn)備,信手拈來的使用預(yù)測分析方法,那必將失敗。無論對于預(yù)測分析是你新手菜鳥,還是已經(jīng)進(jìn)行了大量的預(yù)測分析項目,都非常容易犯錯。
數(shù)據(jù)挖掘公司Elder Research的CEO John Elder說:“大量的分析項目中都充斥著各種各樣的錯誤。”這些錯誤大都不是致命的,通過模型即改善,但是也一些項目是相當(dāng)?shù)厥?,致使業(yè)務(wù)在軟件在投資的大量的金錢和時間,但卻沒有任何收益。本文列出了預(yù)測分析注定失敗的思考方式。
1.開始后沒有假定結(jié)果
對于預(yù)測分析大家都很興奮,你看到了它的潛在價值。但卻有一個問題:你的心中沒有一個特定的目標(biāo)。
Elder
Research參與的一個大公司中就有這樣的情況。該公司開始使用他們的數(shù)據(jù)進(jìn)行預(yù)測一些事情,或所有的事情,即一個方管可以出去向他的業(yè)務(wù)單元銷售。雖然研究機構(gòu)同意與他合作,并為他量身定制了一個使用模型,但由于這個業(yè)務(wù)單元中沒有一個人問題他將要銷售什么,最后該項目就沒有了方向。
教訓(xùn):不要先做錘子,再找釘子。在開始之前,一定要有一個特定的目標(biāo)。
2.在數(shù)據(jù)不支持的基礎(chǔ)上定義項目
一個債務(wù)催收公司希望找出最有效的方法來促使欠債人員還債。挑戰(zhàn)是:該公司已經(jīng)有一套嚴(yán)格的規(guī)則了,而且在每一個案例中都遵循這套原則。
數(shù)據(jù)挖掘是一項對比的藝術(shù)。因為該公司有了一套成熟的原則并一直遵循著,所以他們并不知道哪一種結(jié)果更有利于回收債務(wù)。所以該公司需要一些歷史性的例子。
如果你沒有這些案例,那么就需要創(chuàng)建一系列的實驗來收集數(shù)據(jù)了。例如,假設(shè)有欠債人有1,000人,500人收到的了恐嚇信,而另外500人得到的是電話催債,這是第一步。然后,預(yù)測模型就可以進(jìn)行預(yù)測,預(yù)測哪類欠債人會更好的對恐嚇信進(jìn)行反應(yīng),哪類會更好的對電話進(jìn)行反應(yīng)。
在些案例中,欠債人類型可能包括歷史模式引發(fā)的債務(wù)、按天支付過去的債務(wù)、收入、郵政編碼的住宅等等?;陬A(yù)測模型,這一催債機構(gòu)可能會更好的使用更有經(jīng)濟效益的策略,而不是對所有人使用同一策略。但你要從實驗開始。無中生有,對于預(yù)測分析來說是不可能的。
3.在得到最好數(shù)據(jù)之前就不前行
人們常常誤解下操作:他們必須使數(shù)據(jù)完美地組織,沒有任何漏洞、障礙或缺失的價值,在這之后才會進(jìn)行預(yù)測分析。
Elder Research的一個客戶,一個跨國石化公司剛剛開始進(jìn)行預(yù)測分析項目,期望有更大的投資回報率,但這時他們的數(shù)據(jù)科學(xué)家發(fā)現(xiàn)現(xiàn)有的運營數(shù)據(jù)比他們原本想象的還要糟糕。
在此案例中缺失了一個最關(guān)鍵的目標(biāo)價值。在使業(yè)務(wù)等待收集新數(shù)據(jù)時,該項目可能會延遲至少一年的時間。大部分公司在這里停滯不前。與其它錯誤相比這一錯誤是項目的最在殺手。
4.評估數(shù)據(jù)質(zhì)量時,不清除垃圾數(shù)據(jù)
一個財富1000的金融服務(wù)公司想預(yù)測哪個客服中心的員工將會工作的時間最長。乍一看,該公司的歷史數(shù)據(jù)似乎表明沒有高中文憑、在公司停留至少9個月的員工數(shù)據(jù)是其它教育背景的員工有2.6倍。咨詢公司建議客戶從優(yōu)先招聘高中輟學(xué)生開始。
但這就出現(xiàn)了兩個問題。首先從求職者的簡歷中手動鍵入的數(shù)據(jù)已經(jīng)做了不一致的標(biāo)記。一條數(shù)據(jù)檢查所有教育層次的人們,另一個只檢查完成了高水平教育的人。
另一個更加復(fù)雜的問題是:因為某些原因,在呆的時間最長的人的簡單中所有的標(biāo)記中,后者比前者多。通過確保所做的標(biāo)記是隨機鍵入的一組簡歷,而且每一個人都使用同一種標(biāo)記法,就可以以免這些問題。
在這一案例中我們得到一個最的信息就是:“只有垃圾在,才會有垃圾清理。在確保數(shù)據(jù)質(zhì)量之間一定要確保數(shù)據(jù)的完整性?!?br />
5.從未來的數(shù)據(jù)中預(yù)測未來
伴隨著數(shù)據(jù)倉庫的一個問題是它們并不靜止的:信息一直在變,一直在更新。但預(yù)測分析是一種歸納的學(xué)習(xí)過程,它依賴于對歷史數(shù)據(jù),或“訓(xùn)練數(shù)據(jù)”的分析來創(chuàng)建模型。所以你要重新數(shù)據(jù)在客戶生命周期初始階段的狀態(tài)。如果數(shù)據(jù)沒有標(biāo)注日期和時間戳,這很容易就會引進(jìn)產(chǎn)生錯誤結(jié)果導(dǎo)向的未來數(shù)據(jù)。
有一件發(fā)生在汽車俱樂部的事:該俱樂部著手建立一個模型,用于預(yù)測他們的哪類會員更有可能購買他們的保險產(chǎn)品。為了建模,該俱樂部需要重建他們之前數(shù)據(jù)集合,把會員購買和決定購買保險產(chǎn)品的時間優(yōu)先級提前,而且還要包含進(jìn)子數(shù)據(jù)。該組織建立了一個決策樹,它包括一個含有電話、傳真和郵件數(shù)據(jù)的文本變量。當(dāng)這一變量中包含了任何文本,那么就可以百分之百確定這些會員不久后就購買這一保險。
該項目的一個負(fù)責(zé)人說我們確信這個指示器將會在會員購買保險之前進(jìn)行提示,但汽車俱樂部的員工卻不能告訴我們它意味著什么。提前知道簡直令人難以置信,他繼續(xù)提問直到找到組織中知道事實的人:該變量代表著會員是如何取消他們保險的——通過電話、傳真或者郵件。他說你不買就沒有取消一說
。所以當(dāng)你進(jìn)行建模時,你必須鎖定一些你的數(shù)據(jù)。
總結(jié):失敗只是一個選擇
看了這些事例,你可能會把預(yù)測分析想象的非常困難,但不要害怕。雖然你在預(yù)測分析的路上出現(xiàn)了很多錯誤,但同時你也在學(xué)習(xí),在調(diào)整,這是值得的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10