
淺析預測分析注定失敗的思考方式
雖說預測分析是一項很得人心的技術(shù),每個人都希望能通過使用預測分析方法和預測分析工具,從而可提前看到未知的結(jié)果,來避免失敗,但如果沒有做好準備,信手拈來的使用預測分析方法,那必將失敗。無論對于預測分析是你新手菜鳥,還是已經(jīng)進行了大量的預測分析項目,都非常容易犯錯。
數(shù)據(jù)挖掘公司Elder Research的CEO John Elder說:“大量的分析項目中都充斥著各種各樣的錯誤?!边@些錯誤大都不是致命的,通過模型即改善,但是也一些項目是相當?shù)厥?,致使業(yè)務(wù)在軟件在投資的大量的金錢和時間,但卻沒有任何收益。本文列出了預測分析注定失敗的思考方式。
1.開始后沒有假定結(jié)果
對于預測分析大家都很興奮,你看到了它的潛在價值。但卻有一個問題:你的心中沒有一個特定的目標。
Elder
Research參與的一個大公司中就有這樣的情況。該公司開始使用他們的數(shù)據(jù)進行預測一些事情,或所有的事情,即一個方管可以出去向他的業(yè)務(wù)單元銷售。雖然研究機構(gòu)同意與他合作,并為他量身定制了一個使用模型,但由于這個業(yè)務(wù)單元中沒有一個人問題他將要銷售什么,最后該項目就沒有了方向。
教訓:不要先做錘子,再找釘子。在開始之前,一定要有一個特定的目標。
2.在數(shù)據(jù)不支持的基礎(chǔ)上定義項目
一個債務(wù)催收公司希望找出最有效的方法來促使欠債人員還債。挑戰(zhàn)是:該公司已經(jīng)有一套嚴格的規(guī)則了,而且在每一個案例中都遵循這套原則。
數(shù)據(jù)挖掘是一項對比的藝術(shù)。因為該公司有了一套成熟的原則并一直遵循著,所以他們并不知道哪一種結(jié)果更有利于回收債務(wù)。所以該公司需要一些歷史性的例子。
如果你沒有這些案例,那么就需要創(chuàng)建一系列的實驗來收集數(shù)據(jù)了。例如,假設(shè)有欠債人有1,000人,500人收到的了恐嚇信,而另外500人得到的是電話催債,這是第一步。然后,預測模型就可以進行預測,預測哪類欠債人會更好的對恐嚇信進行反應(yīng),哪類會更好的對電話進行反應(yīng)。
在些案例中,欠債人類型可能包括歷史模式引發(fā)的債務(wù)、按天支付過去的債務(wù)、收入、郵政編碼的住宅等等?;陬A測模型,這一催債機構(gòu)可能會更好的使用更有經(jīng)濟效益的策略,而不是對所有人使用同一策略。但你要從實驗開始。無中生有,對于預測分析來說是不可能的。
3.在得到最好數(shù)據(jù)之前就不前行
人們常常誤解下操作:他們必須使數(shù)據(jù)完美地組織,沒有任何漏洞、障礙或缺失的價值,在這之后才會進行預測分析。
Elder Research的一個客戶,一個跨國石化公司剛剛開始進行預測分析項目,期望有更大的投資回報率,但這時他們的數(shù)據(jù)科學家發(fā)現(xiàn)現(xiàn)有的運營數(shù)據(jù)比他們原本想象的還要糟糕。
在此案例中缺失了一個最關(guān)鍵的目標價值。在使業(yè)務(wù)等待收集新數(shù)據(jù)時,該項目可能會延遲至少一年的時間。大部分公司在這里停滯不前。與其它錯誤相比這一錯誤是項目的最在殺手。
4.評估數(shù)據(jù)質(zhì)量時,不清除垃圾數(shù)據(jù)
一個財富1000的金融服務(wù)公司想預測哪個客服中心的員工將會工作的時間最長。乍一看,該公司的歷史數(shù)據(jù)似乎表明沒有高中文憑、在公司停留至少9個月的員工數(shù)據(jù)是其它教育背景的員工有2.6倍。咨詢公司建議客戶從優(yōu)先招聘高中輟學生開始。
但這就出現(xiàn)了兩個問題。首先從求職者的簡歷中手動鍵入的數(shù)據(jù)已經(jīng)做了不一致的標記。一條數(shù)據(jù)檢查所有教育層次的人們,另一個只檢查完成了高水平教育的人。
另一個更加復雜的問題是:因為某些原因,在呆的時間最長的人的簡單中所有的標記中,后者比前者多。通過確保所做的標記是隨機鍵入的一組簡歷,而且每一個人都使用同一種標記法,就可以以免這些問題。
在這一案例中我們得到一個最的信息就是:“只有垃圾在,才會有垃圾清理。在確保數(shù)據(jù)質(zhì)量之間一定要確保數(shù)據(jù)的完整性?!?br />
5.從未來的數(shù)據(jù)中預測未來
伴隨著數(shù)據(jù)倉庫的一個問題是它們并不靜止的:信息一直在變,一直在更新。但預測分析是一種歸納的學習過程,它依賴于對歷史數(shù)據(jù),或“訓練數(shù)據(jù)”的分析來創(chuàng)建模型。所以你要重新數(shù)據(jù)在客戶生命周期初始階段的狀態(tài)。如果數(shù)據(jù)沒有標注日期和時間戳,這很容易就會引進產(chǎn)生錯誤結(jié)果導向的未來數(shù)據(jù)。
有一件發(fā)生在汽車俱樂部的事:該俱樂部著手建立一個模型,用于預測他們的哪類會員更有可能購買他們的保險產(chǎn)品。為了建模,該俱樂部需要重建他們之前數(shù)據(jù)集合,把會員購買和決定購買保險產(chǎn)品的時間優(yōu)先級提前,而且還要包含進子數(shù)據(jù)。該組織建立了一個決策樹,它包括一個含有電話、傳真和郵件數(shù)據(jù)的文本變量。當這一變量中包含了任何文本,那么就可以百分之百確定這些會員不久后就購買這一保險。
該項目的一個負責人說我們確信這個指示器將會在會員購買保險之前進行提示,但汽車俱樂部的員工卻不能告訴我們它意味著什么。提前知道簡直令人難以置信,他繼續(xù)提問直到找到組織中知道事實的人:該變量代表著會員是如何取消他們保險的——通過電話、傳真或者郵件。他說你不買就沒有取消一說
。所以當你進行建模時,你必須鎖定一些你的數(shù)據(jù)。
總結(jié):失敗只是一個選擇
看了這些事例,你可能會把預測分析想象的非常困難,但不要害怕。雖然你在預測分析的路上出現(xiàn)了很多錯誤,但同時你也在學習,在調(diào)整,這是值得的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03