
為什么數(shù)據(jù)挖掘很難成功
大數(shù)據(jù)時代,數(shù)據(jù)挖掘變得越加重要,曾經(jīng)做了很多,成功有之,失敗的卻更多,舉一些例子,探究其失敗原因,也許于大家都有啟示吧。
數(shù)據(jù)缺失總是存在。
為什么數(shù)據(jù)挖掘的數(shù)據(jù)準備工作要這么長時間,可以理解成取數(shù)時間很長、轉(zhuǎn)換成所需的數(shù)據(jù)形式和格式時間很長,畢竟只有這樣做,才能喂給數(shù)據(jù)挖掘引擎處理。
但數(shù)據(jù)準備的真正目的,其實是要從特定業(yè)務(wù)的角度去獲取一個真實的數(shù)據(jù)世界,數(shù)據(jù)的獲取比處理重要,技巧倒是其次了。
離網(wǎng)預(yù)測一直是很多業(yè)務(wù)領(lǐng)域關(guān)注的焦點,特別是電信行業(yè),但這么多年做下來,其構(gòu)建的離網(wǎng)模型卻難言成功,為什么?
因為數(shù)據(jù)獲取太難了。
離網(wǎng)預(yù)測希望用客戶歷史的行為數(shù)據(jù)來判定未來一段時間離網(wǎng)的可能性,但國內(nèi)的電信市場并不穩(wěn)定,不僅資費套餐復(fù)雜,大量的促銷政策時時轟炸眼球,大家看得是熱鬧,但對于數(shù)據(jù)挖掘人員來講,卻是業(yè)務(wù)理解和數(shù)據(jù)準備的噩耗了。
因為業(yè)務(wù)的理解很困難,數(shù)據(jù)完全被業(yè)務(wù)扭曲,如果要預(yù)測準確,不僅自身業(yè)務(wù)促銷的因素要考慮進去,還要考慮競爭對手策反政策、地域影響等等,你訓(xùn)練時看到的是一個簡單的離網(wǎng)結(jié)果數(shù)據(jù),但誘導(dǎo)因素異常復(fù)雜,這類因素相關(guān)的數(shù)據(jù)根本取不到或者難以量化。
比如電信離網(wǎng)很大程度是競爭對手策反、客戶遷徙離網(wǎng)等等,你知道競爭對手何時推出的促銷政策嗎?你知道客戶什么時候搬的家嗎?你如何用數(shù)據(jù)來表達這種影響?你的數(shù)據(jù)能適應(yīng)市場變化的節(jié)奏嗎?
因此,如果某個合作伙伴來跟你說,我可以做電信行業(yè)的離網(wǎng)模型,那是個偽命題,離網(wǎng)模型已經(jīng)被電信行業(yè)做爛了,幾乎沒有成功的案例,即使一時成功也持續(xù)不了多久,只要業(yè)務(wù)不統(tǒng)一,就不大可能出現(xiàn)一個基本適用的離網(wǎng)模型,你無法想象全國10萬個電信資費政策會對預(yù)測建模造成怎樣的影響。
與互聯(lián)網(wǎng)大一統(tǒng)的數(shù)據(jù)相比,其搞的風(fēng)控模型顯然要簡單的多了,因為數(shù)據(jù)的獲取難度和穩(wěn)定度不在一個量級上。
數(shù)據(jù)挖掘,難就難在要為預(yù)測的業(yè)務(wù)提供跟這個業(yè)務(wù)相關(guān)的數(shù)據(jù)環(huán)境,因此,有時離網(wǎng)模型做不好,并不是模型師的錯,也不是算法的問題,而是業(yè)務(wù)惹的禍,是數(shù)據(jù)問題。
你讓開發(fā)出Alphgo的DEEP MIND團隊來做離網(wǎng)模型,也是一個死字,這可能也是傳統(tǒng)行業(yè)數(shù)據(jù)挖掘很難出效果的一個原因。
阿里的螞蟻金服,所以能算法取勝,一個原因是它天生具有線上的資金往來數(shù)據(jù),如果讓它去分析傳統(tǒng)銀行的線下數(shù)據(jù),估計難度也很大。
數(shù)據(jù)挖掘師特別強調(diào)要理解業(yè)務(wù),就是希望你基于業(yè)務(wù)的理解能找到所需的解釋數(shù)據(jù),外來的和尚所以做不好,也是這個因素,因為打一槍換一個地方的方式,跟扎根理解業(yè)務(wù)的建模文化背道而馳。
數(shù)據(jù)準備,不確定性總是存在,因此一定程度上講,這個世界是不可預(yù)測的,預(yù)測的能力,跟我們采集數(shù)據(jù)的能力成一定的正相關(guān)關(guān)系。
大數(shù)據(jù)的意義,就在于可以采集到更多的數(shù)據(jù),這個決定了我們用機器解釋世界的可能程度。
假數(shù)據(jù)真分析。
還是拿離網(wǎng)的例子,你就知道很多時候,所謂的解釋數(shù)據(jù),都是假數(shù)據(jù),雖然你不是故意的,你還很認真,但因為受限于業(yè)務(wù)能力,決定了你只能使用假數(shù)據(jù),結(jié)果可想而知。
以前新手,在做離網(wǎng)預(yù)測的時候,總喜歡拿訂購成功的數(shù)據(jù)作為訓(xùn)練的數(shù)據(jù),但這個顯然是個大謬誤。
要知道,大量的業(yè)務(wù)訂購是套餐附帶訂購的,并不能反映用戶的真實意愿,拿這個數(shù)據(jù)去訓(xùn)練,能訓(xùn)練出什么東西?這就是業(yè)務(wù)能力不夠造成的現(xiàn)象。
現(xiàn)在互聯(lián)網(wǎng)上估計這個現(xiàn)象很嚴重,比如刷單,這些假數(shù)據(jù)嚴重擾亂了模型,去偽存真是數(shù)據(jù)挖掘師的一個必修課。
但這個,可惜又跟業(yè)務(wù)能力相關(guān),依賴于實踐和經(jīng)驗,如果讓市場部經(jīng)理轉(zhuǎn)行去做數(shù)據(jù)挖掘師,估計也很牛逼。
數(shù)據(jù)挖掘,難就難在這里,其是業(yè)務(wù)、數(shù)據(jù)甚至是技術(shù)的結(jié)合體,在大數(shù)據(jù)時代,這個趨勢會越加明顯。
缺乏對于“常理”的感覺。
以下是一個社交網(wǎng)絡(luò)的案例,場景是需要對于兩個通話(或其它)交往圈進行重合度判定,以識別兩個手機號碼是否屬于同一個人。
規(guī)則似乎很簡單,但挖掘出來的結(jié)果卻不盡如人意,準確率只有12%,百思不得其解。
后來發(fā)現(xiàn)判定重合度的閾值是30%,這個也不能說明有問題,但問題出在對于基數(shù)的判定上,大量的用戶總的交往圈只有3-4個,也就是說,重合1個就可能達到這個閾值,很多新手或者過于迷信技巧的人,往往忽視業(yè)務(wù)本質(zhì)的認識。
數(shù)據(jù)挖掘不僅僅是一門挖掘語言,還要有足夠的生活認知和數(shù)據(jù)感覺,這個很難短期能夠提升,依賴于長期實踐,甚至認為,這個跟情商相關(guān),有些人就是有感覺,一眼能發(fā)現(xiàn)問題。
缺乏迭代的能力。
很多傳統(tǒng)企業(yè),數(shù)據(jù)挖掘效果不好,跟企業(yè)的組織、機制、流程等相關(guān),舉個例子:
曾經(jīng)給外呼部門做了一個外呼偏好模型,就是對于所有客戶的外呼偏好排個序,在外呼資源有限的條件下,按照這個排序進行外呼,可以提升外呼效率,然后發(fā)布到標(biāo)簽庫,然后讓外呼部門去用,等待反饋的時間總是很長,大家都懂的,然后就石沉大海了。
最近想起來,再去要結(jié)果,發(fā)現(xiàn)效果很不錯,能真正提升10個百分點啊,但已經(jīng)2個月過去了。
這還算一個較為成功的挖掘,但又有多少模型由于線下流程的原因而被放棄了,誰都知道,數(shù)據(jù)挖掘靠的是迭代,很難第一次就成功,但有多少星星在開始之時,就被掐滅了。
傳統(tǒng)企業(yè)冗長的線下流程,的確成為了模型優(yōu)化的大殺器,互聯(lián)網(wǎng)公司天生的在線性讓其算法發(fā)揮出巨大的價值,而傳統(tǒng)企業(yè)的建模,往往還在為獲得反饋數(shù)據(jù)而努力,組織、系統(tǒng)和運營上的差距很大。
推廣是永遠的痛。
很多傳統(tǒng)企業(yè)不同地域上的業(yè)務(wù)差異,不僅僅造成管理難度加大、體驗不一致、系統(tǒng)過于復(fù)雜、運營成本高昂,也讓模型的建設(shè)和推廣異常困難。
從模型本身的角度,不同地域的數(shù)據(jù)差異有時很大,在一個地方成功的模型,在另一個地方則完全失敗,過擬合現(xiàn)象比比皆是。
從業(yè)務(wù)理解的角度,建模團隊要面對幾個甚至十多個做類似業(yè)務(wù)的團隊,各個團隊的業(yè)務(wù)理解上的差異和對于建模的要求各不相同,造成了建模團隊的無所適從。
模型推廣,成為了建模團隊巨大的負擔(dān),復(fù)制模型,往往變成了重做模型,搜集結(jié)果數(shù)據(jù)也難上加難,數(shù)據(jù)挖掘,已經(jīng)不是一項純粹的活。
提了以上五點,只是為了說明數(shù)據(jù)挖掘所以難,是綜合多種因素的結(jié)果,可能不是靠建立一個平臺,懂得一些算法,掌握一個工具就能簡單解決的,往往具有更深層次的原因。
我們在努力掌握好“器”的同時,也要抬起頭來,更全面的看待數(shù)據(jù)挖掘這個事情,因地制宜的制定適合自己企業(yè)特點的數(shù)據(jù)挖掘機制和流程。
當(dāng)然,大數(shù)據(jù)時代的到來,讓平臺,工具和算法也變得越加重要,這對數(shù)據(jù)建模師的知識結(jié)構(gòu)也帶來了新的沖擊。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10