
數據挖掘九律,看完不后悔
一位挖掘專家 tom khabaza 提出了挖掘九律,挺好的東西,特別是九這個數字,深得中華文化精髓,有點獨孤九劍的意思:
第一,目標律。數據挖掘是一個業(yè)務過程,必須得有業(yè)務目標。無目的,無過程。
第二,知識律。業(yè)務知識貫穿在挖掘這個業(yè)務過程的各環(huán)節(jié)。
第三,準備律。數據獲取、數據準備等數據處理耗時占整個挖掘過程的一半。
第四,NFL律。NFL,沒有免費的午餐。沒有一個固定的算法適用所有的業(yè)務問題,特定應用適合的模型只能通過經驗發(fā)現。
第五,大衛(wèi)律。要相信,數中必有業(yè)務規(guī)律。大衛(wèi)·沃爾金斯最早提出的,故此名。
第六,洞察律。數據挖掘本質上是增強對業(yè)務領域的認知。
第七,預測律。數據挖掘基于過去得出模式,并泛化到類似新事物上,這就是預測,但這是統計概念的。
第八,價值律。挖掘模型的最終價值并非模型精度或穩(wěn)定性,而是驅動業(yè)務行動或通過新洞察導致策略改善。
第九,變化律。人不會兩次踏入同一條河流。業(yè)務在變,目標在變,認識也在變,甚至規(guī)律本身也在變,挖掘模型也得與時俱進。
很好, 挖掘者習此九律,必將功力大增,殺敵于無形之中,乃升遷加薪必備胸器。咱可以設想一些場景,看看這九律是怎么靈活運用的。運用這九律的心法是,敵不動我不動,見招拆招,以無招勝有照。
故事開始........:S,挖掘新手,M 為其導師,挖掘高手。一日,S接到任務,走一趟挖掘。過了段時間,他找到 M,M 正在閉目打坐。發(fā)生一場對話。
S:師傅,徒兒接到任務,已經開始干了,不出一個月就可大功告成。
M:嗯,不錯,什么進展了?
S:我已經安排下去,現在數據準備已經完成,并且建了一個小模。哎呀,您是不知道啊,那個數據太爛,一堆問題,到處是空值,很多信息也是假的,balabala….
M:先別說你的數據,數據準備干了多長時間了?
S:干了一個多月,還蠻符合準備率的吧!
M:這個任務到底要干什么?
S:嗨,就是要找出想搞破壞的人,放心,第一律我牢記于胸?,F在還有兩個人幫我一起做,一個準備數據,一個建模。
M:那你干什么?
S:我搞業(yè)務理解啊,并且運用知識律,搞了一個挖掘過程模板,我們三個就用這個模板進行過程交互,挺好的,什么時候給您瞅瞅。
M:嗯,聽起來不錯,那你今天來此打擾我清修作甚?
S:您是不知道啊。不是跟你說了,我們還建了一個小模嘛。唉,效果不太好。用分類預測訓練了數據,但那個數據實在太差了,感覺那個模型一點都不靠譜,沒反應出來什么規(guī)律。我們用那個結論在我們三個身上試了一下,結果大家都覺得不對,我們都成了想搞破壞的人,一點都不符合實際情況。
M:你忘了大衛(wèi)律了?要相信。還有預測律,你這個模型在你們三個身上試驗,能證明什么?
S:是啊,我沒忘啊。不過要找到規(guī)律還需要時間啊。我們要計劃在找更多的樣本去驗證。不過…今天來…確實是無事不登三寶殿…有個事兒…
M:啥事?
S:您前年不是搞了一個犯罪預測嘛,現在很多地方都在用,我想跟這次任務的目標類似,我想能不能就直接把您的模型拉過來訓練一下就行了…您那個模型實在是太絕了…
M:哈哈,看來你想偷懶啊,但你怎么能夠知道這個模型適用你的任務呢?
S:您的模型我還擔心什么啊。主要是這次任務時間緊,我也沒辦法,先解決了問題吧,能精確定位目標人群就行了,您的模型,肯定很準的。
M:雖然你拍我馬屁,但我還是對你很失望啊。挖掘的本質是什么?
S:呃…洞察…我也知道天下沒有免費的午餐...但時間太緊,任務太重啊,沒您不行啊,您的模型就是我們的法寶啊。
M:唉,不說那是兩年前的模型,現在你遇到的情況跟我遇到的情況不一樣,現在的犯罪手段也變了各種花樣,變化率怎么說的?再說,你為什么如此看重模型的精度,那并非挖掘的終極價值?。⌒盐虬?!我代表客戶鄙視你!
S:老家伙,你到底是給還是不給?你是想看著我死嗎?
M:(仰天長嘆)唉,師徒一場,罷了罷了,拿去吧。但你此一去,我們師徒恩斷義絕,以后再也不要來見我,再也不要叫我?guī)煾?,也不要再別人面前妄稱我是你的師傅。走吧,走吧…
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03