
數據挖掘的五個誤區(qū)
許多成功的企業(yè)都發(fā)現了圍繞著數據挖掘而產生的神話確實就是誤解。這些企業(yè)沒有成為這些誤區(qū)的犧牲品,而是通過使用數據挖掘技術解決復雜的業(yè)務問題來增加利潤,獲取更大的競爭優(yōu)勢。
實際上正是復雜的數據挖掘技術使得鄉(xiāng)村地區(qū)的Wal-Mart超市連鎖店決定在秋季準備大量某種廣告郵件 。雖然可笑, 但Spamouflage-經過巧妙包裝的廣告郵件已經取得了極大的成功。不單單是一個可愛的想法,Spamouflage幫助Wal-Mart從現有的顧客群中獲得了額外的利潤,并且也顯示了Wal-Mart是多么深刻地理解著他們所服務的人群。
數據挖掘到底是什么?
數據挖掘是一種非常有力的分析工具,它可以幫助企業(yè)主管們通過了解顧客的歷史行為的信息來預測他們將來的行為。它找到了解開顧客行為秘密的模式。這些發(fā)現可被用于創(chuàng)造利潤,縮減成本,以及抓住商業(yè)機會,獲得新的競爭優(yōu)勢。
關于數據挖掘所產生的誤解的部分原因是人們并不十分了解它究竟是什么。從最本質上講,數據挖掘就是一套用于發(fā)現和解釋詳細數據的未知模式的復雜的數學技術。自從80年代中期以來,數據挖掘的應用領域從學術、醫(yī)藥、科學研究領域擴展開來,已被非常有效地應用在零售、銀行、電信、保險、旅行和服務行業(yè)。
因為數據挖掘被認為是一種分析工具,它經常與在線分析處理(OLAP)相混淆。OLAP是一種有價值的分析技術,它被用于分析業(yè)務操作來對已發(fā)生的事情做出歷史性的回顧。例如,一位市場部經理想要了解為什么某個地區(qū)的銷售額下滑了。OLAP工具可以幫助他從各個不同的方面提出問題,例如以商店統計的銷售額、以產品統計的銷售額和一段時間內的銷售額。通過從不同的角度觀察這些歷史數據,他就會分析出對銷售額產生影響的因素(商店、產品,或是時間)。
數據挖掘則處理另一類問題。它可被用于預測未來事件,例如,基于促銷情況或者哪類顧客最有可能對促銷感興趣來預測下個月的銷售額。
一些企業(yè)使用數據挖掘的方式消除了關于數據挖掘的5個誤區(qū)。
誤區(qū)1:數據挖掘提供了即時的未來預測
數據挖掘既不是水晶球也不是一按按鈕就能魔術般出現答案的技術。它是一個多步驟的處理過程,其中包括:定義業(yè)務問題,掃描并按條件搜索數據,開發(fā)模型,運用獲得的知識。典型情況是,企業(yè)花費大量時間預處理并且按照條件搜索數據,保證其干凈、一致、良好整合,以便于應用他們所需要的商務智能。數據挖掘全部圍繞著數據,成功的數據挖掘需要能夠準確反映業(yè)務的數據。
企業(yè)必須懂得,數據挖掘的威力在于:抓住那些能夠從本質上被預測或者被描述的特殊的業(yè)務難題。其中包括:
顧客分類
預測顧客的購買傾向
監(jiān)測欺詐
優(yōu)化供應和發(fā)貨渠道
理解了這個過程的企業(yè)就看到了真正的效果。一家中西部地區(qū)的保健供應商識別了高風險病人,并且使用了能夠保證護理質量和管理風險的病例管理程序。一家南美電信公司通過分析電話的使用、購買的服務和服務質量的評定等可能導致顧客減少的模式之后,發(fā)現了風險并防止了高價值顧客的流失。一家美國的保險公司通過數據挖掘解決方案的時間段來預測并且很快地檢測欺詐,然后采取迅速行動來最小化成本。
誤區(qū)2:數據挖掘對于商務應用程序仍然是不可用的
數據挖掘是一種可用的技術,并且由于他的商業(yè)效果受到了很高的評價。這個謊言似乎是那些需要解釋為什么他們不能使用這個處理過程,并且在下面這兩句話中轉來轉去的人所編造的。第一句是:“大的數據庫不能被有效地挖掘”。第二句是:“數據挖掘不能在數據倉庫引擎中完成”。這兩句話都曾經是正確的;就像飛機曾經無法離開地面一樣。
讓我們同時分析這兩句話。因為今天的數據庫是這樣的大,企業(yè)都擔心數據挖掘項目所需的額外的IT體系結構會帶來巨大的成本,以及每個項目的數據處理過程都會消耗太長時間。但是今天的某些數據庫使用的并行技術使得數據庫內部的挖掘成為可能。通過在數據庫內部進行挖掘,企業(yè)可以消除數據移動,利用并行處理的性能,最小化數據冗余,以及消除數據挖掘專用的整個新的冗余的數據庫的創(chuàng)建及維護成本。
例如,一個包裝零售生產企業(yè)使用數據挖掘來維護一個顧客忠誠度程序,這個程序可以幫助它的零售伙伴監(jiān)控促銷的效果,并且分析購買者的購物籃。最初這個分析曾經是鼓勵它的伙伴促銷他們的產品的有效手段。然而隨這需要處理的數據量變得越來越大,以致于這個提供給零售伙伴的服務成本變得過于昂貴。雖然這個分析過程是在一個很強大的服務器上面進行的,但是5個分析應用程序仍然用了超過312個小時來處理數據。
在結束這個有價值的服務之前,這家企業(yè)嘗試了數據庫內部的數據挖掘技術。他們將數據載入一個集中的數據倉庫,然后將5個分析程序全部轉換為一個在數據庫中運行的SQL(標準查詢語言)程序,利用它的并行處理能力。通過轉換為數據庫內部的數據挖掘,他們能夠將執(zhí)行時間從用戶忠誠度程序的超過312小時縮小到12小時。
誤區(qū)3:數據挖掘需要單獨的、專用的數據庫
數據挖掘產品供應商會強調你需要一個昂貴的、專用的數據庫、數據中心或者分析服務器來進行數據挖掘,因為需要將數據轉換為一種特別的格式來進行有效地處理。這些數據中心不僅采購和維護成本很高,每個單獨的數據挖掘項目還需要單獨抽取數據,而數據的抽取是很昂貴并且非常費時的。
數據庫技術的發(fā)展使得現在數據挖掘再也不需要在一個單獨的數據中心進行了。實際上,有效的數據挖掘需要一個企業(yè)范圍的數據倉庫,它的全部投資成本也比使用獨立的多個數據中心便宜得多了。
原因是這樣的:由于企業(yè)需在整個企業(yè)范圍之上實現數據挖掘項目,利用數據挖掘模型的用戶數量和其對數據基礎設施型都會持續(xù)增長。一個先進的企業(yè)數據倉庫不僅能有效地存儲所有的企業(yè)數據,同時也消除大多數額外的數據中心或數據倉庫的需求,另外這也為數據挖掘項目提供一個理想的基礎。這個基礎就是一個單一的企業(yè)范圍的數據倉庫,這個數據倉庫可以提供一個具有一致性和即時性的顧客視圖。并且通過在數據倉庫內部合并數據挖掘的外延,企業(yè)可以以兩種另外的方式縮減成本。第一種方式是,沒有必要購買和維護僅為數據挖掘使用的額外的硬件。第二種方式是,企業(yè)將為實施數據挖掘項目所需的數據倉庫數據導入導出的工作量減少到最低,這已經是公認的極耗費工時和資源的處理過程。
誤區(qū)4:只有擁有博士學位才可以進行數據挖掘
一些人認為數據挖掘非常復雜,以致必須擁有至少三個博士才可以執(zhí)行它:一個是統計學或者計量方法專業(yè)博士,一個是能夠懂得客戶的商務博士,一個是計算機專業(yè)博士。
實際情況是在成功項目的實施者中根本用不到一個博士。例如,Teradata最近完成了一個南美電信公司的項目,它成功地追蹤了顧客行為變化,幫助公司在電信市場開放期間保住了98%的高價值客戶。通過協力工作,一個多學科的小組成功地完成了任務。
數據挖掘是一項需要三個專業(yè)領域的技術專家共同合作的工作。商務人員必須通過創(chuàng)建一組商業(yè)問題來引導項目,解釋凸現的模式。具有對數據挖掘技術、統計學和工具的充分了解的分析建模人員構建可靠的模型。IT人員提供對處理過程的深刻觀察,理解數據,并提供關鍵的技術支持。
誤區(qū)5:數據挖掘是給那些擁有大量客戶數據的大公司提供的
一個簡單的事實就是,一個公司,無論大小,只要擁有能夠精確反映業(yè)務或者客戶情況的數據,都能在這些數據基礎上構建模型,對應重要的業(yè)務挑戰(zhàn)。公司處理的顧客數據量從來就不是關鍵。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數據操作的 “后悔藥” 指南? 在數據庫操作中,誤刪數據、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14如何考取數據分析師證書:以 CDA 為例? ? 在數字化浪潮席卷各行各業(yè)的當下,數據分析師已然成為企業(yè)挖掘數據價值、驅動決策的 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數據分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導白皮書) 發(fā)布機構:CDA數據科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07