
數(shù)據(jù)挖掘經(jīng)典案例
當前,市場競爭異常激烈,各商家企業(yè)為了能在競爭中占據(jù)優(yōu)勢,費勁心思。使用過OLAP技術(shù)的企業(yè)都知道,OLAP技術(shù)能給企業(yè)帶來新的生機和活力。OLAP技術(shù)把企業(yè)大量的數(shù)據(jù)變成了客戶需要的信息,把這些信息變成了價值,提高了企業(yè)的產(chǎn)值和效益,增強了客戶自身的競爭實力。
“啤酒與尿布”的故事家喻戶曉,在IT界里,幾乎是數(shù)據(jù)挖掘的代名詞,那么各商家企業(yè)受了多少啟發(fā),數(shù)據(jù)挖掘又給他們帶來了多少價值呢?
客戶需求
客戶面對大量的信息,用OLAP進行多維分析。如:一個網(wǎng)上書店,用OLAP技術(shù)可以瀏覽到什么時間,那個類別的客戶買了多少書等信息,如果想動態(tài)的獲得深層次的信息,比如:哪些書籍可以打包推薦,哪些書籍可以在銷售中關(guān)聯(lián)推出等等,就要用到數(shù)據(jù)挖掘技術(shù)了。
當客戶在使用OLAP技術(shù)進行數(shù)據(jù)的多維分析的時候,聯(lián)想到“啤酒與尿布”的故事,客戶不禁會有疑問,能不能通過數(shù)據(jù)挖掘來對數(shù)據(jù)進行深層次的分析呢,能不能將數(shù)據(jù)挖掘和OLAP結(jié)合起來進行分析呢?
SQL Server 2005 數(shù)據(jù)挖掘:
SQL Server 2005的Data Mining是SQL Server2005分析服務(wù)(Analysis Services)中的一部分。數(shù)據(jù)挖掘通常被稱為“從大型數(shù)據(jù)庫提取有效、可信和可行信息的過程”。換言之,數(shù)據(jù)挖掘派生數(shù)據(jù)中存在的模式和趨勢。這些模式和趨勢可以被收集在一起并定義為挖掘模型。挖掘模型可以應(yīng)用于特定的業(yè)務(wù)方案,例如:預測銷售額、向特定客戶發(fā)送郵件、確定可能需要搭售的產(chǎn)品、查找客戶將產(chǎn)品放入購物車的順序序列。
Microsoft 決策樹算法、Microsoft Naive Bayes 算法、Microsoft 聚類分析算法、Microsoft 神經(jīng)網(wǎng)絡(luò)算法 (SSAS),可以預測離散屬性,例如,預測目標郵件活動的收件人是否會購買某個產(chǎn)品。
Microsoft 決策樹算法、Microsoft 時序算法可以預測連續(xù)屬性,預測連續(xù)屬性,例如,預測下一年的銷量。
Microsoft 順序分析和聚類分析算法預測順序,例如,執(zhí)行公司網(wǎng)站的點擊流分析。
Microsoft 關(guān)聯(lián)算法、Microsoft 決策樹算法查找交易中的常見項的組,例如,使用市場籃分析來建議客戶購買其他產(chǎn)品。
Microsoft 聚類分析算法、Microsoft 順序分析和聚類分析算法,查找相似項的組,例如,將人口統(tǒng)計數(shù)據(jù)分割為組以便更好地理解屬性之間的關(guān)系。
巔峰之旅之案例一:網(wǎng)上書店關(guān)聯(lián)銷售
提出問題
網(wǎng)上書店現(xiàn)在有了很強的市場和比較固定的大量的客戶。為了促進網(wǎng)上書店的銷售量的增長,各網(wǎng)上書店采取了各種方式,給客戶提供更多更豐富的書籍,提供更優(yōu)質(zhì)服務(wù),等方式吸引更多的讀者。
是不是這樣就夠了呢?這里,給眾多網(wǎng)上書店的商家們提供一種非常好的促進銷售量增長,吸引讀者的方法,就是關(guān)聯(lián)銷售分析。這種方法就是給客戶提供其他的相關(guān)書籍,也就是在客戶購買了一種書籍之后,推薦給客戶其他的相關(guān)的書籍。這種措施的運用給他們帶來了可觀的效益。
首先必須明確的是,這里介紹的關(guān)聯(lián)銷售并不是,根據(jù)網(wǎng)上書店的銷售記錄進行的比例統(tǒng)計,也區(qū)別于簡單的概率分析統(tǒng)計,是用的關(guān)聯(lián)規(guī)則算法?!捌【坪湍虿肌钡墓适伦阋宰C明了該算法的強大功能和產(chǎn)生的震撼效果。
那么,怎么來實現(xiàn)這樣一個效果呢?
解決步驟
首先,我們有數(shù)據(jù)源,也就是銷售記錄。這里我們做數(shù)據(jù)挖掘模型,要用到兩張表,一張表是我們的會員,用會員ID號來代替;另一張表是我們那個會員買了什么書。
我們應(yīng)用SQL Server 2005的Data Mining工具,建立數(shù)據(jù)挖掘模型。
具體步驟如下:
第一步:定義數(shù)據(jù)源。選取的為網(wǎng)上書店的銷售記錄數(shù)據(jù)源(最主要的是User表和Sales表)。
第二步:定義數(shù)據(jù)源視圖。在此我們要建立好數(shù)據(jù)挖掘中事例表和嵌套表,并定義兩者之間的關(guān)系,定義User為事例表(Case Table),Sales為嵌套表(Nested Table)。
第三步:選取Microsoft Association Rules(關(guān)聯(lián)規(guī)則)算法,建立挖掘模型。
第四步、設(shè)置算法參數(shù),部署挖掘模型。
第五步、瀏覽察看挖掘模型。對于關(guān)聯(lián)規(guī)則算法來說,三個查看的選項卡。
A:項集:“項集”選項卡顯示被模型識別為經(jīng)常發(fā)現(xiàn)一起出現(xiàn)的項集的列表。在這里指的是經(jīng)過關(guān)聯(lián)規(guī)則算法處理后,發(fā)現(xiàn)關(guān)聯(lián)在一起的書籍的集合。
B:規(guī)則:“規(guī)則”選項卡顯示關(guān)聯(lián)算法發(fā)現(xiàn)的規(guī)則?!耙?guī)則”選項卡包含一個具有以下列的網(wǎng)格:“概率”、“重要性”和“規(guī)則”。概率說明出現(xiàn)規(guī)則結(jié)果的可能性。重要性用于度量規(guī)則的用途。盡管規(guī)則出現(xiàn)的概率可能很高,但規(guī)則自身的用途可能并不重要。重要性列就是說明這一情況的。例如,如果每個項集都包含屬性的某個特定狀態(tài),那么,即使概率非常高,預測狀態(tài)的規(guī)則也并不重要。重要性越高,規(guī)則越重要。
C:關(guān)聯(lián)網(wǎng)絡(luò):節(jié)點間的箭頭代表項之間有關(guān)聯(lián)。箭頭的方向表示按照算法發(fā)現(xiàn)的規(guī)則確定的項之間的關(guān)聯(lián)。
效果展示
1、我們可以看到在上圖中,綠色的是我們選擇的節(jié)點,橙色的是可以預測所選節(jié)點的節(jié)點,也就是說如果消費者買了《月光寶盒(2VCD)》的話,那么我們可以給該消費者推薦《亂世佳人(上集,2VCD)》。紫色的是和所選節(jié)點能夠雙向預測的,即買了《大圣娶親》,推薦《亂世佳人(上集,2VCD)》;同樣,買了《亂世佳人(上集,2VCD)》,推薦《大圣娶親》。這樣我們就很容易看到經(jīng)過關(guān)聯(lián)算法計算出來的書籍之間的關(guān)聯(lián)性。如圖3所示效果。
2、我們也可以通過寫DMX語句來實現(xiàn)預測查詢。
SELECT
PredictAssociation([User].[Sales],include_statistics,10)
From
[User]
NATURAL PREDICTION JOIN
(SELECT (SELECT '月光寶盒(2VCD)' AS [Book Name]) AS [Sales]) AS t
巔峰之旅之案例二:客戶類別銷售分析
這個案例的前提是我們已經(jīng)建立好了一個OLAP的多維數(shù)據(jù)庫Sales,事實表為FactInternetSales,有 五個維度,分別是DimCurrency,DimCustomer,DimProduct,DimTime,DimPromotion。
提出問題
利用OLAP建立的多維數(shù)據(jù)庫Sales,我們可以實現(xiàn)多角度的瀏覽和分析。例如:我們可以分析2004年第一季度的M生產(chǎn)線產(chǎn)品的銷售量情況,還可以實現(xiàn)靈活的交叉分析,等等。但是,如果我們要分析,某個維度的多個屬性的綜合的銷售量,例如:客戶維度里有Birth Date、English Education、House Owner Flag、Number Cars Owned、Yearly Income等屬性,在多維數(shù)據(jù)庫里面分析的時候,
我們可以把客戶維度的Number Cars Owned屬性放在展示區(qū)域的行上,把度量值Order Quantity放在列上,查看擁有0-4輛汽車的客戶的訂購所有產(chǎn)品的數(shù)量。同樣,我們也可以類似的查看其他屬性的情況。但是,如果我們要把客戶維度的某些屬性綜合考慮來分類,例如:我們要把高收入、高學歷、高消費的客戶作為一個群體,把高收入,低學歷、高消費的客戶作為一個群體,等等,然后,基于這些群體來瀏覽分析,銷售情況,如何來實現(xiàn)呢?
解決步驟
用過聚類算法的大概比較清楚,聚類算法,是用來給事物分類的。那么怎么用聚類算法的這個特性,和OLAP進行正和呢。請看下面這個案例:
第一步:建立挖掘模型。這里需要注意的是:以前我們在建立數(shù)據(jù)挖掘模型的時候是基于關(guān)系型數(shù)據(jù)源。
A:而在這里,我們要基于多維數(shù)據(jù)庫Sales,選取維度DimCustomer為數(shù)據(jù)挖掘模型的數(shù)據(jù)源。
B:按照向?qū)?,選取事例鍵Dim Customer,
C:在選取事例級別列對話框里面,選擇一些屬性和度量值,我們這里選取English Education、House Owner Flag、Number Cars Owned、Yearly Income、Sales Amount。如圖5所示。
D:在完成對話框里面,我們輸入挖掘結(jié)構(gòu)名稱CustomerSturcture,輸入挖掘模型名稱CustomerClustering。必須注意的是,一是一定要選擇創(chuàng)建挖掘模型維度,輸入挖掘模型維度的名稱CustomerClustering;二是一定要選擇使用挖掘模型維度創(chuàng)建多維數(shù)據(jù)集Sales_DM。
E:設(shè)置算法參數(shù)。
然后對創(chuàng)建的挖掘結(jié)構(gòu)和挖掘模型進行處理。
此時,共享維度里面會自動添加了一個CustomerClustering維度,也就是數(shù)據(jù)挖掘維度。
第二步:處理CustomerClustering維度。
第三步:處理多維數(shù)據(jù)集Salse_DM。
處理后的多維數(shù)據(jù)集Sales_DM,就包含了數(shù)據(jù)挖掘維度CustomerClustering。這樣,我們就可以把經(jīng)過聚類算法分類后的客戶維度,來進行多維數(shù)據(jù)分析。
效果展示
這些Cluster是我們用聚類算法建立的挖掘模型的維度成員,每個Cluster都是我們所選屬性的一個綜合的結(jié)果,但是代表著一個明顯的特征。我們還可以在數(shù)據(jù)挖掘模型里面,對各個Cluster進行名稱的標示,如Cluster 1是高收入高消費高學歷的群體,我們就可以給他命名,把所有的Cluster都命名為能代表本身特性的名稱,這樣,使得多為數(shù)據(jù)庫的信息就更豐富了。
總結(jié)
在激烈的市場競爭中,要想把海量的數(shù)據(jù)轉(zhuǎn)化為信息,提高自身的信息化建設(shè)水平,增強企業(yè)的核心競爭力,BI技術(shù)是您明智的選擇。應(yīng)用OLAP技術(shù)建立多維數(shù)據(jù)庫,進行多維分析,并把數(shù)據(jù)挖掘算法應(yīng)用于多維數(shù)據(jù)庫中,會進一步增加信息量,讓您掌握更多的市場先機。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10