
數(shù)據(jù)挖掘經(jīng)典案例
當前,市場競爭異常激烈,各商家企業(yè)為了能在競爭中占據(jù)優(yōu)勢,費勁心思。使用過OLAP技術(shù)的企業(yè)都知道,OLAP技術(shù)能給企業(yè)帶來新的生機和活力。OLAP技術(shù)把企業(yè)大量的數(shù)據(jù)變成了客戶需要的信息,把這些信息變成了價值,提高了企業(yè)的產(chǎn)值和效益,增強了客戶自身的競爭實力。
“啤酒與尿布”的故事家喻戶曉,在IT界里,幾乎是數(shù)據(jù)挖掘的代名詞,那么各商家企業(yè)受了多少啟發(fā),數(shù)據(jù)挖掘又給他們帶來了多少價值呢?
客戶需求
客戶面對大量的信息,用OLAP進行多維分析。如:一個網(wǎng)上書店,用OLAP技術(shù)可以瀏覽到什么時間,那個類別的客戶買了多少書等信息,如果想動態(tài)的獲得深層次的信息,比如:哪些書籍可以打包推薦,哪些書籍可以在銷售中關(guān)聯(lián)推出等等,就要用到數(shù)據(jù)挖掘技術(shù)了。
當客戶在使用OLAP技術(shù)進行數(shù)據(jù)的多維分析的時候,聯(lián)想到“啤酒與尿布”的故事,客戶不禁會有疑問,能不能通過數(shù)據(jù)挖掘來對數(shù)據(jù)進行深層次的分析呢,能不能將數(shù)據(jù)挖掘和OLAP結(jié)合起來進行分析呢?
SQL Server 2005 數(shù)據(jù)挖掘:
SQL Server 2005的Data Mining是SQL Server2005分析服務(Analysis Services)中的一部分。數(shù)據(jù)挖掘通常被稱為“從大型數(shù)據(jù)庫提取有效、可信和可行信息的過程”。換言之,數(shù)據(jù)挖掘派生數(shù)據(jù)中存在的模式和趨勢。這些模式和趨勢可以被收集在一起并定義為挖掘模型。挖掘模型可以應用于特定的業(yè)務方案,例如:預測銷售額、向特定客戶發(fā)送郵件、確定可能需要搭售的產(chǎn)品、查找客戶將產(chǎn)品放入購物車的順序序列。
Microsoft 決策樹算法、Microsoft Naive Bayes 算法、Microsoft 聚類分析算法、Microsoft 神經(jīng)網(wǎng)絡算法 (SSAS),可以預測離散屬性,例如,預測目標郵件活動的收件人是否會購買某個產(chǎn)品。
Microsoft 決策樹算法、Microsoft 時序算法可以預測連續(xù)屬性,預測連續(xù)屬性,例如,預測下一年的銷量。
Microsoft 順序分析和聚類分析算法預測順序,例如,執(zhí)行公司網(wǎng)站的點擊流分析。
Microsoft 關(guān)聯(lián)算法、Microsoft 決策樹算法查找交易中的常見項的組,例如,使用市場籃分析來建議客戶購買其他產(chǎn)品。
Microsoft 聚類分析算法、Microsoft 順序分析和聚類分析算法,查找相似項的組,例如,將人口統(tǒng)計數(shù)據(jù)分割為組以便更好地理解屬性之間的關(guān)系。
巔峰之旅之案例一:網(wǎng)上書店關(guān)聯(lián)銷售
提出問題
網(wǎng)上書店現(xiàn)在有了很強的市場和比較固定的大量的客戶。為了促進網(wǎng)上書店的銷售量的增長,各網(wǎng)上書店采取了各種方式,給客戶提供更多更豐富的書籍,提供更優(yōu)質(zhì)服務,等方式吸引更多的讀者。
是不是這樣就夠了呢?這里,給眾多網(wǎng)上書店的商家們提供一種非常好的促進銷售量增長,吸引讀者的方法,就是關(guān)聯(lián)銷售分析。這種方法就是給客戶提供其他的相關(guān)書籍,也就是在客戶購買了一種書籍之后,推薦給客戶其他的相關(guān)的書籍。這種措施的運用給他們帶來了可觀的效益。
首先必須明確的是,這里介紹的關(guān)聯(lián)銷售并不是,根據(jù)網(wǎng)上書店的銷售記錄進行的比例統(tǒng)計,也區(qū)別于簡單的概率分析統(tǒng)計,是用的關(guān)聯(lián)規(guī)則算法?!捌【坪湍虿肌钡墓适伦阋宰C明了該算法的強大功能和產(chǎn)生的震撼效果。
那么,怎么來實現(xiàn)這樣一個效果呢?
解決步驟
首先,我們有數(shù)據(jù)源,也就是銷售記錄。這里我們做數(shù)據(jù)挖掘模型,要用到兩張表,一張表是我們的會員,用會員ID號來代替;另一張表是我們那個會員買了什么書。
我們應用SQL Server 2005的Data Mining工具,建立數(shù)據(jù)挖掘模型。
具體步驟如下:
第一步:定義數(shù)據(jù)源。選取的為網(wǎng)上書店的銷售記錄數(shù)據(jù)源(最主要的是User表和Sales表)。
第二步:定義數(shù)據(jù)源視圖。在此我們要建立好數(shù)據(jù)挖掘中事例表和嵌套表,并定義兩者之間的關(guān)系,定義User為事例表(Case Table),Sales為嵌套表(Nested Table)。
第三步:選取Microsoft Association Rules(關(guān)聯(lián)規(guī)則)算法,建立挖掘模型。
第四步、設置算法參數(shù),部署挖掘模型。
第五步、瀏覽察看挖掘模型。對于關(guān)聯(lián)規(guī)則算法來說,三個查看的選項卡。
A:項集:“項集”選項卡顯示被模型識別為經(jīng)常發(fā)現(xiàn)一起出現(xiàn)的項集的列表。在這里指的是經(jīng)過關(guān)聯(lián)規(guī)則算法處理后,發(fā)現(xiàn)關(guān)聯(lián)在一起的書籍的集合。
B:規(guī)則:“規(guī)則”選項卡顯示關(guān)聯(lián)算法發(fā)現(xiàn)的規(guī)則?!耙?guī)則”選項卡包含一個具有以下列的網(wǎng)格:“概率”、“重要性”和“規(guī)則”。概率說明出現(xiàn)規(guī)則結(jié)果的可能性。重要性用于度量規(guī)則的用途。盡管規(guī)則出現(xiàn)的概率可能很高,但規(guī)則自身的用途可能并不重要。重要性列就是說明這一情況的。例如,如果每個項集都包含屬性的某個特定狀態(tài),那么,即使概率非常高,預測狀態(tài)的規(guī)則也并不重要。重要性越高,規(guī)則越重要。
C:關(guān)聯(lián)網(wǎng)絡:節(jié)點間的箭頭代表項之間有關(guān)聯(lián)。箭頭的方向表示按照算法發(fā)現(xiàn)的規(guī)則確定的項之間的關(guān)聯(lián)。
效果展示
1、我們可以看到在上圖中,綠色的是我們選擇的節(jié)點,橙色的是可以預測所選節(jié)點的節(jié)點,也就是說如果消費者買了《月光寶盒(2VCD)》的話,那么我們可以給該消費者推薦《亂世佳人(上集,2VCD)》。紫色的是和所選節(jié)點能夠雙向預測的,即買了《大圣娶親》,推薦《亂世佳人(上集,2VCD)》;同樣,買了《亂世佳人(上集,2VCD)》,推薦《大圣娶親》。這樣我們就很容易看到經(jīng)過關(guān)聯(lián)算法計算出來的書籍之間的關(guān)聯(lián)性。如圖3所示效果。
2、我們也可以通過寫DMX語句來實現(xiàn)預測查詢。
SELECT
PredictAssociation([User].[Sales],include_statistics,10)
From
[User]
NATURAL PREDICTION JOIN
(SELECT (SELECT '月光寶盒(2VCD)' AS [Book Name]) AS [Sales]) AS t
巔峰之旅之案例二:客戶類別銷售分析
這個案例的前提是我們已經(jīng)建立好了一個OLAP的多維數(shù)據(jù)庫Sales,事實表為FactInternetSales,有 五個維度,分別是DimCurrency,DimCustomer,DimProduct,DimTime,DimPromotion。
提出問題
利用OLAP建立的多維數(shù)據(jù)庫Sales,我們可以實現(xiàn)多角度的瀏覽和分析。例如:我們可以分析2004年第一季度的M生產(chǎn)線產(chǎn)品的銷售量情況,還可以實現(xiàn)靈活的交叉分析,等等。但是,如果我們要分析,某個維度的多個屬性的綜合的銷售量,例如:客戶維度里有Birth Date、English Education、House Owner Flag、Number Cars Owned、Yearly Income等屬性,在多維數(shù)據(jù)庫里面分析的時候,
我們可以把客戶維度的Number Cars Owned屬性放在展示區(qū)域的行上,把度量值Order Quantity放在列上,查看擁有0-4輛汽車的客戶的訂購所有產(chǎn)品的數(shù)量。同樣,我們也可以類似的查看其他屬性的情況。但是,如果我們要把客戶維度的某些屬性綜合考慮來分類,例如:我們要把高收入、高學歷、高消費的客戶作為一個群體,把高收入,低學歷、高消費的客戶作為一個群體,等等,然后,基于這些群體來瀏覽分析,銷售情況,如何來實現(xiàn)呢?
解決步驟
用過聚類算法的大概比較清楚,聚類算法,是用來給事物分類的。那么怎么用聚類算法的這個特性,和OLAP進行正和呢。請看下面這個案例:
第一步:建立挖掘模型。這里需要注意的是:以前我們在建立數(shù)據(jù)挖掘模型的時候是基于關(guān)系型數(shù)據(jù)源。
A:而在這里,我們要基于多維數(shù)據(jù)庫Sales,選取維度DimCustomer為數(shù)據(jù)挖掘模型的數(shù)據(jù)源。
B:按照向?qū)?,選取事例鍵Dim Customer,
C:在選取事例級別列對話框里面,選擇一些屬性和度量值,我們這里選取English Education、House Owner Flag、Number Cars Owned、Yearly Income、Sales Amount。如圖5所示。
D:在完成對話框里面,我們輸入挖掘結(jié)構(gòu)名稱CustomerSturcture,輸入挖掘模型名稱CustomerClustering。必須注意的是,一是一定要選擇創(chuàng)建挖掘模型維度,輸入挖掘模型維度的名稱CustomerClustering;二是一定要選擇使用挖掘模型維度創(chuàng)建多維數(shù)據(jù)集Sales_DM。
E:設置算法參數(shù)。
然后對創(chuàng)建的挖掘結(jié)構(gòu)和挖掘模型進行處理。
此時,共享維度里面會自動添加了一個CustomerClustering維度,也就是數(shù)據(jù)挖掘維度。
第二步:處理CustomerClustering維度。
第三步:處理多維數(shù)據(jù)集Salse_DM。
處理后的多維數(shù)據(jù)集Sales_DM,就包含了數(shù)據(jù)挖掘維度CustomerClustering。這樣,我們就可以把經(jīng)過聚類算法分類后的客戶維度,來進行多維數(shù)據(jù)分析。
效果展示
這些Cluster是我們用聚類算法建立的挖掘模型的維度成員,每個Cluster都是我們所選屬性的一個綜合的結(jié)果,但是代表著一個明顯的特征。我們還可以在數(shù)據(jù)挖掘模型里面,對各個Cluster進行名稱的標示,如Cluster 1是高收入高消費高學歷的群體,我們就可以給他命名,把所有的Cluster都命名為能代表本身特性的名稱,這樣,使得多為數(shù)據(jù)庫的信息就更豐富了。
總結(jié)
在激烈的市場競爭中,要想把海量的數(shù)據(jù)轉(zhuǎn)化為信息,提高自身的信息化建設水平,增強企業(yè)的核心競爭力,BI技術(shù)是您明智的選擇。應用OLAP技術(shù)建立多維數(shù)據(jù)庫,進行多維分析,并把數(shù)據(jù)挖掘算法應用于多維數(shù)據(jù)庫中,會進一步增加信息量,讓您掌握更多的市場先機。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03