
大數(shù)據(jù)挖掘技術之DM經(jīng)典模型(上)
實際上,所有的數(shù)據(jù)挖掘技術都是以概率論和統(tǒng)計學為基礎的。
下面我們將探討如何用模型來表示簡單的、描述性的統(tǒng)計數(shù)據(jù)。如果我們可以描述所要找的事物,那么想要找到它就會變得很容易。這就是相似度模型的來歷——某事物與所要尋找的事物越相似,其得分就越高。
下面就是查詢模型,該模型正在直銷行業(yè)很受歡迎,并廣泛用于其它領域。樸素貝葉斯模型是表查找模型中一種非常有用的泛化模型,通常表查詢模型適用于較低的維度,而樸素貝葉斯模型準許更多的維度加入。還有線性回歸和邏輯回歸模型,都是最常見的預測建模技術。回歸模型,用于表示散點圖中兩個變量之間的關系。多元回歸模型,這個準許多個單值輸入。隨后介紹邏輯回歸分析,該技術擴展了多元回歸以限制其目標范圍,例如:限定概率估計。還有固定效應和分層回歸模型,該模型可將回歸應用于個人客戶,在許多以客戶為中心的數(shù)據(jù)挖掘技術之間搭建了一座橋梁。
相似度模型中需要將觀察值和原型進行比較,以得到相應的相似度得分。觀察值與原型相似度越高,其得分也就越高。一種度量相似度的方法是測量距離。觀察值與原型值之間的距離越近,觀察值的得分就越高。當每個客戶細分都有一個原型時,該模型可以根據(jù)得分把客戶分配到與其最相似的原型所在的客戶細分中。
相似度模型有原型和一個相似度函數(shù)構成。新數(shù)據(jù)通過計算其相似度函數(shù),就可以計算出相似度得分。
1.1、相似度距離
通過出版社的讀者比一般大眾要富有,而且接受教育的程度要高為例。通常前者要比后者在富有程度、教育程度的比例大三倍。這樣我們就可以給讀者一個訊息——“工資很高,并且受過良好的教育”。
如果要把對讀者的描述表示成一個可以識別該雜志潛在的讀者的模型,就需要對理想的讀者做出精確的定義,并以此來量化潛在讀者與理想讀者之間的相似程度。
相似度和距離是同一概念的兩種不同描述方式,但是它們度量的方向不同。使用距離作為度量指標時,如果兩個事物彼此非??拷?,那么兩者就很相似。所以當兩者距離很小時,相似度就會很高。
例如:出版社的理想讀者的受教育程度是16年,年收入100000美元。那么受教育14年,年收入75000美元的潛在客戶與理想客戶之間的相似度是多少呢?另外它們與受教育12年,并且年收入為150000美元的潛在客戶又有多少相似呢?這時候,我們要選擇一個度量的標準,歐式距離。當我們計算一潛在客戶與理想客戶(x=16,y=100000)之間的距離時,就會發(fā)現(xiàn)收入在計算中占了主導地位,因為它的取值比教育年限大的多得多。這就引入另一個問題:度量尺度。解決方法:將兩值分別減去相應的平均值然后除以相應的標準差。這樣就把兩者轉化成分數(shù),然后用分數(shù)代替原來的值來計算歐式距離。
歐式距離僅計算距離方法之一。這里才采用歐式距離只是為了將原型目標的一種統(tǒng)計描述與某種距離函數(shù)結合起來,搭建一種相似度模型。有了潛在用戶與理想客戶之間的距離,就可以對潛在客戶排序,或者將距離作為另一種計算的輸入,得到預期收入或相應概率。
1.2 、構建相似度模型的步驟
構建相似度模型,首先是要對原型進行描述,或得到一個用于與其他對象進行比較的理想對象。這些描述必須表示為度量,對于那些與理想值較近或較遠的對象,這些變量的取值要明顯不同。
首先,要解決三個問題
(1)“差”記錄與“好”記錄有什么區(qū)別?
(2)理想的“好”記錄看起來是什么樣子的?
(3)如何度量與理想對象之間的距離?
實現(xiàn)數(shù)據(jù)挖掘模型的一個簡單方法就是查詢表。表查詢模型思想就是:相似的人所作出的反應也相似。對一個新觀測值的評分涉及兩個步驟。一、為觀測值指定一個特定的標簽或主鍵。主鍵對應于查詢表中的一個單元格。二、被分配到某一個單元格的所有記錄都會有一個得分,該分值在模型訓練時就被賦予該單元格。
分配主鍵的方式有多種。決策樹模型適用了規(guī)則集將觀測值分配到特定的葉節(jié)點,葉節(jié)點的ID就可以作為一個可用于查詢得分的主鍵。聚類技術為記錄指定標簽,這里的聚類標簽就可以作為查詢主鍵。
構建查詢表,一、為查詢表選擇輸入變量。將訓練集中的每條記錄精確地分配到該表中的一個單元格中。使用訓練集中的統(tǒng)計數(shù)據(jù)來刻畫單元格的特征,這些統(tǒng)計數(shù)據(jù)包括平均值、標準差以及落入該單元格的訓練實例個數(shù)。在為模型評分的時候會用到這些統(tǒng)計數(shù)據(jù)。分數(shù)可以是數(shù)值型目標的平均值,也可以是屬于某一特定類別的比例,或者是單元格中占主導地位的類別。
2.1、選擇維度
每個維度都應該是一個對目標有影響的變量。理想情況,輸入變量不應該彼此相關,實際上,很難避免之間不相關。相關變量的實際影響是,訓練完成后有些單元格僅含有幾個訓練實例,這會使得估計值的置信度偏低。實際情況可能好點,因為要評分的新數(shù)據(jù)在那些單元格中也是稀疏的。
例如:在RFM模型中,有一個維度是采購總數(shù),還有一個維度是整個生存期的花費。在兩個變量高度相關,因為通常情況下,額外的購買會創(chuàng)造額外的收入。很少有記錄會落入到購買數(shù)量最大而收入?yún)s很少,或收入很高而采購量卻很少的單元格情況。
應該避免使用高度相關的變量作為查詢表的維度,因為這些相關變量會導致大量的稀疏的單元格。包含訓練樣本過少的單元格會產(chǎn)生置信度偏低的目標估計值。
對維度數(shù)的主要限制是單元格中訓練記錄的數(shù)量。在維度數(shù)與每個維度上分到的訓練樣本數(shù)之間有一個權衡。使用較少的維度,可以在每一個維度上進行更加精細的劃分。在實際處理過程中,可能會出現(xiàn)該單元格中什么都沒有,有的時候這種情況是確實存在的。這種異常情況,表中應該包含具有默認得分的單元格,這樣就可為那些與任意主鍵不匹配的記錄分配得分。典型的默認異常單元格得分,就是平均值。
2.2、維度的劃分
在實際的過程中,并不需要,每一個類別劃分一個維度。維度的分割應該依實而用。對于一個維度的合理劃分是按高、中、低劃分,而對另一個維度的合理劃分可能是按照百分比來劃分。有的時候,根據(jù)業(yè)務規(guī)則來定分割點,遵循這些特定的分割點劃分記錄可能那個比等分劃分更有意義。有監(jiān)督的分割,可以用于確保分割的有效性。這個后面在討論。
2.3、從訓練數(shù)據(jù)到得分
維度劃分好以后,在訓練集上計算每個單元格的得分就簡單了。對于數(shù)值型目標而言,得分=平均值。對于類別目標,每個類別會有一個得分=每個單元格類標簽的比例。這樣對于每個類都有一個概率估計,即待評分的數(shù)據(jù)記錄屬于該類的概率。
2.4、通過刪除維度處理稀疏和缺失數(shù)據(jù)
有些單元格沒有分配到足夠多的數(shù)據(jù),這會導致目標估計值的置信度較低。對于這類單元格該怎么辦?一、減少每個維度上的劃分數(shù)量。二、減少定義稀疏單元格的維度數(shù)。
例如:構建某購物網(wǎng)站物品清單價格的競爭力模型?;谇鍐问煜じ校c擊吸引力的分析考慮四個維度:
產(chǎn)品
地域
供應商類型
星期幾
對于一些比較受歡迎的產(chǎn)品,使用這四個維度是有道理的。而對于不受歡迎的商品,沒有足夠多的清單來支持所有維度,所以要丟棄一些維度。對于一些產(chǎn)品,放棄星期幾這一維度就OK。對于已協(xié)商產(chǎn)品,只是基于三個維度而不是基于四個維度之間的比較。對于一些產(chǎn)品,甚至只留下一個維度,對于這類產(chǎn)品,要做的就是持續(xù)刪除維度并合并單元格,直到每個單元格含有足夠的多的數(shù)據(jù)。
RFM模型,稱為近期、頻率以及貨幣。RFM背后的邏輯很簡單。近期下單的客戶在不久的將來再次購買的概率可能性非常大。在過去有許多購買記錄的顧客更有可能在不久的將來再次購買,并且在過去消費較多的客戶更有可能在將來消費更多。RFM是一種最大化現(xiàn)有客戶收益的技術,而不是吸引新客戶的技術。
將客戶分配大RFM單元中,三個RFM變量需要轉化為三個量化指標。近期:距離上次購買的天數(shù)或周數(shù),用于得到R的得分。
第二個變量頻率,通常是以前下單的總數(shù),記錄F的得分。最后一個是客戶生存期中的總的花費,該值用于創(chuàng)建M的得分。每個維度5等分。由于維度之間具有相關性,如F維和M維,所以各個單元格的客戶數(shù)量并不相等。要做的就是將所有的數(shù)據(jù)都分配到合適的單元格中,而且每個單元格要有足夠多的記錄,從而目標估計值具有一個可以接受的置信度。
3.1、RFM單元格轉移
對于每個營銷活動,客戶都會在RFM單元格之間轉移。那些做出響應的客戶對增加其消費頻率和消費總額,并且會減少距上一次購買的時間。這些新的取值通常都會遷移到單元格中。沒有響應的客戶也可能因距上一次購買時間的增加而轉移到新的單元格。其實這就是定期的數(shù)據(jù)更新,模型更新。數(shù)據(jù)的遷移,會導致原來的期望的變化,在數(shù)據(jù)單元格遷移過程中,要不斷的了解客戶的需求,及時的更改數(shù)據(jù)。
3.2、RFM和增量響應建模
增量響應建模的目標是識別那些容易被說服的潛在客戶——受營銷影響最大的人。RFM可以看成是對客戶營銷活動響應能力的預測。在定義好的RFM單元格之后,需要為每個單元格分配成員,要么是接收營銷信息的測試組成員,要么就是不接受該信息的對照組成員?;跍y試組和對照組兩個分組之間的響應率之差決定了營銷活動對于發(fā)現(xiàn)潛在客戶的能力。對于測試組和對照組之間的響應率差異最大的單元格,營銷獲得產(chǎn)生的影響也是最大的。但這些單元格的響應率卻未必是最大的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10