
大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型(上)
實(shí)際上,所有的數(shù)據(jù)挖掘技術(shù)都是以概率論和統(tǒng)計(jì)學(xué)為基礎(chǔ)的。
下面我們將探討如何用模型來(lái)表示簡(jiǎn)單的、描述性的統(tǒng)計(jì)數(shù)據(jù)。如果我們可以描述所要找的事物,那么想要找到它就會(huì)變得很容易。這就是相似度模型的來(lái)歷——某事物與所要尋找的事物越相似,其得分就越高。
下面就是查詢模型,該模型正在直銷行業(yè)很受歡迎,并廣泛用于其它領(lǐng)域。樸素貝葉斯模型是表查找模型中一種非常有用的泛化模型,通常表查詢模型適用于較低的維度,而樸素貝葉斯模型準(zhǔn)許更多的維度加入。還有線性回歸和邏輯回歸模型,都是最常見(jiàn)的預(yù)測(cè)建模技術(shù)?;貧w模型,用于表示散點(diǎn)圖中兩個(gè)變量之間的關(guān)系。多元回歸模型,這個(gè)準(zhǔn)許多個(gè)單值輸入。隨后介紹邏輯回歸分析,該技術(shù)擴(kuò)展了多元回歸以限制其目標(biāo)范圍,例如:限定概率估計(jì)。還有固定效應(yīng)和分層回歸模型,該模型可將回歸應(yīng)用于個(gè)人客戶,在許多以客戶為中心的數(shù)據(jù)挖掘技術(shù)之間搭建了一座橋梁。
相似度模型中需要將觀察值和原型進(jìn)行比較,以得到相應(yīng)的相似度得分。觀察值與原型相似度越高,其得分也就越高。一種度量相似度的方法是測(cè)量距離。觀察值與原型值之間的距離越近,觀察值的得分就越高。當(dāng)每個(gè)客戶細(xì)分都有一個(gè)原型時(shí),該模型可以根據(jù)得分把客戶分配到與其最相似的原型所在的客戶細(xì)分中。
相似度模型有原型和一個(gè)相似度函數(shù)構(gòu)成。新數(shù)據(jù)通過(guò)計(jì)算其相似度函數(shù),就可以計(jì)算出相似度得分。
1.1、相似度距離
通過(guò)出版社的讀者比一般大眾要富有,而且接受教育的程度要高為例。通常前者要比后者在富有程度、教育程度的比例大三倍。這樣我們就可以給讀者一個(gè)訊息——“工資很高,并且受過(guò)良好的教育”。
如果要把對(duì)讀者的描述表示成一個(gè)可以識(shí)別該雜志潛在的讀者的模型,就需要對(duì)理想的讀者做出精確的定義,并以此來(lái)量化潛在讀者與理想讀者之間的相似程度。
相似度和距離是同一概念的兩種不同描述方式,但是它們度量的方向不同。使用距離作為度量指標(biāo)時(shí),如果兩個(gè)事物彼此非??拷?,那么兩者就很相似。所以當(dāng)兩者距離很小時(shí),相似度就會(huì)很高。
例如:出版社的理想讀者的受教育程度是16年,年收入100000美元。那么受教育14年,年收入75000美元的潛在客戶與理想客戶之間的相似度是多少呢?另外它們與受教育12年,并且年收入為150000美元的潛在客戶又有多少相似呢?這時(shí)候,我們要選擇一個(gè)度量的標(biāo)準(zhǔn),歐式距離。當(dāng)我們計(jì)算一潛在客戶與理想客戶(x=16,y=100000)之間的距離時(shí),就會(huì)發(fā)現(xiàn)收入在計(jì)算中占了主導(dǎo)地位,因?yàn)樗娜≈当冉逃晗薮蟮亩嗟枚?。這就引入另一個(gè)問(wèn)題:度量尺度。解決方法:將兩值分別減去相應(yīng)的平均值然后除以相應(yīng)的標(biāo)準(zhǔn)差。這樣就把兩者轉(zhuǎn)化成分?jǐn)?shù),然后用分?jǐn)?shù)代替原來(lái)的值來(lái)計(jì)算歐式距離。
歐式距離僅計(jì)算距離方法之一。這里才采用歐式距離只是為了將原型目標(biāo)的一種統(tǒng)計(jì)描述與某種距離函數(shù)結(jié)合起來(lái),搭建一種相似度模型。有了潛在用戶與理想客戶之間的距離,就可以對(duì)潛在客戶排序,或者將距離作為另一種計(jì)算的輸入,得到預(yù)期收入或相應(yīng)概率。
1.2 、構(gòu)建相似度模型的步驟
構(gòu)建相似度模型,首先是要對(duì)原型進(jìn)行描述,或得到一個(gè)用于與其他對(duì)象進(jìn)行比較的理想對(duì)象。這些描述必須表示為度量,對(duì)于那些與理想值較近或較遠(yuǎn)的對(duì)象,這些變量的取值要明顯不同。
首先,要解決三個(gè)問(wèn)題
(1)“差”記錄與“好”記錄有什么區(qū)別?
(2)理想的“好”記錄看起來(lái)是什么樣子的?
(3)如何度量與理想對(duì)象之間的距離?
實(shí)現(xiàn)數(shù)據(jù)挖掘模型的一個(gè)簡(jiǎn)單方法就是查詢表。表查詢模型思想就是:相似的人所作出的反應(yīng)也相似。對(duì)一個(gè)新觀測(cè)值的評(píng)分涉及兩個(gè)步驟。一、為觀測(cè)值指定一個(gè)特定的標(biāo)簽或主鍵。主鍵對(duì)應(yīng)于查詢表中的一個(gè)單元格。二、被分配到某一個(gè)單元格的所有記錄都會(huì)有一個(gè)得分,該分值在模型訓(xùn)練時(shí)就被賦予該單元格。
分配主鍵的方式有多種。決策樹(shù)模型適用了規(guī)則集將觀測(cè)值分配到特定的葉節(jié)點(diǎn),葉節(jié)點(diǎn)的ID就可以作為一個(gè)可用于查詢得分的主鍵。聚類技術(shù)為記錄指定標(biāo)簽,這里的聚類標(biāo)簽就可以作為查詢主鍵。
構(gòu)建查詢表,一、為查詢表選擇輸入變量。將訓(xùn)練集中的每條記錄精確地分配到該表中的一個(gè)單元格中。使用訓(xùn)練集中的統(tǒng)計(jì)數(shù)據(jù)來(lái)刻畫單元格的特征,這些統(tǒng)計(jì)數(shù)據(jù)包括平均值、標(biāo)準(zhǔn)差以及落入該單元格的訓(xùn)練實(shí)例個(gè)數(shù)。在為模型評(píng)分的時(shí)候會(huì)用到這些統(tǒng)計(jì)數(shù)據(jù)。分?jǐn)?shù)可以是數(shù)值型目標(biāo)的平均值,也可以是屬于某一特定類別的比例,或者是單元格中占主導(dǎo)地位的類別。
2.1、選擇維度
每個(gè)維度都應(yīng)該是一個(gè)對(duì)目標(biāo)有影響的變量。理想情況,輸入變量不應(yīng)該彼此相關(guān),實(shí)際上,很難避免之間不相關(guān)。相關(guān)變量的實(shí)際影響是,訓(xùn)練完成后有些單元格僅含有幾個(gè)訓(xùn)練實(shí)例,這會(huì)使得估計(jì)值的置信度偏低。實(shí)際情況可能好點(diǎn),因?yàn)橐u(píng)分的新數(shù)據(jù)在那些單元格中也是稀疏的。
例如:在RFM模型中,有一個(gè)維度是采購(gòu)總數(shù),還有一個(gè)維度是整個(gè)生存期的花費(fèi)。在兩個(gè)變量高度相關(guān),因?yàn)橥ǔG闆r下,額外的購(gòu)買會(huì)創(chuàng)造額外的收入。很少有記錄會(huì)落入到購(gòu)買數(shù)量最大而收入?yún)s很少,或收入很高而采購(gòu)量卻很少的單元格情況。
應(yīng)該避免使用高度相關(guān)的變量作為查詢表的維度,因?yàn)檫@些相關(guān)變量會(huì)導(dǎo)致大量的稀疏的單元格。包含訓(xùn)練樣本過(guò)少的單元格會(huì)產(chǎn)生置信度偏低的目標(biāo)估計(jì)值。
對(duì)維度數(shù)的主要限制是單元格中訓(xùn)練記錄的數(shù)量。在維度數(shù)與每個(gè)維度上分到的訓(xùn)練樣本數(shù)之間有一個(gè)權(quán)衡。使用較少的維度,可以在每一個(gè)維度上進(jìn)行更加精細(xì)的劃分。在實(shí)際處理過(guò)程中,可能會(huì)出現(xiàn)該單元格中什么都沒(méi)有,有的時(shí)候這種情況是確實(shí)存在的。這種異常情況,表中應(yīng)該包含具有默認(rèn)得分的單元格,這樣就可為那些與任意主鍵不匹配的記錄分配得分。典型的默認(rèn)異常單元格得分,就是平均值。
2.2、維度的劃分
在實(shí)際的過(guò)程中,并不需要,每一個(gè)類別劃分一個(gè)維度。維度的分割應(yīng)該依實(shí)而用。對(duì)于一個(gè)維度的合理劃分是按高、中、低劃分,而對(duì)另一個(gè)維度的合理劃分可能是按照百分比來(lái)劃分。有的時(shí)候,根據(jù)業(yè)務(wù)規(guī)則來(lái)定分割點(diǎn),遵循這些特定的分割點(diǎn)劃分記錄可能那個(gè)比等分劃分更有意義。有監(jiān)督的分割,可以用于確保分割的有效性。這個(gè)后面在討論。
2.3、從訓(xùn)練數(shù)據(jù)到得分
維度劃分好以后,在訓(xùn)練集上計(jì)算每個(gè)單元格的得分就簡(jiǎn)單了。對(duì)于數(shù)值型目標(biāo)而言,得分=平均值。對(duì)于類別目標(biāo),每個(gè)類別會(huì)有一個(gè)得分=每個(gè)單元格類標(biāo)簽的比例。這樣對(duì)于每個(gè)類都有一個(gè)概率估計(jì),即待評(píng)分的數(shù)據(jù)記錄屬于該類的概率。
2.4、通過(guò)刪除維度處理稀疏和缺失數(shù)據(jù)
有些單元格沒(méi)有分配到足夠多的數(shù)據(jù),這會(huì)導(dǎo)致目標(biāo)估計(jì)值的置信度較低。對(duì)于這類單元格該怎么辦?一、減少每個(gè)維度上的劃分?jǐn)?shù)量。二、減少定義稀疏單元格的維度數(shù)。
例如:構(gòu)建某購(gòu)物網(wǎng)站物品清單價(jià)格的競(jìng)爭(zhēng)力模型?;谇鍐问煜じ?,點(diǎn)擊吸引力的分析考慮四個(gè)維度:
產(chǎn)品
地域
供應(yīng)商類型
星期幾
對(duì)于一些比較受歡迎的產(chǎn)品,使用這四個(gè)維度是有道理的。而對(duì)于不受歡迎的商品,沒(méi)有足夠多的清單來(lái)支持所有維度,所以要丟棄一些維度。對(duì)于一些產(chǎn)品,放棄星期幾這一維度就OK。對(duì)于已協(xié)商產(chǎn)品,只是基于三個(gè)維度而不是基于四個(gè)維度之間的比較。對(duì)于一些產(chǎn)品,甚至只留下一個(gè)維度,對(duì)于這類產(chǎn)品,要做的就是持續(xù)刪除維度并合并單元格,直到每個(gè)單元格含有足夠的多的數(shù)據(jù)。
RFM模型,稱為近期、頻率以及貨幣。RFM背后的邏輯很簡(jiǎn)單。近期下單的客戶在不久的將來(lái)再次購(gòu)買的概率可能性非常大。在過(guò)去有許多購(gòu)買記錄的顧客更有可能在不久的將來(lái)再次購(gòu)買,并且在過(guò)去消費(fèi)較多的客戶更有可能在將來(lái)消費(fèi)更多。RFM是一種最大化現(xiàn)有客戶收益的技術(shù),而不是吸引新客戶的技術(shù)。
將客戶分配大RFM單元中,三個(gè)RFM變量需要轉(zhuǎn)化為三個(gè)量化指標(biāo)。近期:距離上次購(gòu)買的天數(shù)或周數(shù),用于得到R的得分。
第二個(gè)變量頻率,通常是以前下單的總數(shù),記錄F的得分。最后一個(gè)是客戶生存期中的總的花費(fèi),該值用于創(chuàng)建M的得分。每個(gè)維度5等分。由于維度之間具有相關(guān)性,如F維和M維,所以各個(gè)單元格的客戶數(shù)量并不相等。要做的就是將所有的數(shù)據(jù)都分配到合適的單元格中,而且每個(gè)單元格要有足夠多的記錄,從而目標(biāo)估計(jì)值具有一個(gè)可以接受的置信度。
3.1、RFM單元格轉(zhuǎn)移
對(duì)于每個(gè)營(yíng)銷活動(dòng),客戶都會(huì)在RFM單元格之間轉(zhuǎn)移。那些做出響應(yīng)的客戶對(duì)增加其消費(fèi)頻率和消費(fèi)總額,并且會(huì)減少距上一次購(gòu)買的時(shí)間。這些新的取值通常都會(huì)遷移到單元格中。沒(méi)有響應(yīng)的客戶也可能因距上一次購(gòu)買時(shí)間的增加而轉(zhuǎn)移到新的單元格。其實(shí)這就是定期的數(shù)據(jù)更新,模型更新。數(shù)據(jù)的遷移,會(huì)導(dǎo)致原來(lái)的期望的變化,在數(shù)據(jù)單元格遷移過(guò)程中,要不斷的了解客戶的需求,及時(shí)的更改數(shù)據(jù)。
3.2、RFM和增量響應(yīng)建模
增量響應(yīng)建模的目標(biāo)是識(shí)別那些容易被說(shuō)服的潛在客戶——受營(yíng)銷影響最大的人。RFM可以看成是對(duì)客戶營(yíng)銷活動(dòng)響應(yīng)能力的預(yù)測(cè)。在定義好的RFM單元格之后,需要為每個(gè)單元格分配成員,要么是接收營(yíng)銷信息的測(cè)試組成員,要么就是不接受該信息的對(duì)照組成員?;跍y(cè)試組和對(duì)照組兩個(gè)分組之間的響應(yīng)率之差決定了營(yíng)銷活動(dòng)對(duì)于發(fā)現(xiàn)潛在客戶的能力。對(duì)于測(cè)試組和對(duì)照組之間的響應(yīng)率差異最大的單元格,營(yíng)銷獲得產(chǎn)生的影響也是最大的。但這些單元格的響應(yīng)率卻未必是最大的。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03