
根據(jù)美國數(shù)據(jù)庫營銷研究所Arthur Hughes的研究,客戶數(shù)據(jù)庫中有三個(gè)神奇的要素,這三個(gè)要素構(gòu)成了數(shù)據(jù)分析最好的指標(biāo):最近一次消費(fèi)(Recency)、消費(fèi)頻率(Frequency)、消費(fèi)金額(Monetary)。
RFM模型:R(Recency)表示客戶最近一次購買的時(shí)間有多遠(yuǎn),F(xiàn)(Frequency)表示客戶在最近一段時(shí)間內(nèi)購買的次數(shù),M (Monetary)表示客戶在最近一段時(shí)間內(nèi)購買的金額。一般原始數(shù)據(jù)為3個(gè)字段:客戶ID、購買時(shí)間(日期格式)、購買金額,用數(shù)據(jù)挖掘軟件處理,加權(quán)(考慮權(quán)重)得到RFM得分,進(jìn)而可以進(jìn)行客戶細(xì)分,客戶等級(jí)分類,Customer Level Value得分排序等,實(shí)現(xiàn)數(shù)據(jù)庫營銷!
這里再次借用@數(shù)據(jù)挖掘與數(shù)據(jù)分析的RFM客戶RFM分類圖。
本次分析用的的軟件工具:IBM SPSS Statistics 19,IBM SPSS Modeler14.1,Tableau7.0,EXCEL和PPT
因?yàn)镽FM分析僅是項(xiàng)目的一個(gè)小部分分析,但也面臨海量數(shù)據(jù)的處理能力,這一點(diǎn)對(duì)計(jì)算機(jī)的內(nèi)存和硬盤容量都有要求。
先說說對(duì)海量數(shù)據(jù)挖掘和數(shù)據(jù)處理的一點(diǎn)體會(huì):(僅指?jìng)€(gè)人電腦操作平臺(tái)而言)
一般我們拿到的數(shù)據(jù)都是壓縮格式的文本文件,需要解壓縮,都在G字節(jié)以上存儲(chǔ)單位,一般最好在外置電源移動(dòng)硬盤存儲(chǔ);如果客戶不告知,你大概是不知道有多少記錄和字段的;
Modeler挖掘軟件默認(rèn)安裝一般都需要與C盤進(jìn)行數(shù)據(jù)交換,至少需要100G空間預(yù)留,否則讀取數(shù)據(jù)過程中將造成空間不足
海量數(shù)據(jù)處理要有耐心,等待30分鐘以上運(yùn)行出結(jié)果是常有的現(xiàn)象,特別是在進(jìn)行抽樣、合并數(shù)據(jù)、數(shù)據(jù)重構(gòu)、神經(jīng)網(wǎng)絡(luò)建模過程中,要有韌性,否則差一分鐘中斷就悲劇了,呵呵;
數(shù)據(jù)挖掘的準(zhǔn)備階段和數(shù)據(jù)預(yù)處理時(shí)間占整個(gè)項(xiàng)目的70%,我這里說如果是超大數(shù)據(jù)集可能時(shí)間要占到90%以上。一方面是處理費(fèi)時(shí),一方面可能就只能這臺(tái)電腦處理,不能幾臺(tái)電腦同時(shí)操作;
多帶來不同,這是我一直強(qiáng)調(diào)的體驗(yàn)。所以海量數(shù)據(jù)需要用到抽樣技術(shù),用來查看數(shù)據(jù)和預(yù)操作,記?。河袝r(shí)候即使樣本數(shù)據(jù)正常,也可能全部數(shù)據(jù)有問題。建議數(shù)據(jù)分隔符采用“|”存儲(chǔ);
如何強(qiáng)調(diào)一個(gè)數(shù)據(jù)挖掘項(xiàng)目和挖掘工程師對(duì)行業(yè)的理解和業(yè)務(wù)的洞察都不為過,好的數(shù)據(jù)挖掘一定是市場(chǎng)導(dǎo)向的,當(dāng)然也需要IT人員與市場(chǎng)人員有好的溝通機(jī)制;
數(shù)據(jù)挖掘會(huì)面臨數(shù)據(jù)字典和語義層含義理解,在MetaData元數(shù)據(jù)管理和理解上下功夫會(huì)事半功倍,否則等數(shù)據(jù)重構(gòu)完成發(fā)現(xiàn)問題又要推倒重來,悲劇;
每次海量大數(shù)據(jù)挖掘工作時(shí)都是我上微博最多的時(shí)侯,它真的沒我算的快,只好上微博等它,哈哈!
傳統(tǒng)RFM分析轉(zhuǎn)換為電信業(yè)務(wù)RFM分析主要思考:
這里的RFM模型和進(jìn)而細(xì)分客戶僅是數(shù)據(jù)挖掘項(xiàng)目的一個(gè)小部分,假定我們拿到一個(gè)月的客戶充值行為數(shù)據(jù)集(實(shí)際上有六個(gè)月的數(shù)據(jù)),我們們先用IBM Modeler軟件構(gòu)建一個(gè)分析流:
數(shù)據(jù)結(jié)構(gòu)完全滿足RFM分析要求,一個(gè)月的數(shù)據(jù)就有3千萬條交易記錄!
我們先用挖掘工具的RFM模型的RFM匯總節(jié)點(diǎn)和RFM分析節(jié)點(diǎn)產(chǎn)生R(Recency)、F(Frequency)、M (Monetary);
接著我們采用RFM分析節(jié)點(diǎn)就完成了RFM模型基礎(chǔ)數(shù)據(jù)重構(gòu)和整理;
現(xiàn)在我們得到了RFM模型的Recency_Score、Frequency_Score、Monetary_Score和RFM_Score;這里對(duì)RFM得分進(jìn)行了五等分切割,采用100、10、1加權(quán)得到RFM得分表明了125個(gè)RFM魔方塊。
傳統(tǒng)的RFM模型到此也就完成了,但125個(gè)細(xì)分市場(chǎng)太多啦無法針對(duì)性營銷也需要識(shí)別客戶特征和行為,有必要進(jìn)一步細(xì)分客戶群;
另外:RFM模型其實(shí)僅僅是一種數(shù)據(jù)處理方法,采用數(shù)據(jù)重構(gòu)技術(shù)同樣可以完成,只是這里固化了RFM模塊更簡(jiǎn)單直接,但我們可以采用RFM構(gòu)建數(shù)據(jù)的方式不為RFM也可用該模塊進(jìn)行數(shù)據(jù)重構(gòu)。
我們可以將得到的數(shù)據(jù)導(dǎo)入到Tableau軟件進(jìn)行描述性分析:(數(shù)據(jù)挖掘軟件在描述性和制表輸出方面非常弱智,哈哈)
我們也可以進(jìn)行不同塊的對(duì)比分析:均值分析、塊類別分析等等
這時(shí)候我們就可以看出Tableau可視化工具的方便性
接下來,我們繼續(xù)采用挖掘工具對(duì)R、F、M三個(gè)字段進(jìn)行聚類分析,聚類分析主要采用:Kohonen、K-means和Two-step算法:
這時(shí)候我們要考慮是直接用R(Recency)、F(Frequency)、M (Monetary)三個(gè)變量還是要進(jìn)行變換,因?yàn)镽、F、M三個(gè)字段的測(cè)量尺度不同最好對(duì)三個(gè)變量進(jìn)行標(biāo)準(zhǔn)化,例如:Z得分(實(shí)際情況可以選擇線性插值法,比較法,對(duì)標(biāo)法等標(biāo)準(zhǔn)化)!另外一個(gè)考慮:就是R、F、M三個(gè)指標(biāo)的權(quán)重該如何考慮,在現(xiàn)實(shí)營銷中這三個(gè)指標(biāo)重要性顯然不同!
有資料研究表明:對(duì)RFM各變量的指標(biāo)權(quán)重問題,Hughes,Arthur認(rèn)為RFM在衡量一個(gè)問題上的權(quán)重是一致的,因而并沒有給予不同的劃分。而Stone,Bob通過對(duì)信用卡的實(shí)證分析,認(rèn)為各個(gè)指標(biāo)的權(quán)重并不相同,應(yīng)該給予頻度最高,近度次之,值度最低的權(quán)重;
這里我們采用加權(quán)方法:WR=2 WF=3 WM=5的簡(jiǎn)單加權(quán)法(實(shí)際情況需要專家或營銷人員測(cè)定);具體選擇哪種聚類方法和聚類數(shù)需要反復(fù)測(cè)試和評(píng)估,同時(shí)也要比較三種方法哪種方式更理想!
下圖是采用快速聚類的結(jié)果:
以及kohonen神經(jīng)算法的聚類結(jié)果:
接下來我們要識(shí)別聚類結(jié)果的意義和類分析:這里我們可以采用C5.0規(guī)則來識(shí)別不同聚類的特征:
其中Two-step兩階段聚類特征圖:
采用評(píng)估分析節(jié)點(diǎn)對(duì)C5.0規(guī)則的模型識(shí)別能力進(jìn)行判斷:
結(jié)果還不錯(cuò),我們可以分別選擇三種聚類方法,或者選擇一種更易解釋的聚類結(jié)果,這里選擇Kohonen的聚類結(jié)果將聚類字段寫入數(shù)據(jù)集后,為方便我們將數(shù)據(jù)導(dǎo)入SPSS軟件進(jìn)行均值分析和輸出到Excel軟件!
輸出結(jié)果后將數(shù)據(jù)導(dǎo)入Excel,將R、F、M三個(gè)字段分類與該字段的均值進(jìn)行比較,利用Excel軟件的條件格式給出與均值比較的趨勢(shì)!結(jié)合RFM模型魔方塊的分類識(shí)別客戶類型:通過RFM分析將客戶群體劃分成重要保持客戶、重要發(fā)展客戶、重要挽留客戶、一般重要客戶、一般客戶、無價(jià)值客戶等六個(gè)級(jí)別;(有可能某個(gè)級(jí)別不存在);
另外一個(gè)考慮是針對(duì)R、F、M三個(gè)指標(biāo)的標(biāo)準(zhǔn)化得分按聚類結(jié)果進(jìn)行加權(quán)計(jì)算,然后進(jìn)行綜合得分排名,識(shí)別各個(gè)類別的客戶價(jià)值水平;
至此如果我們通過對(duì)RFM模型分析和進(jìn)行的客戶細(xì)分滿意的話,可能分析就此結(jié)束!如果我們還有客戶背景資料信息庫,可以將聚類結(jié)果和RFM得分作為自變量進(jìn)行其他數(shù)據(jù)挖掘建模工作!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場(chǎng)景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實(shí)際問題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價(jià)值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案 ...
2025-09-09