
消費者數(shù)據(jù)挖掘系統(tǒng)建立的幾個問題_數(shù)據(jù)分析師培訓(xùn)
隨著國內(nèi)金融和保險業(yè)的改革和發(fā)展,特別是中國加入WTO以后,為了提高自身的競爭力,國內(nèi)金融保險公司都開始加速建立和完善自己的管理系統(tǒng)。這是適應(yīng)競爭的需要,也是消費者日益成熟起來的必然結(jié)果。市場機(jī)制一方面給了消費者選擇的權(quán)利,消費者有了選擇和誰交易的自由;另一方面,市場機(jī)制也給了公司發(fā)展的機(jī)會和挑戰(zhàn),誰的管理水平高、合理、誰靈活,誰就能得到不斷的發(fā)展。
金融和保險業(yè)屬于服務(wù)性行業(yè),如何為消費者提供最好的服務(wù)是公司每天都必須面臨的問題。而提供怎樣的服務(wù)首先需要知道消費者的需求是什么。這是一個非常復(fù)雜的問題,這需要有合理的、訓(xùn)練有素的專業(yè)人員,也要求公司要有有效的計算機(jī)系統(tǒng),這兩者缺一不可。
說起來容易,做起來難。在成百上千萬可能的顧客里面如何找出這些利潤高的顧客呢? 這就是為什么要有一個數(shù)據(jù)挖掘的系統(tǒng)。下面作者就用自己給美國長途電話公司 Bell Atlantic建立數(shù)據(jù)挖掘系統(tǒng)的案例來簡單地介紹如何做數(shù)據(jù)挖掘,并且探究了一下如何建立一個對消費者的數(shù)據(jù)進(jìn)行挖掘的計算機(jī)系統(tǒng)以及相關(guān)的人員配置和其他技術(shù)問題。
本文作者陳宏是北京始信峰網(wǎng)絡(luò)技術(shù)有限公司董事兼高級咨詢顧問,畢業(yè)于德洲理工大學(xué)金融系, 專業(yè)是投資和計算金融。先后在波士頓的PPR 債券研究公司和普林斯頓的CBD 信用卡咨詢公司工作,主要從事信用管理、債券估算和保險精算的咨詢工作, 包括數(shù)量模型的建立, 數(shù)據(jù)挖掘系統(tǒng)和信用管理系統(tǒng)的咨詢和實施。咨詢的客戶包括 CitiBank, Kirkland&Ellis (美國最大的律師事務(wù)所), DaimlerChrysler。并于2000年建立自己的咨詢公司, 進(jìn)行信用管理和CRM管理方面的咨詢。
好米緣何做成壞粥?
在上世紀(jì)90年代初,美國電報電話公司大揮手筆,隆重地推出了自己的信用卡――宇宙信用卡。宇宙卡的出現(xiàn)在美國信用卡歷史上可以說是一個里程碑。首先,宇宙卡是有史以來第一個不收服務(wù)年費的信用卡。在此之前,信用卡的年費是幾乎所有信用卡公司的主要利潤來源之一,大約占總利潤額的5~10%。電報電話公司財大氣粗,第一次進(jìn)入信用卡行業(yè)就大膽地提出免去信用卡服務(wù)年費,這給美國其他信用卡公司帶來很大的競爭壓力。幾年以后,幾乎所有的信用卡公司都不得不宣布取消服務(wù)年費。其次,宇宙卡是第一個把信用卡和電話卡合二為一的卡。把信用卡和電話卡結(jié)合起來在當(dāng)時來說是很大膽的創(chuàng)新。第三,美國電報電話宇宙卡還明確提出,他們的信用卡客戶將會是信用最好的消費者。
宇宙卡推出以后,其推廣速度是前所未有的。因為美國電報電話公司在當(dāng)時是美國唯一一家長途電話公司。在長途電話服務(wù)行業(yè),他們是消費群幾乎包括全美國上億個消費者。美國電報電話公司通過對上億個消費者的數(shù)據(jù)進(jìn)行統(tǒng)計,挖掘出認(rèn)為是最好的客戶,即是信用好、從未拖欠過電話費的用戶。然后,他們就開始有針對性地向這些消費者推銷自己的宇宙卡。如此龐大的客戶群,再加上宇宙卡本身不需要年費、兩卡合二為一的優(yōu)勢,使宇宙卡有如野火燎原地快速發(fā)展。
與此同時,幾乎所有其他的信用卡公司卻惶惶不可終日,哀嘆自己的競爭力太弱。大家預(yù)測,美國電報電話公司將會在短短的幾年內(nèi)成為全美最大的信用卡公司。
然而,事實卻讓人大跌眼鏡。幾年以后,美國電報電話公司非但沒有成為最大的信用卡公司,反而連年虧損嚴(yán)重。后來,他們不得不把信用卡部門賣給了另一家信用卡公司,并重新宣布自己的主營業(yè)務(wù)是電話服務(wù),而不是信用卡服務(wù)。在當(dāng)時的美國信用卡業(yè)界沸騰起來了,人們在竊喜之余好生納悶:為什么一個看似很完美的信用卡模式會虧損?而在那個時候的美國,信用卡幾乎是任何一家銀行最大的利潤提供者,平均每年的利潤都在30%左右;而且信用卡的業(yè)務(wù)還不會受經(jīng)濟(jì)周期的影響。把信用卡部門做成虧損是比較少見的。 分析出來的結(jié)論不禁讓人啞然發(fā)笑:這其中最主要的原因竟然是他們的信用卡客戶的信用是太好的緣故。一般來說,信用卡的利潤主要來源于四個方面:利息、未按時付款的罰金、服務(wù)年費和交易服務(wù)費。因為宇宙卡取消了服務(wù)年費,這樣一來美國電報電話公司就只能依靠其他三個利潤來源:利息、罰金和交易服務(wù)費。
問題就出在利息收入和罰金上了。因為美國電報電話公司只向信用特好的客戶推銷宇宙卡,而拒絕給信用稍差的客戶。這樣一來,幾乎只有信用特好的人才能使用宇宙卡。他們認(rèn)為這樣宇宙卡將成為最好的信用卡,可以萬無一失,就等著賺錢了。可是他們沒有怎么也想不到,對他們來說,在取消了服務(wù)年費以后,信用特好的客戶有一個致命的特點:這些客戶每個月都會按時付清利息,這樣信用卡公司收不到利息,同時還不可能得到拖欠款的罰金。
四個利潤來源,到頭來美國電報電話公司只剩下了一個,即是用卡的交易服務(wù)費,只有交易金額的3%左右。這樣,他們的虧損就顯而易見了。
數(shù)據(jù)挖掘系統(tǒng)至關(guān)重要
其實說來說去,美國電報電話公司虧損的最根本原因,是數(shù)據(jù)挖掘出了問題,沒有定位好到底是什么樣的消費者能給帶來利潤。信用好的顧客并不等于是利潤高的顧客。美國電報電話公司錯誤地將兩者等同起來。在這個錯誤的商業(yè)定義的指導(dǎo)下,隨后進(jìn)行的所有數(shù)據(jù)挖掘、顧客推銷都出了錯。最后,信用不好、但利潤高的顧客卻放棄了宇宙卡的申請,因為他們認(rèn)為,即使申請了也他們得不到卡。
出現(xiàn)這種錯誤是因為美國電報電話公司沒有在信用卡行業(yè)的經(jīng)驗,對所有可能出現(xiàn)的問題只是想當(dāng)然就做出結(jié)論。而事實是,利潤最高的顧客是那些收入好、花錢不仔細(xì)、生活中比較馬虎的。這些人經(jīng)常忘記付款日期,這樣信用卡公司就不但能從他們身上賺取罰金,又能賺取利息。
美國電報電話公司沒能從客戶數(shù)據(jù)中挖掘出正確的關(guān)系,是決策失敗的根本。數(shù)據(jù)挖掘系統(tǒng)是為增加公司的效益服務(wù)的。每個公司,尤其是金融保險公司,都會有很多的客戶數(shù)據(jù)。好的數(shù)據(jù)挖掘系統(tǒng)能從這些數(shù)據(jù)里面發(fā)現(xiàn)別人沒有發(fā)現(xiàn)的關(guān)系,從而幫助增加公司的效益。 圖1 不同的追繳電話費的策略 數(shù)據(jù)挖掘的過程大致包括數(shù)據(jù)樣本的選擇、數(shù)據(jù)的初級分析和建立數(shù)學(xué)/統(tǒng)計模型。這個過程就是用來挖掘和發(fā)現(xiàn)新的有關(guān)顧客和市場的關(guān)系,從而能夠幫助商業(yè)管理人員來做決策。
因此,首先應(yīng)該發(fā)現(xiàn)所面臨和要解決的問題是什么。是為了發(fā)現(xiàn)新的、能帶來利潤的顧客呢?還是為了向現(xiàn)有的顧客推銷新產(chǎn)品?或者是想加快電話費的拖欠款回收?這個看似簡單的問題,實際上是數(shù)據(jù)挖掘的關(guān)鍵。從美國電報電話公司的宇宙卡操作中,我們可以看到正確地回答這個問題并不容易。信用卡公司是最終目的是為了贏利,要平衡風(fēng)險和回報的關(guān)系,信用好并不等于利潤回報就高。舉例來講,美國電報電話信用卡的商業(yè)問題應(yīng)該是如何找到帶來利潤高的顧客。而一個財產(chǎn)保險公司的問題則是如何降低保險的賠償費用?
上面的問題有了明確的定義后,就要開始進(jìn)行初步的數(shù)據(jù)分析,從成百上千的變量里面計算并發(fā)現(xiàn)哪些變量和要解決的問題有關(guān)系。這一步大概就是為什么叫數(shù)據(jù)挖掘了。在分析過程中,很可能需要從現(xiàn)有的數(shù)據(jù)變量里面重新組合出許多新的變量,讓人感覺有點像大海撈針。在這個步驟中,行業(yè)經(jīng)驗和數(shù)據(jù)挖掘經(jīng)驗非常重要。有經(jīng)驗的工作人員可能只需要沒經(jīng)驗的人1/5的時間就將這一步做好,而效果卻往往更好。這要求數(shù)據(jù)挖掘系統(tǒng)的設(shè)置要合理,不合理的設(shè)置會浪費很多時間。 然后,從所發(fā)現(xiàn)的有關(guān)系的變量中建立能幫助解決問題的數(shù)學(xué)/統(tǒng)計模型。建立模型能夠發(fā)現(xiàn)的相關(guān)變量和要解決的商業(yè)問題數(shù)字連起來,發(fā)現(xiàn)一個變量有多少幫助解決問題的可能性。
拿信用卡來講,年齡變量有多少幫助發(fā)現(xiàn)有利潤的顧客的可能性?婚姻情況又有多少可能性?理論上來說,可以建立的模型是無窮無盡的,關(guān)鍵在于怎么區(qū)分什么模型是好的,如何發(fā)現(xiàn)最好的模型。
模型建立過程還要求產(chǎn)生模型的預(yù)測數(shù)據(jù)。沒有預(yù)測數(shù)據(jù),就無從知道在實際應(yīng)用中模型是否符合實際情況。
合理建立數(shù)據(jù)挖掘系統(tǒng)
同樣是美國最大的電話公司之一,Bell Atlantic的數(shù)據(jù)挖掘系統(tǒng)卻是非常成功的,不僅為他們的業(yè)務(wù)開展帶來很大的方便,而且節(jié)省了許多開支。Bell Atlantic的電話服務(wù)目前已經(jīng)覆蓋了美國14個州,擁有商業(yè)電話、住家電話帳戶近億個。
Bell Atlantic 數(shù)據(jù)挖掘系統(tǒng)的首要任務(wù)就是盡快地追收拖欠的電話費,同時盡量減少收債部門的成本。
軟件系統(tǒng)的選擇非常重要。經(jīng)過反復(fù)挑選后,Bell Atlantic采用了SAS統(tǒng)計軟件系統(tǒng)建立數(shù)據(jù)挖掘系統(tǒng),然后在SAS環(huán)境中利用SAS宏程序建立挖掘系統(tǒng)。SAS的專長是進(jìn)行統(tǒng)計計算。它還有許多其他的優(yōu)點:可以讀取大量計算機(jī)系統(tǒng)里的數(shù)據(jù),可以解讀近百種的數(shù)據(jù)模式;計算速度快,能進(jìn)行大數(shù)據(jù)量的計算;它的宏程序建立也比較直接。
圖2 ROC曲線圖
然后是建立SAS格式庫。許多數(shù)據(jù)需要格式化,比如年齡,可以從20到100歲,需要分成不同的組,這都需要利用模式來進(jìn)行數(shù)據(jù)轉(zhuǎn)換。有的數(shù)據(jù)不是連續(xù)變量,比如婚姻狀況(單身/已婚),也需要進(jìn)行一些變換才可以進(jìn)行計算。日期也是需要模式化的,不同計算機(jī)系統(tǒng)記錄日期方法不同,需要把日期轉(zhuǎn)換成一致的方法。在金融保險行業(yè)日期這個變量非常重要,因為很多客戶的行為都記錄在日期里面了。電話公司里記帳、付款的日期也非常重要。
接著,建立SAS的宏程序庫。幾乎所有重要的數(shù)據(jù)挖掘功能都需要利用宏程序來實現(xiàn)。K-S系數(shù)的計算,模型預(yù)測表現(xiàn)的表格產(chǎn)生和報告,幫助做管理決策的ROC曲線,等等。
第一步的數(shù)據(jù)分析,把 Bell Atlantic 覆蓋的14個州分成了6組,商業(yè)帳戶和居民帳戶分開,然后又對不同的帳戶進(jìn)一步第分成了8個類型,前前后后一共建立了近40個不同的追收拖欠電話費的模型。這個項目Bell Atlantic花費了一百多萬美元。
這樣,Bell Atlantic就能計算出有關(guān)客戶的概率可能性,包括客戶從一個月未交電話費到兩個月未交的可能性;客戶從三個月未交電話費到變成壞債的可能性,以及壞債客戶變成死債客戶的可能性。同時,還對追交拖欠電話費用的策略提供線索,確認(rèn)哪些帳戶應(yīng)該進(jìn)行追債活動;哪些帳戶有可能拖欠電話費;并且提供量化的追債策略,對不同的帳戶采用不同的辦法。
這個系統(tǒng)能有效地避免帳戶從拖欠電話費變成呆債壞債,減少死債的出現(xiàn)。減少需要進(jìn)行收債部門的人員數(shù)目,從而降低了成本。在美國的電話公司中,一個拖欠電話費的客戶,用信件來追繳的成本大約是1美元;而通過電話來追繳,平均成本在30美元左右。正確選用信件追繳還是電話追繳,可以節(jié)省大約25美元的成本。采用高強(qiáng)度的追繳比用低強(qiáng)度的追繳多花大約60美元??梢?,數(shù)據(jù)挖掘能起到的經(jīng)濟(jì)效益是非常高的。
如何在中國建數(shù)據(jù)挖掘系統(tǒng)?
建立數(shù)據(jù)挖掘系統(tǒng),首先要考慮資金的問題。SAS 軟件系統(tǒng)的年費根據(jù)計算機(jī)的計算速度不同價格不同,大概從十幾萬人民幣到近百萬人民幣一年。在SAS之上建立的數(shù)據(jù)挖掘系統(tǒng)大約系統(tǒng)本身要50萬人民幣左右,系統(tǒng)的安裝,調(diào)試和人員的培訓(xùn)大約要25萬到50萬人民幣不等。
需要指出的是,SAS 公司也有自己的數(shù)據(jù)挖掘的子系統(tǒng),但是它有一些問題,即是數(shù)據(jù)變換不靈活;也沒有很多報告的功能和產(chǎn)生圖的功能,格式化也不容易;而且價格也不菲。所以有條件的話,數(shù)據(jù)挖掘系統(tǒng)還是專門定制好。
數(shù)據(jù)挖掘系統(tǒng)的人員要求也很重要。數(shù)據(jù)挖掘的人員首先要有良好的統(tǒng)計概念,其次要懂得基本的商業(yè)和行業(yè)概念。選擇怎樣的客戶是決策的關(guān)鍵。就拿信用卡來說,如果嚴(yán)格要求客戶的信用太好,反而像美國電報電話公司一樣,你肯定賺不到錢; 反過來,如果隨便就給人信用,同樣也賺不到錢,因為這樣壞帳呆帳會太多了。
追繳策略樣本
變量 | 軟策略(-1) | 硬策略(+1) |
追加辦法 | 信件 | 電話 |
強(qiáng)度 | 低 | 高 |
頻率 | 一個月一次 | 一周一次 |
鼓勵交費辦法 | 百分之百交費 | 打折扣交費 |
策略 | 對交費的鼓勵辦法 |
.不追繳 | .低(要求百分之百交費) |
.信件 | .中(分期交費) |
.電話員達(dá)電話 | .高(打折交費) |
.呼叫中心自動電話 | |
.以上的組合 | |
追繳的強(qiáng)度 | 客戶所在地區(qū) |
.高 | .城市 |
.中 | .郊區(qū) |
.低 | .邊遠(yuǎn)地區(qū) |
對同意交費的客戶的追繳強(qiáng)度 | 追繳的頻率 |
.低 | .一個月一次 |
.中 | .一個月二次 |
.高 | .一周一次 |
也許有人要問:這和銀行的利息有什么關(guān)系?這里邊關(guān)系到機(jī)會成本的問題,也就是說,如果信用卡公司不把錢給客戶用,而是存到銀行里提取利息,這個利息收入實際上是個機(jī)會成本。
利用ROC曲線,就可以計算出來在什么條件下可以給人信用卡,什么條件下不給。數(shù)據(jù)挖掘的人員至少要看得懂ROC曲線,知道里面的導(dǎo)數(shù)是干什么用的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
在AI滲透率超85%的2025年,企業(yè)生存之戰(zhàn)就是數(shù)據(jù)之戰(zhàn),CDA認(rèn)證已成為決定企業(yè)存續(xù)的生死線!據(jù)麥肯錫全球研究院數(shù)據(jù)顯示,AI驅(qū) ...
2025-07-2035歲焦慮像一把高懸的利刃,裁員潮、晉升無望、技能過時……當(dāng)職場中年危機(jī)與數(shù)字化浪潮正面交鋒,你是否發(fā)現(xiàn): 簡歷投了10 ...
2025-07-20CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘龌蚴窃诼殘稣媾R崗位替代、技能更新、人機(jī)協(xié)作等焦慮的打工人,想要找到一條破解職場焦慮和升職瓶頸的系統(tǒng)化學(xué)習(xí)提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時代的價值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競爭力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價值的橋梁? 在數(shù)據(jù)驅(qū)動決策的時代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細(xì)化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對這樣的場景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時代的通行證? 在數(shù)字化浪潮席卷全球的今天,當(dāng)企業(yè)決策者盯著屏幕上跳動的數(shù)據(jù)曲線尋找增長密碼,當(dāng)科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動業(yè)務(wù)增長的實戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實踐 在 MySQL 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計中,索引是提升查詢性能的核心手段。無論 ...
2025-07-16解析 MySQL Update 語句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫的日常運維與開發(fā)中,開發(fā)者和 DBA 常會 ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14