數(shù)據(jù)進(jìn)行分析并利用各種數(shù)據(jù)挖掘技術(shù)和方法選擇合適的模型描述
電信資費(fèi)套餐是電信運(yùn)營商進(jìn)行客戶關(guān)系管理的手段,能使客戶受惠并提高運(yùn)營商收益。使用數(shù)據(jù)挖掘技術(shù)可以制定資費(fèi)套餐。首先介紹了數(shù)據(jù)挖掘的流程,并以外來務(wù)工人群為例進(jìn)行了具體解釋。然后,提出了運(yùn)營商收益模型,可用來驗(yàn)證基于數(shù)據(jù)挖掘技術(shù)的資費(fèi)套餐的有效性。最后,按照實(shí)際例子給出了具體的資費(fèi)套餐設(shè)計(jì)和收益模型驗(yàn)證。
Gartner Group的一次高級技術(shù)調(diào)查將數(shù)據(jù)挖掘和人工智能列為“未來三到五年內(nèi)將對工業(yè)產(chǎn)生深遠(yuǎn)影響的五大關(guān)鍵技術(shù)”之首,并且還將并行處理體系和數(shù)據(jù)挖掘列為 未來五年內(nèi)投資焦點(diǎn)的十大新興技術(shù)前兩位。根據(jù)Gartner的HPC研究表明,“隨著數(shù)據(jù)捕獲、傳輸和存儲技術(shù)的快速發(fā)展,用戶將更多地需要采用新技術(shù)來挖掘市場價(jià)值,采用更為廣闊的并行處理系統(tǒng)來創(chuàng)建新的商業(yè)增長點(diǎn)。”數(shù)據(jù)挖掘技術(shù)將在未來的數(shù)據(jù)計(jì)算中扮演越來越重要的角色[1]。
通信企業(yè)保存著客戶的相關(guān)信息,如呼叫及計(jì)費(fèi)等大量的數(shù)據(jù),這些業(yè)務(wù)數(shù)據(jù)雖看似普通,卻包含了客戶管理方面的珍貴信息。數(shù)據(jù)挖掘技術(shù)與海量數(shù)據(jù)有著密不可分 的關(guān)系,強(qiáng)大的數(shù)學(xué)算法使其能夠根據(jù)這些數(shù)據(jù)建立有關(guān)客戶管理的預(yù)測模型,從而分析出客戶相關(guān)信息并采取有效措施服務(wù)各類客戶。
數(shù)據(jù)挖掘(DM:Data Mining)可以簡單地描述為一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程。這些模型和關(guān)系可以用來做出預(yù)測,可以按企業(yè)既定的業(yè)務(wù)目標(biāo)對大量企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的規(guī)律性或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。作為一種先進(jìn)的數(shù)據(jù)信息處理技術(shù),數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)有著本質(zhì)區(qū)別:數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識,是一個(gè)完整的過程。該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的、可實(shí)用的信息,并使用這些信息做出決策或豐富知識。
電 信資費(fèi)套餐是電信運(yùn)營商針對不同客戶群體提供不同資費(fèi)服務(wù)的手段。推出合理的資費(fèi)套餐既使老客戶受惠,又吸引了新客戶,是中國電信運(yùn)營商從最初的“一刀 切”資費(fèi)向科學(xué)地運(yùn)用客戶關(guān)系管理理論[3]提供服務(wù)轉(zhuǎn)變的標(biāo)志。資費(fèi)套餐具有兩方面作用,一方面降低了移動通信的運(yùn)營成本,另一方面可以滿足不同客戶群 體尤其是弱勢客戶群體的需要??茖W(xué)的資費(fèi)套餐能夠在滿足不同群體對通信服務(wù)的多樣性需求的同時(shí),最大化電信運(yùn)營商的收益,對電信運(yùn)營商至關(guān)重要。因此,文 章通過研究基于客戶數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)來制定最優(yōu)的資費(fèi)套餐。
文章選擇電信運(yùn)營商的計(jì)費(fèi)系統(tǒng) 數(shù)據(jù)庫作為數(shù)據(jù)挖據(jù)的對象,也就是文章所選擇的數(shù)據(jù)倉庫。目前電信運(yùn)營商都具有業(yè)務(wù)營運(yùn)系統(tǒng)、業(yè)務(wù)受理網(wǎng)站、客戶服務(wù)呼叫中心等 BOSS(Business & Operation Support System)系統(tǒng),也擁有許多成熟的數(shù)據(jù)庫應(yīng)用系統(tǒng)。其中的業(yè)務(wù)營運(yùn)系統(tǒng)也就是計(jì)費(fèi)系統(tǒng),擁有所有客戶的基本資料、 呼叫清單、賬單、聯(lián)系歷史記錄等海量復(fù)雜的行為數(shù)據(jù)。可以將這些數(shù)據(jù)集中起來,建立一個(gè)整合的、結(jié)構(gòu)化的數(shù)據(jù)模型,在此基礎(chǔ)上對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、抽象化、 規(guī)范化分類和分析。通過數(shù)據(jù)倉庫接口,對數(shù)據(jù)倉庫中的客戶數(shù)據(jù)進(jìn)行聯(lián)機(jī)分析和數(shù)據(jù)挖掘,為企業(yè)管理層提供及時(shí)的決策信息,為企業(yè)業(yè)務(wù)部門提供有效的反饋數(shù) 據(jù)。因此選擇計(jì)費(fèi)系統(tǒng)數(shù)據(jù)庫作為文章的數(shù)據(jù)倉庫。
(1)定義商業(yè)主題
沒有商業(yè)目標(biāo),數(shù)據(jù)挖掘就會變得漫無目的,要想充分發(fā)揮數(shù)據(jù)挖掘的價(jià)值,必須對自己的目標(biāo)有一個(gè)清晰明確的定義,根據(jù)特定的目標(biāo),選擇和準(zhǔn)備數(shù)據(jù),建立模型。
(2)數(shù)據(jù)處理
這一過程所花的時(shí)間和精力要占整個(gè)數(shù)據(jù)挖掘項(xiàng)目的50%~90%,它包括四個(gè)步驟:①數(shù)據(jù)過濾。這一步驟可以確保收集的數(shù)據(jù)符合分析的需要。②數(shù)據(jù)預(yù)處理。這一步驟應(yīng)確保原始數(shù)據(jù)和輸入標(biāo)準(zhǔn)一致,將分布在不同數(shù)據(jù)庫中的數(shù)據(jù)集成、合并到單一的數(shù)據(jù)庫,并協(xié)調(diào)來自多個(gè)數(shù)據(jù)源的 數(shù)據(jù)在數(shù)值上的差異,使數(shù)據(jù)屬性標(biāo)準(zhǔn)化。③數(shù)據(jù)分析。在建立良好的預(yù)測模型之前,必須對預(yù)處理后的數(shù)據(jù)進(jìn)行初步分析,找出對預(yù)測輸出影響最大的數(shù)據(jù)字段, 并決定是否需要定義導(dǎo)出字段。④數(shù)據(jù)準(zhǔn)備。這是建模前數(shù)據(jù)處理的最后一步,也是數(shù)據(jù)挖掘過程的核心。主要有4個(gè)部分:選擇變量、選擇記錄、創(chuàng)建新變量、轉(zhuǎn) 換變量,使之和選定用來建立模型的算法一致。
(3)建立模型
在多個(gè)可供選擇的模型中找出最佳模型。初始模型可能沒法達(dá)到數(shù)據(jù)挖掘的目的,需要多次反復(fù)。在尋找最優(yōu)模型的過程中,可能要修改正在使用的數(shù)據(jù),甚至修改問題的定義。
(4)評估和解釋模型
這 個(gè)階段是對數(shù)據(jù)挖掘階段構(gòu)建的模型進(jìn)行比較和評估,生成一個(gè)相對最優(yōu)模型,并對此模型用業(yè)務(wù)語言加以解釋。模型驗(yàn)證的標(biāo)準(zhǔn)方法是從預(yù)處理數(shù)據(jù)中隨機(jī)抽取兩 個(gè)樣本,一個(gè)校準(zhǔn)樣本用于構(gòu)建模型,另一個(gè)樣本用于驗(yàn)證校準(zhǔn)樣本產(chǎn)生的模型。通常一個(gè)好的模型運(yùn)用到驗(yàn)證樣本中能得到較好的效果,如果效果很差,就需要重 新構(gòu)建模型。
(5)運(yùn)用和鞏固模型
對模型在實(shí)際應(yīng)用中的表現(xiàn)進(jìn)行監(jiān)控,將數(shù)據(jù)挖掘的結(jié)果同運(yùn)營市場反饋緊密聯(lián)系起來。如果模型表現(xiàn)不好,應(yīng)實(shí)時(shí)適應(yīng)市場調(diào)整挖掘模型,對模型作進(jìn)一步的考察和修正,以反映業(yè)務(wù)運(yùn)作規(guī)律的變化。
(1)研究目標(biāo)
為 明確研究的問題,需要對研究目標(biāo)進(jìn)行定義,明確商業(yè)目的。目標(biāo)是推出適合外來務(wù)工客戶群的長途通話資費(fèi)套餐,可以描述為:不同客戶群對通信業(yè)務(wù)的需要不一 樣,消費(fèi)能力也不同。運(yùn)營商需要按照不同客戶群推出不同的資費(fèi)套餐,以對不同客戶群提供最優(yōu)惠的資費(fèi)來進(jìn)行客戶關(guān)系管理。推出合理的資費(fèi)套餐,對客戶而 言,對使用頻率最多的業(yè)務(wù)降低了資費(fèi),也就是享受了優(yōu)惠;對運(yùn)營商而言,對不同客戶群提供資費(fèi)優(yōu)惠吸引了新老客戶,是客戶關(guān)系管理(CRM)的良好手段。 此外,由于針對不同客戶群對不同業(yè)務(wù)設(shè)定不同的資費(fèi),并沒有降低業(yè)務(wù)的平均收益,反而會由此吸引更多的新客戶而增加總收益。
(2)數(shù)據(jù)處理
對 中國聯(lián)通某分公司的計(jì)費(fèi)系統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理,提取與所研究目標(biāo)相關(guān)的數(shù)據(jù)。首先對客戶按照月消費(fèi)額度、之前選擇套餐、籍貫等信息進(jìn)行分類,分別研 究;然后分析每個(gè)客戶群體在通話時(shí)間、業(yè)務(wù)選擇等方面的區(qū)別。例如,在計(jì)費(fèi)系統(tǒng)數(shù)據(jù)庫中可以提取出客戶的基本通話費(fèi)、漫游通話費(fèi)、長途費(fèi)、漫游長途費(fèi)、短 信量、彩e、如意信箱等詳細(xì)數(shù)據(jù),然后按照分層概念等這些對數(shù)據(jù)進(jìn)行分析,找出對預(yù)測輸出影響最大的數(shù)據(jù)字段,定義客戶群并提取出不同客戶群的主要數(shù)據(jù)字 段。
以中國聯(lián)通某分公司所覆蓋的地區(qū)為例,對其計(jì)費(fèi)系統(tǒng)數(shù)據(jù)庫進(jìn)行數(shù)據(jù)處理。根據(jù)用戶數(shù)據(jù)信息,從中隨機(jī)抽取出1萬名外來務(wù)工用戶作為分 析依據(jù)。根據(jù)話費(fèi)支出分析,2006年外來務(wù)工人員每月手機(jī)話費(fèi)平均為45元。從2006年話費(fèi)的月份分布情況分析,用戶在1~3月及5~8月的消費(fèi)大于 其他月份,考慮到春節(jié)因素,排除1~3月,5月話費(fèi)大于100元的用戶數(shù)是11月的1.51倍。從長途通話時(shí)段方面的數(shù)據(jù)分析,外來務(wù)工人員在19時(shí)以后 通話比較頻繁,其中首選時(shí)段為21:00~22:00,其次是19:00-21:00和22:00以后。
(3)建立模型
建立模型是一個(gè)反復(fù)的過程,需要對數(shù)據(jù)進(jìn)行分析并利用各種數(shù)據(jù)挖掘技術(shù)和方法選擇合適的模型描述、表示數(shù)據(jù),并得出規(guī)律。模型建立與調(diào)整是數(shù)據(jù)挖掘過程中的 核心部分,通常由數(shù)據(jù)分析專家完成。需要指出的是,不同的商業(yè)問題和不同的數(shù)據(jù)分布屬性會影響模型建立與調(diào)整的策略,而且在建模過程中還會使用多種近似算 法來簡化模型的優(yōu)化過程。因此還需要業(yè)務(wù)專家參與調(diào)整策略的制定,以避免不適當(dāng)?shù)膬?yōu)化造成業(yè)務(wù)信息丟失。
(4)模型的解釋與運(yùn)用
根 據(jù)以上分析可以得出對研究問題的簡單結(jié)論:由上述步驟的模型可以分析出不同客戶群對不同業(yè)務(wù)的使用頻率和消費(fèi)能力,根據(jù)數(shù)據(jù)挖掘模型的結(jié)果來制定最優(yōu)的資 費(fèi)套餐。例如,根據(jù)某地區(qū)外來務(wù)工人員的通話數(shù)據(jù),利用模型挖掘出信息后,制定資費(fèi)套餐的原則就為降低17:00~20:00的長途通話資費(fèi),同時(shí)設(shè)定月 消費(fèi)額度或提高其他時(shí)段長途資費(fèi)作為補(bǔ)償。通過對模型做出合理的業(yè)務(wù)解釋,可以找出一些潛在的規(guī)律,用于指導(dǎo)業(yè)務(wù)行為。反過來,通過業(yè)務(wù)解釋也能證明數(shù)學(xué) 模型的合理性和有效性。
3、套餐設(shè)定后的收益分析
從運(yùn)營商的角度來說,在針對不同客戶群推出不同優(yōu)惠資費(fèi)套餐的同時(shí)要保 證或提高運(yùn)營商的商業(yè)收益。本部分通過數(shù)學(xué)建模的方式提出了套餐變化前后的商業(yè)運(yùn)營收益模型,此模型可用來驗(yàn)證上述通過數(shù)據(jù)挖掘技術(shù)選擇資費(fèi)套餐方法的有 效性。本部分以中國聯(lián)通某分公司外地務(wù)工人員長途通話時(shí)段為例,介紹了收益變化的建模方式。
3.1 建立收益模型
以外來人員長途通話為例,收益模型為:
這里Sd是運(yùn)營商第d天的話費(fèi)收入,n是使用人數(shù),p(t)是t時(shí)段長途通話概率(t∈[0,24]),f(t)是t時(shí)段資費(fèi),c是平均通話時(shí)間。
為保證新的資費(fèi)套餐能增加運(yùn)營商的收益,因此要滿足
這里Sd是新資費(fèi)套餐下第d天的話費(fèi)收入,T是改定套餐需要支出的費(fèi)用。
3.2 模型舉例
以中國聯(lián)通某分公司為例,選取2006年整年外來務(wù)工人員的長途通話數(shù)據(jù),以分鐘作為時(shí)間間隔單位,對選擇套餐前的客戶數(shù)據(jù)進(jìn)行統(tǒng)計(jì)模型假設(shè)。以長途通話時(shí)段為例,發(fā)現(xiàn)長途通話集中在晚上,并呈現(xiàn)尖峰狀的分布圖。因此為了簡化模型,可只對公司計(jì)費(fèi)系統(tǒng)數(shù)據(jù)庫中17~24時(shí)段長途通話的數(shù)據(jù)進(jìn)行模型擬合,結(jié)果見圖1。
圖1 外地務(wù)工人員長途通話時(shí)段統(tǒng)計(jì)分布圖
由圖1可以發(fā)現(xiàn),使用最大似然估計(jì)(MLE)擬合出來的拉普拉斯分布對實(shí)際數(shù)據(jù)的擬合程度更高。為了定量驗(yàn)證拉普拉斯分布的正確性,這里選擇檢驗(yàn)[5]來比較驗(yàn)證MLE的拉普拉斯分布和高斯分布對實(shí)際數(shù)據(jù)的擬合程度。
拉普拉斯分布與參數(shù)的MLE公式為:
高斯分布與參數(shù)的MLE公式為:
這里,k是樣本分塊的數(shù)目,ni是第i塊中含有的樣本數(shù)目,pi是理論分布一個(gè)樣本屬于第i塊的概率,n是樣本總數(shù)。
對外來務(wù)工人員長途通話時(shí)段高斯分布和拉普拉斯分布擬合度x2檢驗(yàn)結(jié)果分別為41 632和31 984(k=28)。
由上述檢驗(yàn)結(jié)果可以發(fā)現(xiàn),拉普拉斯分布能更好的擬合實(shí)際數(shù)據(jù),因此文章選擇拉普拉斯分布作為17~24時(shí)段長途通話的統(tǒng)計(jì)分布。由于白天時(shí)段的通話次數(shù)少,概率分布可簡化為階梯時(shí)段的均勻分布。
按照上節(jié)的收益模型,對計(jì)費(fèi)系統(tǒng)數(shù)據(jù)庫的外來務(wù)工人員長途通話時(shí)段數(shù)據(jù)項(xiàng)進(jìn)行數(shù)據(jù)挖掘后,建立的新資費(fèi)套餐需要滿足以下方程:
這里n是應(yīng)用新的套餐后估計(jì)的使用人數(shù),也就是在原來客戶人數(shù)n的基礎(chǔ)上+估計(jì)新增客戶人數(shù)-估計(jì)丟失客戶人數(shù),A1,A2,A3是所屬時(shí)段的通話次數(shù)均值。
以 中國聯(lián)通某分公司為例,原來的套餐資費(fèi)是長途通話固定為0.3元/分鐘。應(yīng)用上述數(shù)據(jù)挖掘技術(shù),以外來務(wù)工群體通話數(shù)據(jù)為基礎(chǔ),建立了新的長途通話資費(fèi)套 餐。新的套餐為:8:00~21:00的長途通話資費(fèi)為0.4元/分鐘,21:00~8:00為0.2元/分鐘。假設(shè)外來務(wù)工群體的通話習(xí)慣不變,也就是 通話概率符合上述長期統(tǒng)計(jì)數(shù)據(jù),假設(shè)平均通話時(shí)間為2分鐘,且總?cè)藬?shù)不變,則應(yīng)用新套餐后每天增加13 269元的收益。假設(shè)修改套餐的成本平均到每天為1 000元,則每天增加收益為12 269元。因此,按照數(shù)據(jù)挖掘技術(shù)制定的新套餐不僅能給大部分客戶提供優(yōu)惠服務(wù)、改善客戶關(guān)系,而且能提高運(yùn)營商的收益。
4、結(jié)語
數(shù)據(jù)挖掘技術(shù)在信息時(shí)代的客戶關(guān)系管理中有著廣泛而深入的應(yīng)用,這一研究領(lǐng)域體現(xiàn)著越來越大的研究價(jià)值。隨著數(shù)據(jù)挖掘技術(shù)的進(jìn)一步發(fā)展和深化,必然會帶給CRM更為廣泛的應(yīng)用前景和市場價(jià)值。這種價(jià)值對增強(qiáng)中國企業(yè)的核心競爭力將會發(fā)揮越來越大的作用。
文章從通信行業(yè)的實(shí)際情況出發(fā),研究如何科學(xué)地使用數(shù)據(jù)挖掘技術(shù)來制定針對不同客戶群的資費(fèi)套餐,并以中國聯(lián)通某分公司對外來務(wù)工人員制定長途通話套餐為例 進(jìn)行了研究。最后,提出了一個(gè)收益模型來驗(yàn)證不同資費(fèi)套餐下運(yùn)營商的收益變化,以驗(yàn)證使用數(shù)據(jù)挖掘技術(shù)制定的套餐能否提高運(yùn)營商的收益。
CDA數(shù)據(jù)分析師考試相關(guān)入口一覽(建議收藏):
? 想報(bào)名CDA認(rèn)證考試,點(diǎn)擊>>>
“CDA報(bào)名”
了解CDA考試詳情;
? 想學(xué)習(xí)CDA考試教材,點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫,點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情;
? 想了解CDA考試含金量,點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情;