
一種基于數(shù)據(jù)挖掘的通用CRM系統(tǒng)框架及關(guān)鍵技術(shù)研究
隨著客戶信息量的增加,客戶與公司的關(guān)系變得越來越復(fù)雜,單純操作性的客戶關(guān)系管理CRM(Customer Relationship Management)已難以滿足用戶的需要。在CRM中引入數(shù)據(jù)挖掘技術(shù),增強(qiáng)系統(tǒng)對相關(guān)海量客戶管理信息的有效整理、識別、歸類等功能,使CRM系統(tǒng)在一定程度上具有智能特點(diǎn),已經(jīng)成為當(dāng)前的研究熱點(diǎn)。傳統(tǒng)基于數(shù)據(jù)挖掘的CRM系統(tǒng)集中在對客戶數(shù)據(jù)本身的挖掘上,缺乏進(jìn)一步對這些數(shù)據(jù)的分析處理和優(yōu)化決策的功能,在一定程度上限制了它的推廣作用。
本文在充分分析當(dāng)前CRM的應(yīng)用現(xiàn)狀的基礎(chǔ)上,提出了一種新的基于數(shù)據(jù)挖掘技術(shù)的通用商業(yè)CRM系統(tǒng)框架,針對典型行業(yè)的商業(yè)應(yīng)用特點(diǎn)建立客戶分類準(zhǔn)則和響應(yīng)方式,即客戶商業(yè)應(yīng)用模型。系統(tǒng)通過集成數(shù)據(jù)挖掘、聯(lián)機(jī)數(shù)據(jù)分析(OLAP)技術(shù)以及知識庫技術(shù)形成支持基于客戶商業(yè)模型的客戶響應(yīng),該框架不僅能夠加強(qiáng)用戶對具體商業(yè)應(yīng)用的處理效率、處理質(zhì)量,而且框架的開放式體系使其具有可擴(kuò)展性和靈活性。
2 CRM系統(tǒng)框架
2.1 系統(tǒng)體系框架
該系統(tǒng)體系框架可以根據(jù)行業(yè)需求進(jìn)行定制,構(gòu)建基于客戶只能分析的數(shù)據(jù)挖掘解決方案。數(shù)據(jù)挖掘應(yīng)用平臺層次結(jié)構(gòu)如圖1所示。整個CRM系統(tǒng)分六個層次。
圖1 系統(tǒng)體系框架
(1)用戶層對客戶關(guān)系管理有需求的不同行業(yè)提供專用用戶接口開發(fā)工具,包括功能定制、界面設(shè)計(jì)、程序交互等功能接口函數(shù),從而實(shí)現(xiàn)不同行業(yè)客戶的客戶管理定制界面設(shè)計(jì)。
(2)應(yīng)用工具層是給用戶層提供解決方案的基本支撐。根據(jù)不同行業(yè)需求并考慮到傳統(tǒng)客戶關(guān)系管理的功能,抽取具有共性的面向客戶關(guān)系管理的功能單元模塊。功能單元模塊開發(fā)應(yīng)用面向?qū)ο蠹夹g(shù)術(shù)封裝,提供基于模板的功能屬性修改功能。
(3)決策分析層作為系統(tǒng)的核心模塊,提供一種組合輔助決策功能。從機(jī)制上又分為兩個相互關(guān)聯(lián)的組件,即決策分析組件與商業(yè)應(yīng)用模型庫。決策分析模塊既可以通過OLAP實(shí)現(xiàn)多維數(shù)據(jù)分析,運(yùn)用數(shù)據(jù)挖掘分析處理海量的客戶數(shù)據(jù),發(fā)現(xiàn)有價值的知識并預(yù)測客戶行為。
(4)算法層是數(shù)據(jù)挖掘應(yīng)用平臺的核心?,F(xiàn)實(shí)問題千差萬別,一個通用的數(shù)據(jù)挖掘工具集難以解決不同行業(yè)的問題。因此,算法層提供幾類當(dāng)前應(yīng)用較為廣泛且已證明行之有效的數(shù)據(jù)挖掘算法,如:關(guān)聯(lián)規(guī)則、序列模式、決策樹、神經(jīng)元網(wǎng)絡(luò)、聚集、異常檢測等。
(5)網(wǎng)絡(luò)層系統(tǒng)與其它軟件的集成通過客戶/服務(wù)器模式實(shí)現(xiàn),這種方式支持靈活的系統(tǒng)擴(kuò)展模式,為面向分布式的用戶應(yīng)用提供方便。
(6)數(shù)據(jù)層隨著信息技術(shù)的發(fā)展,企業(yè)中出現(xiàn)大量的、不同的包含企業(yè)客戶信息的數(shù)據(jù)源,如ERP、電子商務(wù)、數(shù)據(jù)庫等。因此,在數(shù)據(jù)倉庫的構(gòu)建中可以根據(jù)應(yīng)用對象的不同,實(shí)現(xiàn)在企業(yè)、公司或行業(yè)中數(shù)據(jù)的動態(tài)清洗、轉(zhuǎn)換、裝載等功能。
2.2 數(shù)據(jù)分析處理流程
(1)在數(shù)據(jù)采集和預(yù)處理部分,從客戶市場信息中抽取出所需數(shù)據(jù)并去除數(shù)據(jù)的不一致性,將所得數(shù)據(jù)進(jìn)行結(jié)構(gòu)和類型轉(zhuǎn)換并聚合成匯總數(shù)據(jù);將匯總數(shù)據(jù)加載進(jìn)多維數(shù)據(jù)倉庫,以供分析利用。
(2)在數(shù)據(jù)倉庫管理部分,基于模型庫、知識庫和方法庫的指導(dǎo),采用OLAP和挖掘工具進(jìn)行客戶概況、誠信度和贏利能力等的分析以及相關(guān)預(yù)測,并將這些分析和預(yù)測結(jié)果以圖形形式提供給執(zhí)行層和決策層。
(3)決策層和業(yè)務(wù)層將這些客戶信息和知識轉(zhuǎn)化為企業(yè)的戰(zhàn)略、決策和行動,以影響市場和客戶。
3 關(guān)鍵技術(shù)
3.1 數(shù)據(jù)倉庫建模
(1)數(shù)據(jù)清洗、轉(zhuǎn)換、裝載功能的實(shí)現(xiàn)
該系統(tǒng)的數(shù)據(jù)庫是建立在Microsoft SQL Server2000數(shù)據(jù)庫管理系統(tǒng)之上,并利用SQL Server2000的DTS(Data Transformation Service)構(gòu)件的數(shù)據(jù)清洗、轉(zhuǎn)換、裝載等預(yù)處理功能,DTS是一個基于COM標(biāo)準(zhǔn)的服務(wù),能夠進(jìn)行二次開發(fā),除了利用SQL語言外,還能利用VBScript或JavaScript語言對各種數(shù)據(jù)源進(jìn)行清洗、轉(zhuǎn)換及裝載。目前CIAS支持的數(shù)據(jù)源包括:關(guān)系數(shù)據(jù)庫,有結(jié)構(gòu)的文本數(shù)據(jù),XML數(shù)據(jù),數(shù)據(jù)立方體(Cube)。對于CDW中每個數(shù)據(jù)模式,都有一個可視化的用戶向?qū)?Wizard)程序幫助用戶完成數(shù)據(jù)的抽取工作。在向?qū)С绦蛑?,可以設(shè)置抽取任務(wù)執(zhí)行的時間。由于信息系統(tǒng)的數(shù)據(jù)在不斷的更新,為了保證及時性和有效性,需要同步CDW和信息系統(tǒng)的數(shù)據(jù)源。CDW采用數(shù)據(jù)倉庫的定時更新機(jī)制,對于數(shù)據(jù)量少的信息,比如客戶特征信息,采用增量覆蓋式更新,在每周或每月定時更新,對于產(chǎn)品使用等數(shù)據(jù)量大的信息,采用每天及時更新的方式。
(2)客戶對象建模
建立模型的關(guān)鍵是維度的選取、維度的分割、維度屬性的選取、事實(shí)數(shù)據(jù)項(xiàng)的選取。數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)數(shù)據(jù)中的趨勢,一個自動化過程發(fā)現(xiàn)數(shù)據(jù)中的趨勢的能力在很大程度上受數(shù)據(jù)質(zhì)量的影響。在數(shù)據(jù)倉庫的對象層次中的關(guān)鍵對象是多維數(shù)據(jù)集、度量值、維度、級別和成員屬性。其中,多維數(shù)據(jù)集包含度量值和維度,維度從屬于多維數(shù)據(jù)集,級別從屬于維度,成員屬性從屬于級別。
根據(jù)CRM領(lǐng)域的應(yīng)用特點(diǎn),在數(shù)據(jù)倉庫內(nèi)創(chuàng)建了一個可擴(kuò)展的以客戶為中心的數(shù)據(jù)模式。具體的數(shù)據(jù)模式拓?fù)淙鐖D2所示。
圖2 基于多維數(shù)據(jù)集的客戶模型拓?fù)浣Y(jié)構(gòu)
用戶可以在具體的數(shù)據(jù)模式中增加字段,或者忽略其認(rèn)為沒有意義或是沒有數(shù)據(jù)的字段,在增加字段或忽略字段時,用戶通過填寫元數(shù)據(jù)信息,描述字段的實(shí)際含義,這些功能增加了系統(tǒng)的可擴(kuò)展性及靈活性。數(shù)據(jù)倉庫數(shù)據(jù)模式包括:客戶特征信息、客戶接觸、客戶事件、產(chǎn)品使用信息。
3.2 決策分析模塊
DW為OLAP和DM提供優(yōu)質(zhì)的數(shù)據(jù)源。基于數(shù)據(jù)倉庫來進(jìn)行OLAP,可以提高分析速度,而且OLAP可以采取更靈活的分析方式?;?a href='/map/shujucangku/' style='color:#000;font-size:inherit;'>數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)挖掘,能更好地滿足高層戰(zhàn)略決策的要求。一般數(shù)據(jù)挖掘要花大量的精力進(jìn)行數(shù)據(jù)準(zhǔn)備。由于數(shù)據(jù)倉庫已經(jīng)完成了數(shù)據(jù)的收集、整理、合并等準(zhǔn)備工作,數(shù)據(jù)挖掘可以更專注于知識發(fā)現(xiàn)的核心處理階段。DM在OLAP的基礎(chǔ)上進(jìn)行進(jìn)一步的自動化知識發(fā)現(xiàn)處理.挖掘潛藏的模式預(yù)測未來趨勢。OLAP除了直接驗(yàn)證分析人員所提出的假設(shè)和問題,也可以驗(yàn)證DM得出的預(yù)測性結(jié)論,防止偏差。
在系統(tǒng)中,首先將數(shù)據(jù)源進(jìn)行預(yù)處理,按照數(shù)據(jù)倉庫的建模方式儲存在數(shù)據(jù)倉庫中。OLAP基于數(shù)據(jù)倉庫利用先驗(yàn)性規(guī)則(該規(guī)則直接來源于分析人員和知識庫)進(jìn)行驗(yàn)證性分析。數(shù)據(jù)挖掘基于數(shù)據(jù)倉庫進(jìn)行知識發(fā)現(xiàn)處理,即自動發(fā)現(xiàn)規(guī)則。通過知識庫來溝通OLAP與DM的交流。數(shù)據(jù)挖掘預(yù)測的規(guī)則輸入到知識庫中,OLAP從知識庫中提取規(guī)則來驗(yàn)證規(guī)則的有效性和可信度。知識庫中的規(guī)則還用于支持模型庫的構(gòu)建。DW、OLAP和DM需要的模型從模型庫中提取。
3.3 算法的映射
參考當(dāng)前CRM客戶信息管理技術(shù),本系統(tǒng)有五種商業(yè)模型。每種模型通過調(diào)用數(shù)據(jù)挖掘算法庫中的算法構(gòu)件得以實(shí)現(xiàn),它可能調(diào)用一個或多個數(shù)據(jù)挖掘算法。五種商業(yè)模型與數(shù)據(jù)挖掘算法映射關(guān)系如表1所示。
表1 數(shù)據(jù)挖掘算法映射表
3.4 基于XML的模型處理中間件機(jī)制
為了保證系統(tǒng)的開放性和可擴(kuò)展性,系統(tǒng)對商業(yè)模型的處理采用XML描述和存儲商業(yè)模型。采用這種開放的格式,可以將挖掘模型與數(shù)據(jù)及挖掘工具分離開,可以通過文本編輯器進(jìn)行編輯,使得用戶易于編輯商業(yè)模型。系統(tǒng)提供基于XML的模型處理的中間件機(jī)制,包括數(shù)據(jù)轉(zhuǎn)換器/監(jiān)視器和XML的虛擬數(shù)據(jù)倉庫。
(1)數(shù)據(jù)轉(zhuǎn)換器/監(jiān)視器。完成某種類型的數(shù)據(jù)源與虛擬數(shù)據(jù)庫之間的雙向映射。首先用XML描述集成數(shù)據(jù),用XSL定義用戶視圖,用XML文檔和格式文件DTD表示集成模式和數(shù)據(jù)源之間的映射。各個數(shù)據(jù)源的模式通過相應(yīng)的轉(zhuǎn)換器/監(jiān)視器溶入全局模式。在這個過程中,轉(zhuǎn)換器/監(jiān)視器數(shù)據(jù)源中的數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為另一個DOM對象。一個關(guān)系轉(zhuǎn)換器/監(jiān)視器能決定關(guān)系模型和DOM對象數(shù)據(jù)模型之間的映射。
(2)XML虛擬數(shù)據(jù)倉庫。一方面將用戶對集成模式的訪問轉(zhuǎn)換成數(shù)據(jù)源可以執(zhí)行的請求;另一方面將各種數(shù)據(jù)源返回的數(shù)據(jù)轉(zhuǎn)換成集成模式的表示形式。具體步驟:①從數(shù)據(jù)倉庫中讀取數(shù)據(jù),生成XML文件,統(tǒng)一格式表示;②將XML轉(zhuǎn)換成一個DOM對象模型,為上層提供訪問服務(wù)。具體程序的實(shí)現(xiàn)采用ASP作為設(shè)計(jì)語言,利用XML的DOM來操作XML文檔。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10