
本節(jié)將為大家介紹數(shù)據(jù)挖掘中的分類算法在一些行業(yè)中的代表性應(yīng)用。我們將算法應(yīng)用分為表述問題和解決過程兩個(gè)階段,表述問題數(shù)據(jù)分析師即需要運(yùn)用數(shù)據(jù)挖掘能夠理解和處理的語(yǔ)言來闡述業(yè)務(wù)問題,最重要的是能夠用正確且符合實(shí)際的方式把業(yè)務(wù)問題轉(zhuǎn)化成數(shù)據(jù)挖掘問題,這往往決定了后續(xù)工作是否能有效的展開,嘗試解決一個(gè)不符合實(shí)際的業(yè)務(wù)問題往往會(huì)使得數(shù)據(jù)挖掘的工作陷入數(shù)據(jù)的海洋中,既費(fèi)時(shí)費(fèi)力又得不到想要的結(jié)果。而解決過程,顧名思義就是將表述清楚的問題通過數(shù)據(jù)挖掘的方法加以解決的過程。在我們把業(yè)務(wù)領(lǐng)域的問題很清晰地轉(zhuǎn)化為數(shù)據(jù)挖掘領(lǐng)域的問題之后,解決問題也就變得相對(duì)直截了當(dāng)。
分類算法的應(yīng)用非常廣泛,只要是牽涉到把客戶、人群、地區(qū)、商品等按照不同屬性區(qū)分開的場(chǎng)景都可以使用分類算法。例如我們數(shù)據(jù)分析師可以通過客戶分類構(gòu)造一個(gè)分類模型來對(duì)銀行貸款進(jìn)行風(fēng)險(xiǎn)評(píng)估,通過人群分類來評(píng)估酒店或飯店如何定價(jià),通過商品分類來考慮市場(chǎng)整體營(yíng)銷策略等。
在當(dāng)前的市場(chǎng)營(yíng)銷行為中很重要的一個(gè)特點(diǎn)是強(qiáng)調(diào)目標(biāo)客戶細(xì)分。無論是銀行對(duì)貸款風(fēng)險(xiǎn)的評(píng)估還是營(yíng)銷中的目標(biāo)客戶(或市場(chǎng))細(xì)分,其實(shí)都屬于分類算法中客戶類別分析的范疇。而客戶類別分析的功能也正在于此:采用數(shù)據(jù)挖掘中的分類技術(shù),將客戶分成不同的類別,以便于提高企業(yè)的決策效率和準(zhǔn)確度。例如呼叫中心設(shè)計(jì)時(shí)可以分為呼叫頻繁的客戶、偶然大量呼叫的客戶、穩(wěn)定呼叫的客戶和其他客戶,以幫助呼叫中心尋找出這些不同種類客戶的特征。這樣的分類模型可以讓呼叫中心了解不同行為類別客戶的分布特征。
下面是幾個(gè)做得比較成熟的具體分類應(yīng)用描述和解決過程。
直郵營(yíng)銷是直效行銷的一種,是把傳統(tǒng)郵件直接發(fā)送給消費(fèi)者的營(yíng)銷方式,而且很多傳統(tǒng)行業(yè)把直郵營(yíng)銷作為整個(gè)營(yíng)銷體系中一個(gè)重要的組成部分,涉及的行業(yè)主要是大型商場(chǎng)、大賣場(chǎng)、商業(yè)連鎖店鋪、專賣店等。當(dāng)然由于直郵營(yíng)銷的應(yīng)用很廣,所以這種方式也同樣適用于其他行業(yè)。
案例闡述:A公司是一家汽車4S店,公司擁有完備的客戶歷史消費(fèi)數(shù)據(jù)庫(kù),現(xiàn)公司準(zhǔn)備舉辦一次高端品牌汽車的促銷活動(dòng),為配合這次促銷活動(dòng),公司計(jì)劃為潛在客戶(主要是新客戶)寄去一份精美的汽車銷售材料并附帶一份小禮品。由于資源有限,公司僅有1000份材料和禮品的預(yù)算額度。
表述問題:這里新客戶是指在店中留下過詳細(xì)資料但又沒有消費(fèi)記錄的客戶。這次促銷活動(dòng)的要求是轉(zhuǎn)化收到這1000份材料和禮品的新客戶,讓盡量多的新客戶能夠最終成為4S店的消費(fèi)客戶。
解決問題:公司首先找出與這次促銷活動(dòng)類似的已經(jīng)舉辦過的促銷活動(dòng)的歷史消費(fèi)數(shù)據(jù),再將這個(gè)歷史數(shù)據(jù)集中,把促銷結(jié)果分成正反兩類,正類用來表示可以最終消費(fèi)的客戶。通過歷史數(shù)據(jù)的訓(xùn)練我們可以得出一個(gè)分類器,如果用的是決策樹,我們還能夠得出一個(gè)類似If-Then(如果-就)的規(guī)則,而這個(gè)規(guī)則能夠揭示參加促銷活動(dòng)并最終消費(fèi)的客戶的主要特征。由于分類結(jié)果最后可以表示成概率形式,如此,用經(jīng)過測(cè)試集測(cè)試過的分類器對(duì)新客戶進(jìn)行分類,將得到的正類客戶的概率由大到小排序,這樣就可以生成一個(gè)客戶列表,營(yíng)銷人員按著這個(gè)表由上至下數(shù)出前1000個(gè)客戶并向他們寄出材料和禮品即可。
這一模型的應(yīng)用出現(xiàn)在我國(guó)的移動(dòng)通信行業(yè),其目的主要是為了降低客戶流失率。
案例闡述:我國(guó)的移動(dòng)通信行業(yè)經(jīng)過了前幾年的高速發(fā)展,近一段時(shí)間的發(fā)展速度逐漸緩慢下來。注冊(cè)用戶常常處于一種動(dòng)態(tài)變化的狀態(tài),即不斷有老客戶離網(wǎng),又不斷有新客戶入網(wǎng)。大量的低消費(fèi)客戶和大量老客戶的離網(wǎng)使得移動(dòng)通信公司無法快速向前發(fā)展。
表述問題:當(dāng)務(wù)之急在于降低客戶流失率,這里需要解決的問題是如何找出這些將要流失的客戶,如何采取適當(dāng)?shù)耐炝舸胧p少客戶的流失。
解決問題:我們需要建設(shè)客戶流失模型。和直郵營(yíng)銷一樣,其目的也是為了對(duì)新客戶進(jìn)行分類。只不過客戶流失模型是為了找出那些不穩(wěn)定易流失的客戶。整個(gè)建模過程與直郵營(yíng)銷類似。移動(dòng)通信企業(yè)的最大優(yōu)勢(shì)在于這類公司的規(guī)模往往很大,數(shù)據(jù)收集和存儲(chǔ)的能力也比一般企業(yè)強(qiáng)很多,所以它們會(huì)擁有較詳細(xì)的客戶消費(fèi)數(shù)據(jù),這對(duì)于數(shù)據(jù)挖掘的最終成功有著非常重要的作用。
案例闡述:對(duì)于企業(yè)和個(gè)人,如何處理垃圾郵件都是很頭疼的一件事情。在盤石公司開發(fā)的磐郵系統(tǒng)中,每個(gè)客戶可以有300G的郵件儲(chǔ)存容量,雖然有足夠的容量容納垃圾郵件,但是沒有過濾掉的垃圾郵件仍然會(huì)造成糟糕的用戶體驗(yàn)。表述問題:如何對(duì)每個(gè)郵箱中收到的每封郵件進(jìn)行處理,將有用郵件保留而過濾掉垃圾郵件是用戶關(guān)心的一大問題。
解決問題:目前的垃圾郵件過濾方法主要是采用文本挖掘技術(shù)(Text Mining)。作為數(shù)據(jù)挖掘的重要分支,文本挖掘在數(shù)據(jù)挖掘傳統(tǒng)方法的基礎(chǔ)上引入了語(yǔ)義處理等其他學(xué)科知識(shí)。在垃圾郵件過濾的分類技術(shù)中最常見的是貝葉斯分類法。貝葉斯分類法主要是通過對(duì)郵件的信封標(biāo)題、主題和內(nèi)容進(jìn)行掃描和判別。
近來,因?yàn)槔]件發(fā)送方式隨著各家企業(yè)郵箱開發(fā)商的反垃圾技術(shù)的提升而變化,通過附件(PDF、圖像等)方式發(fā)送垃圾郵件的專業(yè)戶也越來越多,所以掃描的內(nèi)容又增加了一項(xiàng)檢查附件的工作。
案例闡述:現(xiàn)如今金融行業(yè)的競(jìng)爭(zhēng)異常激烈。在美國(guó),出現(xiàn)在每一家郵箱里最多的信件恐怕就是信用卡邀請(qǐng)信。如何吸引合適的用戶來使用信用卡,以及準(zhǔn)確分析申請(qǐng)人的信用風(fēng)險(xiǎn),是每個(gè)商業(yè)銀行最關(guān)注也是最頭痛的事情。銀行要不惜一切代價(jià)吸引低風(fēng)險(xiǎn)高價(jià)值的客戶,但是對(duì)于高風(fēng)險(xiǎn)的信用卡申請(qǐng)者要盡量避免。
表述問題:如何把信用卡申請(qǐng)者分類為低、中、高風(fēng)險(xiǎn)。
解決問題:我們需要建設(shè)客戶風(fēng)險(xiǎn)模型對(duì)客戶的風(fēng)險(xiǎn)進(jìn)行分類。整個(gè)建模過程與直郵營(yíng)銷類似。不過因?yàn)樾袠I(yè)的特殊性,申請(qǐng)表中包含了大量關(guān)于用戶的個(gè)人信息,再加上通常會(huì)做的客戶信用查詢,可以用來參考的數(shù)據(jù)維度比前面的三個(gè)案例都要多一些,所以相對(duì)來說建模的精準(zhǔn)度也會(huì)高很多。
除了上面列出的四種典型問題之外,分類數(shù)據(jù)挖掘還有很多不同類型的應(yīng)用,例如文獻(xiàn)檢索和搜索引擎中的自動(dòng)文本分類技術(shù),安全領(lǐng)域的入侵檢測(cè)等。
不過,不是所有分類的場(chǎng)景使用分類數(shù)據(jù)挖掘都有實(shí)際操作性。美國(guó)政府曾在“9·11”發(fā)生后提出一項(xiàng)全面信息識(shí)別計(jì)劃(Total Information Awareness Project),這項(xiàng)計(jì)劃的目的是建立系統(tǒng),利用數(shù)據(jù)挖掘技術(shù)對(duì)全美居民的通話記錄和信用卡支付記錄等海量數(shù)據(jù)信息進(jìn)行分析,并利用這個(gè)系統(tǒng)來識(shí)別隱藏在美國(guó)的全部恐怖分子。
除去涉及的個(gè)人隱私問題和海量數(shù)據(jù)如何獲取和處理的問題之外,單純從數(shù)據(jù)挖掘問題本身來說,這個(gè)計(jì)劃的可行性就要打個(gè)大問號(hào)。假設(shè)通過數(shù)據(jù)挖掘技術(shù)建立了一個(gè)99%的分類器來識(shí)別恐怖分子,雖然這個(gè)分類器的精度已經(jīng)是相當(dāng)好了,但是整個(gè)美國(guó)一天之中可產(chǎn)生的相關(guān)數(shù)據(jù)保守估計(jì)就會(huì)有約十億條,在產(chǎn)生如此龐大的增量情況下,這個(gè)99%的分類器每天至少也要忽略掉近千萬條可疑數(shù)據(jù),那么就可以說這種分類器幾乎毫無用處。可能是基于這個(gè)原因,2003年這個(gè)計(jì)劃被終止,雖然之后還是有若干個(gè)類似的計(jì)劃被提出并嘗試,但其效果都很有限。正如前所述,除非另辟捷徑,否則這項(xiàng)計(jì)劃能夠成功實(shí)施的可能性很小。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10