
本節(jié)將為大家介紹數(shù)據(jù)挖掘中的分類(lèi)算法在一些行業(yè)中的代表性應(yīng)用。我們將算法應(yīng)用分為表述問(wèn)題和解決過(guò)程兩個(gè)階段,表述問(wèn)題數(shù)據(jù)分析師即需要運(yùn)用數(shù)據(jù)挖掘能夠理解和處理的語(yǔ)言來(lái)闡述業(yè)務(wù)問(wèn)題,最重要的是能夠用正確且符合實(shí)際的方式把業(yè)務(wù)問(wèn)題轉(zhuǎn)化成數(shù)據(jù)挖掘問(wèn)題,這往往決定了后續(xù)工作是否能有效的展開(kāi),嘗試解決一個(gè)不符合實(shí)際的業(yè)務(wù)問(wèn)題往往會(huì)使得數(shù)據(jù)挖掘的工作陷入數(shù)據(jù)的海洋中,既費(fèi)時(shí)費(fèi)力又得不到想要的結(jié)果。而解決過(guò)程,顧名思義就是將表述清楚的問(wèn)題通過(guò)數(shù)據(jù)挖掘的方法加以解決的過(guò)程。在我們把業(yè)務(wù)領(lǐng)域的問(wèn)題很清晰地轉(zhuǎn)化為數(shù)據(jù)挖掘領(lǐng)域的問(wèn)題之后,解決問(wèn)題也就變得相對(duì)直截了當(dāng)。
分類(lèi)算法的應(yīng)用非常廣泛,只要是牽涉到把客戶(hù)、人群、地區(qū)、商品等按照不同屬性區(qū)分開(kāi)的場(chǎng)景都可以使用分類(lèi)算法。例如我們數(shù)據(jù)分析師可以通過(guò)客戶(hù)分類(lèi)構(gòu)造一個(gè)分類(lèi)模型來(lái)對(duì)銀行貸款進(jìn)行風(fēng)險(xiǎn)評(píng)估,通過(guò)人群分類(lèi)來(lái)評(píng)估酒店或飯店如何定價(jià),通過(guò)商品分類(lèi)來(lái)考慮市場(chǎng)整體營(yíng)銷(xiāo)策略等。
在當(dāng)前的市場(chǎng)營(yíng)銷(xiāo)行為中很重要的一個(gè)特點(diǎn)是強(qiáng)調(diào)目標(biāo)客戶(hù)細(xì)分。無(wú)論是銀行對(duì)貸款風(fēng)險(xiǎn)的評(píng)估還是營(yíng)銷(xiāo)中的目標(biāo)客戶(hù)(或市場(chǎng))細(xì)分,其實(shí)都屬于分類(lèi)算法中客戶(hù)類(lèi)別分析的范疇。而客戶(hù)類(lèi)別分析的功能也正在于此:采用數(shù)據(jù)挖掘中的分類(lèi)技術(shù),將客戶(hù)分成不同的類(lèi)別,以便于提高企業(yè)的決策效率和準(zhǔn)確度。例如呼叫中心設(shè)計(jì)時(shí)可以分為呼叫頻繁的客戶(hù)、偶然大量呼叫的客戶(hù)、穩(wěn)定呼叫的客戶(hù)和其他客戶(hù),以幫助呼叫中心尋找出這些不同種類(lèi)客戶(hù)的特征。這樣的分類(lèi)模型可以讓呼叫中心了解不同行為類(lèi)別客戶(hù)的分布特征。
下面是幾個(gè)做得比較成熟的具體分類(lèi)應(yīng)用描述和解決過(guò)程。
直郵營(yíng)銷(xiāo)是直效行銷(xiāo)的一種,是把傳統(tǒng)郵件直接發(fā)送給消費(fèi)者的營(yíng)銷(xiāo)方式,而且很多傳統(tǒng)行業(yè)把直郵營(yíng)銷(xiāo)作為整個(gè)營(yíng)銷(xiāo)體系中一個(gè)重要的組成部分,涉及的行業(yè)主要是大型商場(chǎng)、大賣(mài)場(chǎng)、商業(yè)連鎖店鋪、專(zhuān)賣(mài)店等。當(dāng)然由于直郵營(yíng)銷(xiāo)的應(yīng)用很廣,所以這種方式也同樣適用于其他行業(yè)。
案例闡述:A公司是一家汽車(chē)4S店,公司擁有完備的客戶(hù)歷史消費(fèi)數(shù)據(jù)庫(kù),現(xiàn)公司準(zhǔn)備舉辦一次高端品牌汽車(chē)的促銷(xiāo)活動(dòng),為配合這次促銷(xiāo)活動(dòng),公司計(jì)劃為潛在客戶(hù)(主要是新客戶(hù))寄去一份精美的汽車(chē)銷(xiāo)售材料并附帶一份小禮品。由于資源有限,公司僅有1000份材料和禮品的預(yù)算額度。
表述問(wèn)題:這里新客戶(hù)是指在店中留下過(guò)詳細(xì)資料但又沒(méi)有消費(fèi)記錄的客戶(hù)。這次促銷(xiāo)活動(dòng)的要求是轉(zhuǎn)化收到這1000份材料和禮品的新客戶(hù),讓盡量多的新客戶(hù)能夠最終成為4S店的消費(fèi)客戶(hù)。
解決問(wèn)題:公司首先找出與這次促銷(xiāo)活動(dòng)類(lèi)似的已經(jīng)舉辦過(guò)的促銷(xiāo)活動(dòng)的歷史消費(fèi)數(shù)據(jù),再將這個(gè)歷史數(shù)據(jù)集中,把促銷(xiāo)結(jié)果分成正反兩類(lèi),正類(lèi)用來(lái)表示可以最終消費(fèi)的客戶(hù)。通過(guò)歷史數(shù)據(jù)的訓(xùn)練我們可以得出一個(gè)分類(lèi)器,如果用的是決策樹(shù),我們還能夠得出一個(gè)類(lèi)似If-Then(如果-就)的規(guī)則,而這個(gè)規(guī)則能夠揭示參加促銷(xiāo)活動(dòng)并最終消費(fèi)的客戶(hù)的主要特征。由于分類(lèi)結(jié)果最后可以表示成概率形式,如此,用經(jīng)過(guò)測(cè)試集測(cè)試過(guò)的分類(lèi)器對(duì)新客戶(hù)進(jìn)行分類(lèi),將得到的正類(lèi)客戶(hù)的概率由大到小排序,這樣就可以生成一個(gè)客戶(hù)列表,營(yíng)銷(xiāo)人員按著這個(gè)表由上至下數(shù)出前1000個(gè)客戶(hù)并向他們寄出材料和禮品即可。
這一模型的應(yīng)用出現(xiàn)在我國(guó)的移動(dòng)通信行業(yè),其目的主要是為了降低客戶(hù)流失率。
案例闡述:我國(guó)的移動(dòng)通信行業(yè)經(jīng)過(guò)了前幾年的高速發(fā)展,近一段時(shí)間的發(fā)展速度逐漸緩慢下來(lái)。注冊(cè)用戶(hù)常常處于一種動(dòng)態(tài)變化的狀態(tài),即不斷有老客戶(hù)離網(wǎng),又不斷有新客戶(hù)入網(wǎng)。大量的低消費(fèi)客戶(hù)和大量老客戶(hù)的離網(wǎng)使得移動(dòng)通信公司無(wú)法快速向前發(fā)展。
表述問(wèn)題:當(dāng)務(wù)之急在于降低客戶(hù)流失率,這里需要解決的問(wèn)題是如何找出這些將要流失的客戶(hù),如何采取適當(dāng)?shù)耐炝舸胧p少客戶(hù)的流失。
解決問(wèn)題:我們需要建設(shè)客戶(hù)流失模型。和直郵營(yíng)銷(xiāo)一樣,其目的也是為了對(duì)新客戶(hù)進(jìn)行分類(lèi)。只不過(guò)客戶(hù)流失模型是為了找出那些不穩(wěn)定易流失的客戶(hù)。整個(gè)建模過(guò)程與直郵營(yíng)銷(xiāo)類(lèi)似。移動(dòng)通信企業(yè)的最大優(yōu)勢(shì)在于這類(lèi)公司的規(guī)模往往很大,數(shù)據(jù)收集和存儲(chǔ)的能力也比一般企業(yè)強(qiáng)很多,所以它們會(huì)擁有較詳細(xì)的客戶(hù)消費(fèi)數(shù)據(jù),這對(duì)于數(shù)據(jù)挖掘的最終成功有著非常重要的作用。
案例闡述:對(duì)于企業(yè)和個(gè)人,如何處理垃圾郵件都是很頭疼的一件事情。在盤(pán)石公司開(kāi)發(fā)的磐郵系統(tǒng)中,每個(gè)客戶(hù)可以有300G的郵件儲(chǔ)存容量,雖然有足夠的容量容納垃圾郵件,但是沒(méi)有過(guò)濾掉的垃圾郵件仍然會(huì)造成糟糕的用戶(hù)體驗(yàn)。表述問(wèn)題:如何對(duì)每個(gè)郵箱中收到的每封郵件進(jìn)行處理,將有用郵件保留而過(guò)濾掉垃圾郵件是用戶(hù)關(guān)心的一大問(wèn)題。
解決問(wèn)題:目前的垃圾郵件過(guò)濾方法主要是采用文本挖掘技術(shù)(Text Mining)。作為數(shù)據(jù)挖掘的重要分支,文本挖掘在數(shù)據(jù)挖掘傳統(tǒng)方法的基礎(chǔ)上引入了語(yǔ)義處理等其他學(xué)科知識(shí)。在垃圾郵件過(guò)濾的分類(lèi)技術(shù)中最常見(jiàn)的是貝葉斯分類(lèi)法。貝葉斯分類(lèi)法主要是通過(guò)對(duì)郵件的信封標(biāo)題、主題和內(nèi)容進(jìn)行掃描和判別。
近來(lái),因?yàn)槔]件發(fā)送方式隨著各家企業(yè)郵箱開(kāi)發(fā)商的反垃圾技術(shù)的提升而變化,通過(guò)附件(PDF、圖像等)方式發(fā)送垃圾郵件的專(zhuān)業(yè)戶(hù)也越來(lái)越多,所以?huà)呙璧膬?nèi)容又增加了一項(xiàng)檢查附件的工作。
案例闡述:現(xiàn)如今金融行業(yè)的競(jìng)爭(zhēng)異常激烈。在美國(guó),出現(xiàn)在每一家郵箱里最多的信件恐怕就是信用卡邀請(qǐng)信。如何吸引合適的用戶(hù)來(lái)使用信用卡,以及準(zhǔn)確分析申請(qǐng)人的信用風(fēng)險(xiǎn),是每個(gè)商業(yè)銀行最關(guān)注也是最頭痛的事情。銀行要不惜一切代價(jià)吸引低風(fēng)險(xiǎn)高價(jià)值的客戶(hù),但是對(duì)于高風(fēng)險(xiǎn)的信用卡申請(qǐng)者要盡量避免。
表述問(wèn)題:如何把信用卡申請(qǐng)者分類(lèi)為低、中、高風(fēng)險(xiǎn)。
解決問(wèn)題:我們需要建設(shè)客戶(hù)風(fēng)險(xiǎn)模型對(duì)客戶(hù)的風(fēng)險(xiǎn)進(jìn)行分類(lèi)。整個(gè)建模過(guò)程與直郵營(yíng)銷(xiāo)類(lèi)似。不過(guò)因?yàn)樾袠I(yè)的特殊性,申請(qǐng)表中包含了大量關(guān)于用戶(hù)的個(gè)人信息,再加上通常會(huì)做的客戶(hù)信用查詢(xún),可以用來(lái)參考的數(shù)據(jù)維度比前面的三個(gè)案例都要多一些,所以相對(duì)來(lái)說(shuō)建模的精準(zhǔn)度也會(huì)高很多。
除了上面列出的四種典型問(wèn)題之外,分類(lèi)數(shù)據(jù)挖掘還有很多不同類(lèi)型的應(yīng)用,例如文獻(xiàn)檢索和搜索引擎中的自動(dòng)文本分類(lèi)技術(shù),安全領(lǐng)域的入侵檢測(cè)等。
不過(guò),不是所有分類(lèi)的場(chǎng)景使用分類(lèi)數(shù)據(jù)挖掘都有實(shí)際操作性。美國(guó)政府曾在“9·11”發(fā)生后提出一項(xiàng)全面信息識(shí)別計(jì)劃(Total Information Awareness Project),這項(xiàng)計(jì)劃的目的是建立系統(tǒng),利用數(shù)據(jù)挖掘技術(shù)對(duì)全美居民的通話(huà)記錄和信用卡支付記錄等海量數(shù)據(jù)信息進(jìn)行分析,并利用這個(gè)系統(tǒng)來(lái)識(shí)別隱藏在美國(guó)的全部恐怖分子。
除去涉及的個(gè)人隱私問(wèn)題和海量數(shù)據(jù)如何獲取和處理的問(wèn)題之外,單純從數(shù)據(jù)挖掘問(wèn)題本身來(lái)說(shuō),這個(gè)計(jì)劃的可行性就要打個(gè)大問(wèn)號(hào)。假設(shè)通過(guò)數(shù)據(jù)挖掘技術(shù)建立了一個(gè)99%的分類(lèi)器來(lái)識(shí)別恐怖分子,雖然這個(gè)分類(lèi)器的精度已經(jīng)是相當(dāng)好了,但是整個(gè)美國(guó)一天之中可產(chǎn)生的相關(guān)數(shù)據(jù)保守估計(jì)就會(huì)有約十億條,在產(chǎn)生如此龐大的增量情況下,這個(gè)99%的分類(lèi)器每天至少也要忽略掉近千萬(wàn)條可疑數(shù)據(jù),那么就可以說(shuō)這種分類(lèi)器幾乎毫無(wú)用處??赡苁腔谶@個(gè)原因,2003年這個(gè)計(jì)劃被終止,雖然之后還是有若干個(gè)類(lèi)似的計(jì)劃被提出并嘗試,但其效果都很有限。正如前所述,除非另辟捷徑,否則這項(xiàng)計(jì)劃能夠成功實(shí)施的可能性很小。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03