
三個(gè)常用數(shù)據(jù)分析模型的典型應(yīng)用場景
哪三個(gè)模型呢?決策樹、K-means聚類、因子分析。
為啥是這三個(gè)模型呢?因?yàn)檫@三個(gè)模型分別代表了數(shù)據(jù)分析的三種思路:分類,聚類,降維。
為啥沒有回歸?回歸我打算專門寫一篇,因此在本文中暫不涉及。
為啥只說應(yīng)用場景?因?yàn)榫唧w模型有很多專業(yè)書籍講的更好,而且我個(gè)人認(rèn)為,模型是固定的,場景是多變的,知道什么時(shí)候該用什么模型,比會用這個(gè)模型更重要一些。
那么,接下來正文開始。
一、決策樹
定義:機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測模型;它代表的是對象屬性與對象值之間的一種映射關(guān)系。
個(gè)人認(rèn)為決策樹最出名的應(yīng)用應(yīng)該是這個(gè):
你們頭腦里隱藏的任何念頭,
都躲不過魔帽的金睛火眼,
戴上它試一下吧,我會告訴你們,
你們應(yīng)該分到哪一所學(xué)院。
你也許屬于格蘭芬多,
那里有埋藏在心底的勇敢,
他們的膽識、氣魄和豪爽,
使格蘭芬多出類拔萃;
你也許屬于赫奇帕奇,
那里的人正直 忠誠,
赫奇帕奇的學(xué)子們堅(jiān)忍誠實(shí),
不畏懼艱辛的勞動;
如果你頭腦精明,
或許會進(jìn)智慧的老拉文克勞,
那些睿智博學(xué)的人,
總會在那里遇見他們的同道;
也許你會進(jìn)斯萊特林,
也許你在這里交上真誠的朋友,
但那些狡詐 陰險(xiǎn)之輩卻會不惜一切手段,
去達(dá)到他們的目的。
分院帽應(yīng)用的是個(gè)非常典型的決策樹模型(什么鬼),在上文的《分院帽之歌(節(jié)選)》中,我標(biāo)粗的每個(gè)部分都可以認(rèn)為是一個(gè)特征,帽子往學(xué)生頭上一扣,讀取學(xué)生的顯著特征,然后分到某個(gè)類別里。所以你看,哈利波特一開始表現(xiàn)出來的特征都是格蘭芬多的特征,但他畢竟是個(gè)魂器,分院帽讀取數(shù)據(jù)時(shí)候發(fā)現(xiàn)這個(gè)人有兩類顯著特征,于是猶豫不決,最后還是波特自己提出了要求,這就證明應(yīng)用模型時(shí)的人工干預(yù)必不可少(大霧)。
言歸正傳,決策樹在實(shí)際工作中基本應(yīng)用于給人群分類,最好的應(yīng)用場景是要把人群分為互斥的兩類,并找到兩類人群的不同特征。當(dāng)然,分為多個(gè)互斥類別也OK。
一個(gè)非常典型的場景是流失模型,對電信業(yè)來說,通過用戶的行為來提前找到哪些人有流失風(fēng)險(xiǎn),并通過專門優(yōu)惠等手段挽留,是運(yùn)營中的重要部分。之前我在轉(zhuǎn)入互聯(lián)網(wǎng)行業(yè)時(shí),第一選擇本來是游戲公司(可惜愿意收的給不起合理工資……),因此研究了一下游戲用戶流失模型的內(nèi)容,發(fā)現(xiàn)跟電信業(yè)有相通之處。舉個(gè)例子,對于某款端游,定義超過一周不登錄用戶為流失,那么做過的任務(wù)、拿到的裝備、打過的副本、充值金額等等,都可以作為預(yù)測用特征,比對流失與非流失用戶,找到兩者的區(qū)別,在關(guān)鍵流失節(jié)點(diǎn)上加一些運(yùn)營策略來減少流失。
二、k-means聚類
定義:k-means聚類的目的是:把n個(gè)點(diǎn)(可以是樣本的一次觀察或一個(gè)實(shí)例)劃分到k個(gè)聚類中,使得每個(gè)點(diǎn)都屬于離他最近的均值(此即聚類中心)對應(yīng)的聚類,以之作為聚類的標(biāo)準(zhǔn)。
K-means聚類的好處在于樣本量大的時(shí)候,可以快速分群,但需要在分群后注意每個(gè)群體的可解釋性。換句話說,給你一萬個(gè)人,分成四群,需要能夠解釋每一群人的突出特征,如果有兩群人的特征很相似,那就要重新分群了;或者有一群人的特征不明顯,那就要增加分群了。
聚類與分類不同,分類的目的是得到可復(fù)用的規(guī)則,使得訓(xùn)練集以外的個(gè)體可以直接分到已知的類別里;聚類屬于后驗(yàn)的研究,是對已有個(gè)體的辨別。當(dāng)然聚類可以在一定條件下轉(zhuǎn)化為分類,例如K-means里知道了每類的中心,那么新個(gè)體可以依據(jù)和每類中心的距離,來判斷所屬類別。但通常情況下,聚類方法本身仍是用于研究的次數(shù)更多。
K-means常用的場景是在不清楚用戶有幾類時(shí),嘗試性的將用戶進(jìn)行分類,并根據(jù)每類用戶的不同特征,決定下步動作。一個(gè)典型的應(yīng)用場景是CRM管理中的數(shù)據(jù)庫營銷。舉例,對于一個(gè)超市/電商網(wǎng)站/綜合零售商,可以根據(jù)用戶的購買行為,將其分為“年輕白領(lǐng)”、“一家三口”、“家有一老”、”初得子女“等等類型,然后通過郵件、短信、推送通知等,向其發(fā)起不同的優(yōu)惠活動。
明尼蘇達(dá)州一家塔吉特門店被客戶投訴,一位中年男子指控塔吉特將嬰兒產(chǎn)品優(yōu)惠券寄給他的女兒——一個(gè)高中生。但沒多久他卻來電道歉,因?yàn)榕畠航?jīng)他逼問后坦承自己真的懷孕了。塔吉特百貨就是靠著分析用戶所有的購物數(shù)據(jù),然后通過相關(guān)關(guān)系分析得出事情的真實(shí)狀況。
這個(gè)案例也算是與”啤酒和尿布“知名度差不多的一個(gè)案例。在這個(gè)案例中,那個(gè)高中生少女明顯是被聚到了孕婦那一類,因?yàn)樗男袨槟J脚c孕婦是很相近的。
(決策樹也可以做這件事,但需要先定義出特征,因此在探索特征未知的領(lǐng)域時(shí),聚類可能更好用一些)
順便說一句,我原先在國企的時(shí)候干的就是這個(gè)事,而且發(fā)送渠道是最土的那種……平信……術(shù)語叫數(shù)據(jù)庫商函……也叫直復(fù)營銷(不是直銷也不是傳銷?。?。
三、因子分析
定義:因子分析是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù)。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質(zhì)的變量歸入一個(gè)因子,可減少變量的數(shù)目,還可檢驗(yàn)變量間關(guān)系的假設(shè)。
之前說到因子分析是降維的一種方式,而降維歸根結(jié)底就是一句話:變量太多的時(shí)候,需要將變量重構(gòu)成帶有更多信息的新變量,新變量與原始變量之間存在相關(guān)性,這樣才能在不損失太多原始信息的情況下減少變量數(shù)量。
因子分析的一個(gè)典型應(yīng)用場景是滿意度調(diào)查。通過市場調(diào)研方式獲取消費(fèi)者滿意度時(shí),通常會有兩位數(shù)的問題來了解消費(fèi)者對哪些方面滿意,哪些方面不滿意,這個(gè)時(shí)候因子分析就很重要,可以將消費(fèi)者的問題歸結(jié)為相對較少的幾個(gè)大問題方向,同時(shí)也可以看出哪些問題更為重要,需要優(yōu)先解決。cda數(shù)據(jù)分析師培訓(xùn)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03