
三個(gè)常用數(shù)據(jù)分析模型的典型應(yīng)用場(chǎng)景
哪三個(gè)模型呢?決策樹(shù)、K-means聚類(lèi)、因子分析。
為啥是這三個(gè)模型呢?因?yàn)檫@三個(gè)模型分別代表了數(shù)據(jù)分析的三種思路:分類(lèi),聚類(lèi),降維。
為啥沒(méi)有回歸?回歸我打算專門(mén)寫(xiě)一篇,因此在本文中暫不涉及。
為啥只說(shuō)應(yīng)用場(chǎng)景?因?yàn)榫唧w模型有很多專業(yè)書(shū)籍講的更好,而且我個(gè)人認(rèn)為,模型是固定的,場(chǎng)景是多變的,知道什么時(shí)候該用什么模型,比會(huì)用這個(gè)模型更重要一些。
那么,接下來(lái)正文開(kāi)始。
一、決策樹(shù)
定義:機(jī)器學(xué)習(xí)中,決策樹(shù)是一個(gè)預(yù)測(cè)模型;它代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。
個(gè)人認(rèn)為決策樹(shù)最出名的應(yīng)用應(yīng)該是這個(gè):
你們頭腦里隱藏的任何念頭,
都躲不過(guò)魔帽的金睛火眼,
戴上它試一下吧,我會(huì)告訴你們,
你們應(yīng)該分到哪一所學(xué)院。
你也許屬于格蘭芬多,
那里有埋藏在心底的勇敢,
他們的膽識(shí)、氣魄和豪爽,
使格蘭芬多出類(lèi)拔萃;
你也許屬于赫奇帕奇,
那里的人正直 忠誠(chéng),
赫奇帕奇的學(xué)子們堅(jiān)忍誠(chéng)實(shí),
不畏懼艱辛的勞動(dòng);
如果你頭腦精明,
或許會(huì)進(jìn)智慧的老拉文克勞,
那些睿智博學(xué)的人,
總會(huì)在那里遇見(jiàn)他們的同道;
也許你會(huì)進(jìn)斯萊特林,
也許你在這里交上真誠(chéng)的朋友,
但那些狡詐 陰險(xiǎn)之輩卻會(huì)不惜一切手段,
去達(dá)到他們的目的。
分院帽應(yīng)用的是個(gè)非常典型的決策樹(shù)模型(什么鬼),在上文的《分院帽之歌(節(jié)選)》中,我標(biāo)粗的每個(gè)部分都可以認(rèn)為是一個(gè)特征,帽子往學(xué)生頭上一扣,讀取學(xué)生的顯著特征,然后分到某個(gè)類(lèi)別里。所以你看,哈利波特一開(kāi)始表現(xiàn)出來(lái)的特征都是格蘭芬多的特征,但他畢竟是個(gè)魂器,分院帽讀取數(shù)據(jù)時(shí)候發(fā)現(xiàn)這個(gè)人有兩類(lèi)顯著特征,于是猶豫不決,最后還是波特自己提出了要求,這就證明應(yīng)用模型時(shí)的人工干預(yù)必不可少(大霧)。
言歸正傳,決策樹(shù)在實(shí)際工作中基本應(yīng)用于給人群分類(lèi),最好的應(yīng)用場(chǎng)景是要把人群分為互斥的兩類(lèi),并找到兩類(lèi)人群的不同特征。當(dāng)然,分為多個(gè)互斥類(lèi)別也OK。
一個(gè)非常典型的場(chǎng)景是流失模型,對(duì)電信業(yè)來(lái)說(shuō),通過(guò)用戶的行為來(lái)提前找到哪些人有流失風(fēng)險(xiǎn),并通過(guò)專門(mén)優(yōu)惠等手段挽留,是運(yùn)營(yíng)中的重要部分。之前我在轉(zhuǎn)入互聯(lián)網(wǎng)行業(yè)時(shí),第一選擇本來(lái)是游戲公司(可惜愿意收的給不起合理工資……),因此研究了一下游戲用戶流失模型的內(nèi)容,發(fā)現(xiàn)跟電信業(yè)有相通之處。舉個(gè)例子,對(duì)于某款端游,定義超過(guò)一周不登錄用戶為流失,那么做過(guò)的任務(wù)、拿到的裝備、打過(guò)的副本、充值金額等等,都可以作為預(yù)測(cè)用特征,比對(duì)流失與非流失用戶,找到兩者的區(qū)別,在關(guān)鍵流失節(jié)點(diǎn)上加一些運(yùn)營(yíng)策略來(lái)減少流失。
二、k-means聚類(lèi)
定義:k-means聚類(lèi)的目的是:把n個(gè)點(diǎn)(可以是樣本的一次觀察或一個(gè)實(shí)例)劃分到k個(gè)聚類(lèi)中,使得每個(gè)點(diǎn)都屬于離他最近的均值(此即聚類(lèi)中心)對(duì)應(yīng)的聚類(lèi),以之作為聚類(lèi)的標(biāo)準(zhǔn)。
K-means聚類(lèi)的好處在于樣本量大的時(shí)候,可以快速分群,但需要在分群后注意每個(gè)群體的可解釋性。換句話說(shuō),給你一萬(wàn)個(gè)人,分成四群,需要能夠解釋每一群人的突出特征,如果有兩群人的特征很相似,那就要重新分群了;或者有一群人的特征不明顯,那就要增加分群了。
聚類(lèi)與分類(lèi)不同,分類(lèi)的目的是得到可復(fù)用的規(guī)則,使得訓(xùn)練集以外的個(gè)體可以直接分到已知的類(lèi)別里;聚類(lèi)屬于后驗(yàn)的研究,是對(duì)已有個(gè)體的辨別。當(dāng)然聚類(lèi)可以在一定條件下轉(zhuǎn)化為分類(lèi),例如K-means里知道了每類(lèi)的中心,那么新個(gè)體可以依據(jù)和每類(lèi)中心的距離,來(lái)判斷所屬類(lèi)別。但通常情況下,聚類(lèi)方法本身仍是用于研究的次數(shù)更多。
K-means常用的場(chǎng)景是在不清楚用戶有幾類(lèi)時(shí),嘗試性的將用戶進(jìn)行分類(lèi),并根據(jù)每類(lèi)用戶的不同特征,決定下步動(dòng)作。一個(gè)典型的應(yīng)用場(chǎng)景是CRM管理中的數(shù)據(jù)庫(kù)營(yíng)銷(xiāo)。舉例,對(duì)于一個(gè)超市/電商網(wǎng)站/綜合零售商,可以根據(jù)用戶的購(gòu)買(mǎi)行為,將其分為“年輕白領(lǐng)”、“一家三口”、“家有一老”、”初得子女“等等類(lèi)型,然后通過(guò)郵件、短信、推送通知等,向其發(fā)起不同的優(yōu)惠活動(dòng)。
明尼蘇達(dá)州一家塔吉特門(mén)店被客戶投訴,一位中年男子指控塔吉特將嬰兒產(chǎn)品優(yōu)惠券寄給他的女兒——一個(gè)高中生。但沒(méi)多久他卻來(lái)電道歉,因?yàn)榕畠航?jīng)他逼問(wèn)后坦承自己真的懷孕了。塔吉特百貨就是靠著分析用戶所有的購(gòu)物數(shù)據(jù),然后通過(guò)相關(guān)關(guān)系分析得出事情的真實(shí)狀況。
這個(gè)案例也算是與”啤酒和尿布“知名度差不多的一個(gè)案例。在這個(gè)案例中,那個(gè)高中生少女明顯是被聚到了孕婦那一類(lèi),因?yàn)樗男袨槟J脚c孕婦是很相近的。
(決策樹(shù)也可以做這件事,但需要先定義出特征,因此在探索特征未知的領(lǐng)域時(shí),聚類(lèi)可能更好用一些)
順便說(shuō)一句,我原先在國(guó)企的時(shí)候干的就是這個(gè)事,而且發(fā)送渠道是最土的那種……平信……術(shù)語(yǔ)叫數(shù)據(jù)庫(kù)商函……也叫直復(fù)營(yíng)銷(xiāo)(不是直銷(xiāo)也不是傳銷(xiāo)!)。
三、因子分析
定義:因子分析是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù)。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質(zhì)的變量歸入一個(gè)因子,可減少變量的數(shù)目,還可檢驗(yàn)變量間關(guān)系的假設(shè)。
之前說(shuō)到因子分析是降維的一種方式,而降維歸根結(jié)底就是一句話:變量太多的時(shí)候,需要將變量重構(gòu)成帶有更多信息的新變量,新變量與原始變量之間存在相關(guān)性,這樣才能在不損失太多原始信息的情況下減少變量數(shù)量。
因子分析的一個(gè)典型應(yīng)用場(chǎng)景是滿意度調(diào)查。通過(guò)市場(chǎng)調(diào)研方式獲取消費(fèi)者滿意度時(shí),通常會(huì)有兩位數(shù)的問(wèn)題來(lái)了解消費(fèi)者對(duì)哪些方面滿意,哪些方面不滿意,這個(gè)時(shí)候因子分析就很重要,可以將消費(fèi)者的問(wèn)題歸結(jié)為相對(duì)較少的幾個(gè)大問(wèn)題方向,同時(shí)也可以看出哪些問(wèn)題更為重要,需要優(yōu)先解決。cda數(shù)據(jù)分析師培訓(xùn)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10