
對(duì)于很多做統(tǒng)計(jì)的人員來(lái)說(shuō),對(duì)統(tǒng)計(jì)中的算法知道的不是很全面,下面就對(duì)統(tǒng)計(jì)中分類(lèi)算法做個(gè)總結(jié)。
主要有兩種:
l 歸一化處理
主要通過(guò)把數(shù)據(jù)歸一到一特定的區(qū)間范圍,如[0,1],便于明確樣本值在指標(biāo)整體中的位置.
應(yīng)用場(chǎng)景: 歸一化處理基本上是所有分析計(jì)算之前必做的一個(gè)預(yù)處理.
l 標(biāo)準(zhǔn)化處理
主要是通過(guò)把數(shù)據(jù)標(biāo)準(zhǔn)到正態(tài)分布區(qū)間內(nèi),便于各FEATURE之間的計(jì)算,即考慮綜合指標(biāo)的之間的作用時(shí).
應(yīng)用場(chǎng)景: 標(biāo)準(zhǔn)化處理主要用在聚類(lèi)分析中.
主要有四種常見(jiàn)的檢驗(yàn)方式:
一) 連續(xù)型指標(biāo)的檢驗(yàn)
l T檢驗(yàn)
應(yīng)用場(chǎng)景: 判斷二分類(lèi)變量對(duì)一連續(xù)型指標(biāo)的顯著影響
前提條件: 沒(méi)有,就是針對(duì)二分類(lèi)變量的
原理: 判斷不同水平間目標(biāo)連續(xù)指標(biāo)的均值是否相等
例子: 性別對(duì)某APP訪問(wèn)量的影響
l 單因素方差分析
應(yīng)用場(chǎng)景: 判斷多分類(lèi)變量對(duì)一連續(xù)型指標(biāo)的顯著影響
前提條件:
1) 多分類(lèi)變量
2) 各水平(分組)數(shù)據(jù)的特征:
a) 服從正態(tài)分布
b) 方差相等(方差齊次)
檢驗(yàn)流程:
例子: 各年齡段對(duì)某APP訪問(wèn)量的影響
l 單因素協(xié)方差分析
應(yīng)用場(chǎng)景: 在某一連續(xù)變量影響下,判斷多分類(lèi)變量對(duì)目標(biāo)連續(xù)指標(biāo)的顯著影響
前提條件:
1) 另一連續(xù)變量對(duì)目標(biāo)連續(xù)型指標(biāo)有影響
2) 多分類(lèi)變量
3) 各水平(分組)數(shù)據(jù)的特征:
a) 服從正態(tài)分布
b) 方差相等(方差齊次)
4) 連續(xù)變量與分類(lèi)變量無(wú)交互作用
如何判斷兩者之間的交互作用:
1) 分別做它們與目標(biāo)連續(xù)指標(biāo)的回歸分析, 觀察斜率是否相同. 如果相同, 則無(wú)交互作用; 否則, 有交互作用
2) 直接根據(jù)AOV(Y ~ X1*X2)作回歸分析, 觀察綜合因素X1*X2對(duì)應(yīng)的概率P是否小于0.05(默認(rèn)). 即T檢驗(yàn)對(duì)應(yīng)斜率等于0的概率.如果小于0.05, 則有交互作用; 否則, 無(wú)交互作用.
例子: 注冊(cè)時(shí)間的影響下不同年齡段對(duì)某APP訪問(wèn)量的顯著影響
二) 非連續(xù)型指標(biāo)的檢驗(yàn)
l 卡方檢驗(yàn)
應(yīng)用場(chǎng)景: 對(duì)比分類(lèi)變量在不同水平下的轉(zhuǎn)換率數(shù)據(jù)是否有顯著差異
前提條件:
1) 目標(biāo)變量為分類(lèi)變量(例如: 網(wǎng)站用戶數(shù)可分為下訂單數(shù)與非下訂單數(shù))
原理: 判斷目標(biāo)分類(lèi)變量在不同水平下差異. 這里具體的可以參考卡方公式
例子: 網(wǎng)站改版前后對(duì)訂單的轉(zhuǎn)換有無(wú)影響(訂單的轉(zhuǎn)換率的顯著變化)
說(shuō)的定性就是把連續(xù)型的數(shù)據(jù)轉(zhuǎn)換成分類(lèi)型的數(shù)據(jù)(即離散化或者叫水平化); 定量處理就是把分類(lèi)型的數(shù)據(jù)轉(zhuǎn)換成連續(xù)型的數(shù)據(jù). 這個(gè)問(wèn)題在之前, 個(gè)人一直以為: 定性處理很簡(jiǎn)單, 不就是簡(jiǎn)單地”分段”嘛! 但是定量怎么處理呢? 下面有講, 這里著重提一下, 主要通過(guò)把”某個(gè)變量取某個(gè)水平值”的問(wèn)題轉(zhuǎn)換成”某個(gè)變量等于某個(gè)水平值的概率”的問(wèn)題. 這就實(shí)現(xiàn)了量化處理。
定性與定量的處理一般都是針對(duì)特定的算法做的,比方說(shuō),在要用回歸的方式來(lái)解決分類(lèi)問(wèn)題,而且此時(shí)解釋變量中有分類(lèi)型的變量,此時(shí)就需要做定量處理;又比方說(shuō),在某些不支持輸入變量為分類(lèi)型的變量的算法中,需要先做定性處理后才能使用該算法。
需要注意以下幾個(gè)細(xì)節(jié):
l 相關(guān)參數(shù)的理解
1) 各系數(shù)對(duì)應(yīng)的P值
意義: 對(duì)應(yīng)的系數(shù)是否有意義. 小于0.05(默認(rèn)), 則有意義; 否則, 無(wú)意義
原理: 通過(guò)T檢驗(yàn), 判斷各系數(shù)等0的概率. 即等于0與不等0兩水平下,對(duì)目標(biāo)連續(xù)指標(biāo)是否有顯著的影響. 小于0.05(默認(rèn)), 則有顯著影響(不可為0); 否則, 無(wú)顯著影響(可以為0)
2) 調(diào)整后的卡方值, 即 Adjusted R-squared
意義: 整體系數(shù)對(duì)目標(biāo)變量的關(guān)聯(lián)性
= 0 , 則完全不相關(guān)
<0.09 , 則不相關(guān)
>0.09 且 < 0.25, 則低度相關(guān)
>0.25 且 < 0.64, 則中度相關(guān)
>0.64, 則高度相關(guān)
= 1, 則完全相關(guān)
原理: 通過(guò)卡方檢驗(yàn), 判斷整體模型的有效性
3) F檢驗(yàn)對(duì)應(yīng)的P值
意義: 檢驗(yàn)整體模型的參數(shù)等于0的概率
原理: 通過(guò)F檢驗(yàn)判斷整體模型的有效性
l 模型的修訂
1) UPDATE方法
主要通過(guò)增加變量或者減少變量,或者對(duì)目標(biāo)變量做變換(取對(duì)數(shù)或者指數(shù)等). 這是一種人為修訂模型的方法.
2) STEP
主要通過(guò)減少變量的方法來(lái)使各變量都能通過(guò)T檢驗(yàn). 這是一種自動(dòng)修訂模型的方法.
l 分類(lèi)型變量在回歸中的處理
主要通過(guò)將分類(lèi)型變量的水平取值轉(zhuǎn)換成”是否等于某水平取值”的模式. 可以理解為取某個(gè)水平值的概率.
幾個(gè)常用的回歸方法:
主要是多變量回歸
l Logic 回歸
Logic回歸本質(zhì)上屬于分類(lèi)方法, 因?yàn)樗哪繕?biāo)變量是分類(lèi)型變量, 嚴(yán)格上說(shuō)是二分類(lèi). 只是它通過(guò)特定的公式把分類(lèi)問(wèn)題轉(zhuǎn)換成了回歸問(wèn)題. 將目標(biāo)變量由分類(lèi)型變量轉(zhuǎn)換成了連續(xù)型變量, 即”等于某個(gè)水平值的概率”. 由公式計(jì)算出的值大于0.5 即為正類(lèi); 否則為負(fù)類(lèi). Logic公式可以把一個(gè)線性模型的目標(biāo)值歸一到0-1之間.
大概步驟:
1) 目標(biāo)變量的LOGIC轉(zhuǎn)化. 必要時(shí)把解釋變量中的分類(lèi)型也轉(zhuǎn)化成連續(xù)型的.
2) 模型的修訂(其中的線性部分)
3) 預(yù)測(cè)和性能的衡量
l 回歸樹(shù) CART
它不僅可以處理回歸問(wèn)題,也可以處理分類(lèi)問(wèn)題. 也就是說(shuō)目標(biāo)變量可以是分類(lèi)型變量,也可以是連續(xù)型變量. 理論上它可以處理幾乎所有的分類(lèi)問(wèn)題.
回歸樹(shù)主要問(wèn)題在剪枝上. 通過(guò)觀察每次分裂項(xiàng), 選擇合適的分裂次數(shù)即可. CP值的大小基本上代表了結(jié)點(diǎn)的混合程度, 理論上隨著分裂, CP的值是越來(lái)越小的, XERR(預(yù)測(cè)的誤差)是先減小后增大, XSTD代表預(yù)測(cè)誤差的標(biāo)準(zhǔn)差. 一般選擇CP的原則是, 選擇最小XERR值正負(fù)對(duì)應(yīng)的XSTD范圍內(nèi),最小的XERR對(duì)應(yīng)的項(xiàng).
幾種常見(jiàn)的分類(lèi)方法:
l K鄰近KNN
它適合解決分類(lèi)問(wèn)題,但也可以解決回歸問(wèn)題。即目標(biāo)變量可以是分類(lèi)型的也可以是連續(xù)型的。
原理:通過(guò)計(jì)算與哪K個(gè)樣本點(diǎn)最近, 就把目標(biāo)點(diǎn)劃分到K個(gè)點(diǎn)中目標(biāo)分類(lèi)最多的分類(lèi). 因?yàn)樗總€(gè)點(diǎn)做計(jì)算, 因此計(jì)算量相當(dāng)大.
l 決策樹(shù)(C4.5 CART)
它適合處理多分類(lèi)問(wèn)題, 輸入可以是連續(xù)型的變量也可以是分類(lèi)型的變量.屬于規(guī)則性的分類(lèi)方法。
1) C4.5 它是在最原始的決策樹(shù)算法上做的一個(gè)改進(jìn)方法, 仍然使用熵來(lái)評(píng)估分裂條件的貢獻(xiàn)大小. 它根據(jù)取的每個(gè)水平值做分支條件, 因此是一種多叉樹(shù), 相比CART而言. 同樣它的重點(diǎn)在后剪枝上面.
這種方法在WEKA里面有非常成熟的一套實(shí)現(xiàn). 在R中可以把相應(yīng)的包給IMPORT進(jìn)來(lái)后, 直接調(diào)用.
2) CART 前面已經(jīng)提到后, 它在這里扮演的角色就是處理分類(lèi)問(wèn)題了. 它使用GINI來(lái)評(píng)估分裂條件的貢獻(xiàn)大小. 屬于二叉樹(shù), 相比C4.5. 關(guān)于它的剪枝方法不多介紹了.
l 樸素貝葉斯分類(lèi)
前提條件是各解釋變量間相互獨(dú)立, 因?yàn)樵诤芏鄷r(shí)候, 解釋變量是無(wú)法做到完全獨(dú)立的, 不過(guò), 貝葉斯神經(jīng)網(wǎng)絡(luò)可以解決獨(dú)立性問(wèn)題, 只是相對(duì)要復(fù)雜很多.
原理:目標(biāo)是計(jì)算X條件下取Y各水平值時(shí)的條件概率,選取其中條件概率最大的Y水平值。由于對(duì)于特定的X取值,本質(zhì)上就是從訓(xùn)練集中取X Y聯(lián)合概率分布中最大值。
適合處理二分類(lèi)問(wèn)題
原理:
在樣本點(diǎn)的特征空間中尋找一個(gè)合適的超平面, 使它的MARGIN邊緣最大化. 落在邊緣上的樣本點(diǎn)即為支持向量, 計(jì)算目標(biāo)分類(lèi)時(shí)只需要根據(jù)這些向量計(jì)算即可, 因此計(jì)算量特別小, 如果向量越多, 就越接近于KNN算法. 因此, 可以說(shuō)KNN 是SVM的一種特殊.
優(yōu)勢(shì):
1)在高維空間中特別有效,但維度最好不要超過(guò)樣本數(shù)。
2)計(jì)算時(shí)只使用支持向量,內(nèi)存利用率高
劣勢(shì):
1)維度數(shù)如果過(guò)高(遠(yuǎn)遠(yuǎn)超過(guò)樣本量)效果就不好
l AdaBoost 和 隨機(jī)森林
適合處理二分類(lèi)問(wèn)題
原理:
它們主要是通過(guò)把簡(jiǎn)單的分類(lèi)器, 加上權(quán)重后組合成一個(gè)大的分類(lèi)器, 然后用它來(lái)處理分類(lèi)問(wèn)題.
步驟:
1)用戶指定一個(gè)迭代次數(shù),初始化每個(gè)實(shí)例的權(quán)重。
2)選擇簡(jiǎn)單分類(lèi)器。每次迭代中,遍歷每個(gè)屬性的每個(gè)取值及每個(gè)條件(大于或者小于),根據(jù)它對(duì)樣本實(shí)例進(jìn)行劃分,滿足條件即為1;不滿足條件即為-1。最后取誤差率最小的組合條件作為簡(jiǎn)單分類(lèi)器。
3)根據(jù)簡(jiǎn)單分類(lèi)器的誤差計(jì)算出該分類(lèi)器的權(quán)重,然后再更新每個(gè)實(shí)例的權(quán)重。
4)將該簡(jiǎn)單分類(lèi)器加入到組合分類(lèi)器中,統(tǒng)計(jì)當(dāng)前組合分類(lèi)器的誤差個(gè)數(shù)。如果誤差個(gè)數(shù)達(dá)到0或者指定的下限值,就停止迭代。
可以解決多分類(lèi)問(wèn)題
原理:主要分為三層,輸入層、隱藏層、輸出層,各層的數(shù)據(jù)都是以神經(jīng)元的形式呈現(xiàn)的。輸出層中的神經(jīng)元對(duì)應(yīng)到輸入的維度,即有多個(gè)輸入維度就有多少個(gè)神經(jīng)元;隱藏層中神經(jīng)元的個(gè)數(shù)作為參數(shù)的形式由應(yīng)用傳入,它跟分類(lèi)的個(gè)數(shù)有關(guān);輸出層中神經(jīng)元的個(gè)數(shù)對(duì)應(yīng)到分類(lèi)的個(gè)數(shù),即如果是二分類(lèi),一個(gè)神經(jīng)元就成(大于0.5為1,小于0.5為0),如果是多分類(lèi),幾分類(lèi)就對(duì)應(yīng)幾個(gè)神經(jīng)元(每個(gè)神經(jīng)元的輸出對(duì)應(yīng)一個(gè)分類(lèi),大于0.5為真,小于0.5為假,這也是將分類(lèi)問(wèn)題轉(zhuǎn)化為線性問(wèn)題的一個(gè)地方)。各層之間的關(guān)系通過(guò)一個(gè)一元一階線性函數(shù)來(lái)關(guān)聯(lián)的。在遍歷每個(gè)實(shí)例的過(guò)程中,計(jì)算輸出層中神經(jīng)元的輸出誤差,以此,然后倒推計(jì)算出隱藏層的輸出誤差,分別更新隱藏層與輸出層之間關(guān)聯(lián)函數(shù)的系數(shù)和輸出層與隱藏層之間關(guān)聯(lián)函數(shù)的系數(shù)。
注意:
二分類(lèi)器與多分類(lèi)器本質(zhì)上沒(méi)有明顯的界限, 可以重復(fù)利用二分類(lèi)器來(lái)解決多分類(lèi)問(wèn)題, 所以分類(lèi)問(wèn)題不必在分類(lèi)方法上有所顧慮, 注重的是分類(lèi)的性能問(wèn)題.
l 最簡(jiǎn)單的方式是直接觀察分類(lèi)器在測(cè)試集中的預(yù)測(cè)準(zhǔn)確率大小
l 由于交叉驗(yàn)證需要做大量的計(jì)算,耗費(fèi)大量的CPU,因此在機(jī)器能夠承受的情況下,
通過(guò)交叉驗(yàn)證的方式來(lái)取平均預(yù)測(cè)準(zhǔn)確率的大小,從而判斷分類(lèi)器的性能。
l 對(duì)于某些場(chǎng)景,比如在二分類(lèi)問(wèn)題中,應(yīng)用比較關(guān)注預(yù)測(cè)為正例的正確率,此時(shí),會(huì)經(jīng)常用到ROC曲線及AUC面積來(lái)考證一個(gè)分類(lèi)器的性能。這種方式主要應(yīng)用在金融領(lǐng)域,對(duì)用戶的信用度進(jìn)行評(píng)估時(shí)。
補(bǔ)充:
1)ROC曲線是FPR(預(yù)測(cè)為正例,但為錯(cuò)誤判斷的概率)與TPR(預(yù)測(cè)為正例,而且也為正確判斷的概率)曲線。FPR = FP/(TN+FP) 表示負(fù)例當(dāng)中被錯(cuò)誤地預(yù)測(cè)為正例的比例;查全率或者叫recall ,TPR = TP/(TP+FN) 表示正例當(dāng)中被正確地預(yù)測(cè)為正例的比例。
2)AUC面積指的是ROC曲線下的面積,即ROC曲線與X軸(FPR)圍成的面積。面積越大,分類(lèi)器的性能越好。
l 對(duì)于某些場(chǎng)景,比如類(lèi)似精準(zhǔn)營(yíng)銷(xiāo)的問(wèn)題,希望通過(guò)對(duì)全體消費(fèi)者進(jìn)行分類(lèi),從而得到具有較高響應(yīng)率的客戶群,以便實(shí)現(xiàn)投入產(chǎn)出比。這時(shí),可以選擇提升曲線或者洛倫茲曲線作為評(píng)估分類(lèi)器的指標(biāo)。在提升曲線中,在Y軸值盡量大的情況下X軸值不能太小。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03