
對于很多做統(tǒng)計的人員來說,對統(tǒng)計中的算法知道的不是很全面,下面就對統(tǒng)計中分類算法做個總結。
主要有兩種:
l 歸一化處理
主要通過把數(shù)據(jù)歸一到一特定的區(qū)間范圍,如[0,1],便于明確樣本值在指標整體中的位置.
應用場景: 歸一化處理基本上是所有分析計算之前必做的一個預處理.
l 標準化處理
主要是通過把數(shù)據(jù)標準到正態(tài)分布區(qū)間內(nèi),便于各FEATURE之間的計算,即考慮綜合指標的之間的作用時.
應用場景: 標準化處理主要用在聚類分析中.
主要有四種常見的檢驗方式:
一) 連續(xù)型指標的檢驗
l T檢驗
應用場景: 判斷二分類變量對一連續(xù)型指標的顯著影響
前提條件: 沒有,就是針對二分類變量的
原理: 判斷不同水平間目標連續(xù)指標的均值是否相等
例子: 性別對某APP訪問量的影響
l 單因素方差分析
應用場景: 判斷多分類變量對一連續(xù)型指標的顯著影響
前提條件:
1) 多分類變量
2) 各水平(分組)數(shù)據(jù)的特征:
a) 服從正態(tài)分布
b) 方差相等(方差齊次)
檢驗流程:
例子: 各年齡段對某APP訪問量的影響
l 單因素協(xié)方差分析
應用場景: 在某一連續(xù)變量影響下,判斷多分類變量對目標連續(xù)指標的顯著影響
前提條件:
1) 另一連續(xù)變量對目標連續(xù)型指標有影響
2) 多分類變量
3) 各水平(分組)數(shù)據(jù)的特征:
a) 服從正態(tài)分布
b) 方差相等(方差齊次)
4) 連續(xù)變量與分類變量無交互作用
如何判斷兩者之間的交互作用:
1) 分別做它們與目標連續(xù)指標的回歸分析, 觀察斜率是否相同. 如果相同, 則無交互作用; 否則, 有交互作用
2) 直接根據(jù)AOV(Y ~ X1*X2)作回歸分析, 觀察綜合因素X1*X2對應的概率P是否小于0.05(默認). 即T檢驗對應斜率等于0的概率.如果小于0.05, 則有交互作用; 否則, 無交互作用.
例子: 注冊時間的影響下不同年齡段對某APP訪問量的顯著影響
二) 非連續(xù)型指標的檢驗
l 卡方檢驗
應用場景: 對比分類變量在不同水平下的轉換率數(shù)據(jù)是否有顯著差異
前提條件:
1) 目標變量為分類變量(例如: 網(wǎng)站用戶數(shù)可分為下訂單數(shù)與非下訂單數(shù))
原理: 判斷目標分類變量在不同水平下差異. 這里具體的可以參考卡方公式
例子: 網(wǎng)站改版前后對訂單的轉換有無影響(訂單的轉換率的顯著變化)
說的定性就是把連續(xù)型的數(shù)據(jù)轉換成分類型的數(shù)據(jù)(即離散化或者叫水平化); 定量處理就是把分類型的數(shù)據(jù)轉換成連續(xù)型的數(shù)據(jù). 這個問題在之前, 個人一直以為: 定性處理很簡單, 不就是簡單地”分段”嘛! 但是定量怎么處理呢? 下面有講, 這里著重提一下, 主要通過把”某個變量取某個水平值”的問題轉換成”某個變量等于某個水平值的概率”的問題. 這就實現(xiàn)了量化處理。
定性與定量的處理一般都是針對特定的算法做的,比方說,在要用回歸的方式來解決分類問題,而且此時解釋變量中有分類型的變量,此時就需要做定量處理;又比方說,在某些不支持輸入變量為分類型的變量的算法中,需要先做定性處理后才能使用該算法。
需要注意以下幾個細節(jié):
l 相關參數(shù)的理解
1) 各系數(shù)對應的P值
意義: 對應的系數(shù)是否有意義. 小于0.05(默認), 則有意義; 否則, 無意義
原理: 通過T檢驗, 判斷各系數(shù)等0的概率. 即等于0與不等0兩水平下,對目標連續(xù)指標是否有顯著的影響. 小于0.05(默認), 則有顯著影響(不可為0); 否則, 無顯著影響(可以為0)
2) 調整后的卡方值, 即 Adjusted R-squared
意義: 整體系數(shù)對目標變量的關聯(lián)性
= 0 , 則完全不相關
<0.09 , 則不相關
>0.09 且 < 0.25, 則低度相關
>0.25 且 < 0.64, 則中度相關
>0.64, 則高度相關
= 1, 則完全相關
原理: 通過卡方檢驗, 判斷整體模型的有效性
3) F檢驗對應的P值
意義: 檢驗整體模型的參數(shù)等于0的概率
原理: 通過F檢驗判斷整體模型的有效性
l 模型的修訂
1) UPDATE方法
主要通過增加變量或者減少變量,或者對目標變量做變換(取對數(shù)或者指數(shù)等). 這是一種人為修訂模型的方法.
2) STEP
主要通過減少變量的方法來使各變量都能通過T檢驗. 這是一種自動修訂模型的方法.
l 分類型變量在回歸中的處理
主要通過將分類型變量的水平取值轉換成”是否等于某水平取值”的模式. 可以理解為取某個水平值的概率.
幾個常用的回歸方法:
主要是多變量回歸
l Logic 回歸
Logic回歸本質上屬于分類方法, 因為它的目標變量是分類型變量, 嚴格上說是二分類. 只是它通過特定的公式把分類問題轉換成了回歸問題. 將目標變量由分類型變量轉換成了連續(xù)型變量, 即”等于某個水平值的概率”. 由公式計算出的值大于0.5 即為正類; 否則為負類. Logic公式可以把一個線性模型的目標值歸一到0-1之間.
大概步驟:
1) 目標變量的LOGIC轉化. 必要時把解釋變量中的分類型也轉化成連續(xù)型的.
2) 模型的修訂(其中的線性部分)
3) 預測和性能的衡量
l 回歸樹 CART
它不僅可以處理回歸問題,也可以處理分類問題. 也就是說目標變量可以是分類型變量,也可以是連續(xù)型變量. 理論上它可以處理幾乎所有的分類問題.
回歸樹主要問題在剪枝上. 通過觀察每次分裂項, 選擇合適的分裂次數(shù)即可. CP值的大小基本上代表了結點的混合程度, 理論上隨著分裂, CP的值是越來越小的, XERR(預測的誤差)是先減小后增大, XSTD代表預測誤差的標準差. 一般選擇CP的原則是, 選擇最小XERR值正負對應的XSTD范圍內(nèi),最小的XERR對應的項.
幾種常見的分類方法:
l K鄰近KNN
它適合解決分類問題,但也可以解決回歸問題。即目標變量可以是分類型的也可以是連續(xù)型的。
原理:通過計算與哪K個樣本點最近, 就把目標點劃分到K個點中目標分類最多的分類. 因為它要跟每個點做計算, 因此計算量相當大.
l 決策樹(C4.5 CART)
它適合處理多分類問題, 輸入可以是連續(xù)型的變量也可以是分類型的變量.屬于規(guī)則性的分類方法。
1) C4.5 它是在最原始的決策樹算法上做的一個改進方法, 仍然使用熵來評估分裂條件的貢獻大小. 它根據(jù)取的每個水平值做分支條件, 因此是一種多叉樹, 相比CART而言. 同樣它的重點在后剪枝上面.
這種方法在WEKA里面有非常成熟的一套實現(xiàn). 在R中可以把相應的包給IMPORT進來后, 直接調用.
2) CART 前面已經(jīng)提到后, 它在這里扮演的角色就是處理分類問題了. 它使用GINI來評估分裂條件的貢獻大小. 屬于二叉樹, 相比C4.5. 關于它的剪枝方法不多介紹了.
l 樸素貝葉斯分類
前提條件是各解釋變量間相互獨立, 因為在很多時候, 解釋變量是無法做到完全獨立的, 不過, 貝葉斯神經(jīng)網(wǎng)絡可以解決獨立性問題, 只是相對要復雜很多.
原理:目標是計算X條件下取Y各水平值時的條件概率,選取其中條件概率最大的Y水平值。由于對于特定的X取值,本質上就是從訓練集中取X Y聯(lián)合概率分布中最大值。
適合處理二分類問題
原理:
在樣本點的特征空間中尋找一個合適的超平面, 使它的MARGIN邊緣最大化. 落在邊緣上的樣本點即為支持向量, 計算目標分類時只需要根據(jù)這些向量計算即可, 因此計算量特別小, 如果向量越多, 就越接近于KNN算法. 因此, 可以說KNN 是SVM的一種特殊.
優(yōu)勢:
1)在高維空間中特別有效,但維度最好不要超過樣本數(shù)。
2)計算時只使用支持向量,內(nèi)存利用率高
劣勢:
1)維度數(shù)如果過高(遠遠超過樣本量)效果就不好
l AdaBoost 和 隨機森林
適合處理二分類問題
原理:
它們主要是通過把簡單的分類器, 加上權重后組合成一個大的分類器, 然后用它來處理分類問題.
步驟:
1)用戶指定一個迭代次數(shù),初始化每個實例的權重。
2)選擇簡單分類器。每次迭代中,遍歷每個屬性的每個取值及每個條件(大于或者小于),根據(jù)它對樣本實例進行劃分,滿足條件即為1;不滿足條件即為-1。最后取誤差率最小的組合條件作為簡單分類器。
3)根據(jù)簡單分類器的誤差計算出該分類器的權重,然后再更新每個實例的權重。
4)將該簡單分類器加入到組合分類器中,統(tǒng)計當前組合分類器的誤差個數(shù)。如果誤差個數(shù)達到0或者指定的下限值,就停止迭代。
l 人工神經(jīng)網(wǎng)絡
可以解決多分類問題
原理:主要分為三層,輸入層、隱藏層、輸出層,各層的數(shù)據(jù)都是以神經(jīng)元的形式呈現(xiàn)的。輸出層中的神經(jīng)元對應到輸入的維度,即有多個輸入維度就有多少個神經(jīng)元;隱藏層中神經(jīng)元的個數(shù)作為參數(shù)的形式由應用傳入,它跟分類的個數(shù)有關;輸出層中神經(jīng)元的個數(shù)對應到分類的個數(shù),即如果是二分類,一個神經(jīng)元就成(大于0.5為1,小于0.5為0),如果是多分類,幾分類就對應幾個神經(jīng)元(每個神經(jīng)元的輸出對應一個分類,大于0.5為真,小于0.5為假,這也是將分類問題轉化為線性問題的一個地方)。各層之間的關系通過一個一元一階線性函數(shù)來關聯(lián)的。在遍歷每個實例的過程中,計算輸出層中神經(jīng)元的輸出誤差,以此,然后倒推計算出隱藏層的輸出誤差,分別更新隱藏層與輸出層之間關聯(lián)函數(shù)的系數(shù)和輸出層與隱藏層之間關聯(lián)函數(shù)的系數(shù)。
注意:
二分類器與多分類器本質上沒有明顯的界限, 可以重復利用二分類器來解決多分類問題, 所以分類問題不必在分類方法上有所顧慮, 注重的是分類的性能問題.
l 最簡單的方式是直接觀察分類器在測試集中的預測準確率大小
l 由于交叉驗證需要做大量的計算,耗費大量的CPU,因此在機器能夠承受的情況下,
通過交叉驗證的方式來取平均預測準確率的大小,從而判斷分類器的性能。
l 對于某些場景,比如在二分類問題中,應用比較關注預測為正例的正確率,此時,會經(jīng)常用到ROC曲線及AUC面積來考證一個分類器的性能。這種方式主要應用在金融領域,對用戶的信用度進行評估時。
補充:
1)ROC曲線是FPR(預測為正例,但為錯誤判斷的概率)與TPR(預測為正例,而且也為正確判斷的概率)曲線。FPR = FP/(TN+FP) 表示負例當中被錯誤地預測為正例的比例;查全率或者叫recall ,TPR = TP/(TP+FN) 表示正例當中被正確地預測為正例的比例。
2)AUC面積指的是ROC曲線下的面積,即ROC曲線與X軸(FPR)圍成的面積。面積越大,分類器的性能越好。
l 對于某些場景,比如類似精準營銷的問題,希望通過對全體消費者進行分類,從而得到具有較高響應率的客戶群,以便實現(xiàn)投入產(chǎn)出比。這時,可以選擇提升曲線或者洛倫茲曲線作為評估分類器的指標。在提升曲線中,在Y軸值盡量大的情況下X軸值不能太小。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10