99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀統(tǒng)計中分類算法總結

統(tǒng)計中分類算法總結

2016-03-19

統(tǒng)計中分類算法總結

對于很多做統(tǒng)計的人員來說，對統(tǒng)計中的算法知道的不是很全面，下面就對統(tǒng)計中分類算法做個總結。

數(shù)據(jù)轉換

主要有兩種:

l 歸一化處理

主要通過把數(shù)據(jù)歸一到一特定的區(qū)間范圍，如[0,1],便于明確樣本值在指標整體中的位置.

應用場景: 歸一化處理基本上是所有分析計算之前必做的一個預處理.

l 標準化處理

主要是通過把數(shù)據(jù)標準到正態(tài)分布區(qū)間內(nèi),便于各FEATURE之間的計算,即考慮綜合指標的之間的作用時.

應用場景: 標準化處理主要用在聚類分析中.

假設檢驗

主要有四種常見的檢驗方式:

一) 連續(xù)型指標的檢驗

l T檢驗

應用場景: 判斷二分類變量對一連續(xù)型指標的顯著影響

前提條件: 沒有,就是針對二分類變量的

原理: 判斷不同水平間目標連續(xù)指標的均值是否相等

例子: 性別對某APP訪問量的影響

l 單因素方差分析

應用場景: 判斷多分類變量對一連續(xù)型指標的顯著影響

前提條件:

1) 多分類變量

2) 各水平(分組)數(shù)據(jù)的特征:

a) 服從正態(tài)分布

b) 方差相等(方差齊次)

檢驗流程:

例子: 各年齡段對某APP訪問量的影響

l 單因素協(xié)方差分析

應用場景: 在某一連續(xù)變量影響下,判斷多分類變量對目標連續(xù)指標的顯著影響

前提條件:

1) 另一連續(xù)變量對目標連續(xù)型指標有影響

2) 多分類變量

3) 各水平(分組)數(shù)據(jù)的特征:

a) 服從正態(tài)分布

b) 方差相等(方差齊次)

4) 連續(xù)變量與分類變量無交互作用

如何判斷兩者之間的交互作用:

1) 分別做它們與目標連續(xù)指標的回歸分析, 觀察斜率是否相同. 如果相同, 則無交互作用; 否則, 有交互作用

2) 直接根據(jù)AOV(Y ~ X1*X2)作回歸分析, 觀察綜合因素X1*X2對應的概率P是否小于0.05(默認). 即T檢驗對應斜率等于0的概率.如果小于0.05, 則有交互作用; 否則, 無交互作用.

例子: 注冊時間的影響下不同年齡段對某APP訪問量的顯著影響

二) 非連續(xù)型指標的檢驗

l 卡方檢驗

應用場景: 對比分類變量在不同水平下的轉換率數(shù)據(jù)是否有顯著差異

前提條件:

1) 目標變量為分類變量(例如: 網(wǎng)站用戶數(shù)可分為下訂單數(shù)與非下訂單數(shù))

原理: 判斷目標分類變量在不同水平下差異. 這里具體的可以參考卡方公式

例子: 網(wǎng)站改版前后對訂單的轉換有無影響(訂單的轉換率的顯著變化)

數(shù)據(jù)定性與定量處理

說的定性就是把連續(xù)型的數(shù)據(jù)轉換成分類型的數(shù)據(jù)(即離散化或者叫水平化); 定量處理就是把分類型的數(shù)據(jù)轉換成連續(xù)型的數(shù)據(jù). 這個問題在之前, 個人一直以為: 定性處理很簡單, 不就是簡單地”分段”嘛! 但是定量怎么處理呢? 下面有講, 這里著重提一下, 主要通過把”某個變量取某個水平值”的問題轉換成”某個變量等于某個水平值的概率”的問題. 這就實現(xiàn)了量化處理。
定性與定量的處理一般都是針對特定的算法做的，比方說，在要用回歸的方式來解決分類問題，而且此時解釋變量中有分類型的變量，此時就需要做定量處理；又比方說，在某些不支持輸入變量為分類型的變量的算法中，需要先做定性處理后才能使用該算法。

回歸建模

需要注意以下幾個細節(jié):

l 相關參數(shù)的理解

1) 各系數(shù)對應的P值

意義: 對應的系數(shù)是否有意義. 小于0.05(默認), 則有意義; 否則, 無意義

原理: 通過T檢驗, 判斷各系數(shù)等0的概率. 即等于0與不等0兩水平下,對目標連續(xù)指標是否有顯著的影響. 小于0.05(默認), 則有顯著影響(不可為0); 否則, 無顯著影響(可以為0)

2) 調整后的卡方值, 即 Adjusted R-squared

意義: 整體系數(shù)對目標變量的關聯(lián)性

= 0 , 則完全不相關

<0.09 , 則不相關

>0.09 且 < 0.25, 則低度相關

>0.25 且 < 0.64, 則中度相關

>0.64, 則高度相關

= 1, 則完全相關

原理: 通過卡方檢驗, 判斷整體模型的有效性

3) F檢驗對應的P值

意義: 檢驗整體模型的參數(shù)等于0的概率

原理: 通過F檢驗判斷整體模型的有效性

l 模型的修訂

1) UPDATE方法

主要通過增加變量或者減少變量,或者對目標變量做變換(取對數(shù)或者指數(shù)等). 這是一種人為修訂模型的方法.

2) STEP

主要通過減少變量的方法來使各變量都能通過T檢驗. 這是一種自動修訂模型的方法.

l 分類型變量在回歸中的處理

主要通過將分類型變量的水平取值轉換成”是否等于某水平取值”的模式. 可以理解為取某個水平值的概率.

幾個常用的回歸方法:

l 線性回歸

主要是多變量回歸

l Logic 回歸

Logic回歸本質上屬于分類方法, 因為它的目標變量是分類型變量, 嚴格上說是二分類. 只是它通過特定的公式把分類問題轉換成了回歸問題. 將目標變量由分類型變量轉換成了連續(xù)型變量, 即”等于某個水平值的概率”. 由公式計算出的值大于0.5 即為正類; 否則為負類. Logic公式可以把一個線性模型的目標值歸一到0-1之間.

大概步驟:

1) 目標變量的LOGIC轉化. 必要時把解釋變量中的分類型也轉化成連續(xù)型的.

2) 模型的修訂(其中的線性部分)

3) 預測和性能的衡量

l 回歸樹 CART

它不僅可以處理回歸問題,也可以處理分類問題. 也就是說目標變量可以是分類型變量,也可以是連續(xù)型變量. 理論上它可以處理幾乎所有的分類問題.

回歸樹主要問題在剪枝上. 通過觀察每次分裂項, 選擇合適的分裂次數(shù)即可. CP值的大小基本上代表了結點的混合程度, 理論上隨著分裂, CP的值是越來越小的, XERR(預測的誤差)是先減小后增大, XSTD代表預測誤差的標準差. 一般選擇CP的原則是, 選擇最小XERR值正負對應的XSTD范圍內(nèi),最小的XERR對應的項.

分類建模

幾種常見的分類方法:

l K鄰近KNN

它適合解決分類問題，但也可以解決回歸問題。即目標變量可以是分類型的也可以是連續(xù)型的。

原理：通過計算與哪K個樣本點最近, 就把目標點劃分到K個點中目標分類最多的分類. 因為它要跟每個點做計算, 因此計算量相當大.

l 決策樹(C4.5 CART)

它適合處理多分類問題, 輸入可以是連續(xù)型的變量也可以是分類型的變量.屬于規(guī)則性的分類方法。

1) C4.5 它是在最原始的決策樹算法上做的一個改進方法, 仍然使用熵來評估分裂條件的貢獻大小. 它根據(jù)取的每個水平值做分支條件, 因此是一種多叉樹, 相比CART而言. 同樣它的重點在后剪枝上面.

這種方法在WEKA里面有非常成熟的一套實現(xiàn). 在R中可以把相應的包給IMPORT進來后, 直接調用.

2) CART 前面已經(jīng)提到后, 它在這里扮演的角色就是處理分類問題了. 它使用GINI來評估分裂條件的貢獻大小. 屬于二叉樹, 相比C4.5. 關于它的剪枝方法不多介紹了.

l 樸素貝葉斯分類

前提條件是各解釋變量間相互獨立, 因為在很多時候, 解釋變量是無法做到完全獨立的, 不過, 貝葉斯神經(jīng)網(wǎng)絡可以解決獨立性問題, 只是相對要復雜很多.

原理：目標是計算X條件下取Y各水平值時的條件概率，選取其中條件概率最大的Y水平值。由于對于特定的X取值，本質上就是從訓練集中取X　Y聯(lián)合概率分布中最大值。

l 支持向量機 SVM

適合處理二分類問題

原理：

在樣本點的特征空間中尋找一個合適的超平面, 使它的MARGIN邊緣最大化. 落在邊緣上的樣本點即為支持向量,　計算目標分類時只需要根據(jù)這些向量計算即可, 因此計算量特別小, 如果向量越多, 就越接近于KNN算法. 因此, 可以說KNN 是SVM的一種特殊.

優(yōu)勢：

１）在高維空間中特別有效，但維度最好不要超過樣本數(shù)。

２）計算時只使用支持向量，內(nèi)存利用率高

劣勢：

１）維度數(shù)如果過高（遠遠超過樣本量）效果就不好

l AdaBoost 和隨機森林

適合處理二分類問題

原理：

它們主要是通過把簡單的分類器, 加上權重后組合成一個大的分類器, 然后用它來處理分類問題.

步驟：

１）用戶指定一個迭代次數(shù)，初始化每個實例的權重。

２）選擇簡單分類器。每次迭代中，遍歷每個屬性的每個取值及每個條件（大于或者小于），根據(jù)它對樣本實例進行劃分，滿足條件即為１；不滿足條件即為－１。最后取誤差率最小的組合條件作為簡單分類器。

３）根據(jù)簡單分類器的誤差計算出該分類器的權重，然后再更新每個實例的權重。

４）將該簡單分類器加入到組合分類器中，統(tǒng)計當前組合分類器的誤差個數(shù)。如果誤差個數(shù)達到０或者指定的下限值，就停止迭代。

l 人工神經(jīng)網(wǎng)絡

可以解決多分類問題

原理：主要分為三層，輸入層、隱藏層、輸出層，各層的數(shù)據(jù)都是以神經(jīng)元的形式呈現(xiàn)的。輸出層中的神經(jīng)元對應到輸入的維度，即有多個輸入維度就有多少個神經(jīng)元；隱藏層中神經(jīng)元的個數(shù)作為參數(shù)的形式由應用傳入，它跟分類的個數(shù)有關；輸出層中神經(jīng)元的個數(shù)對應到分類的個數(shù)，即如果是二分類，一個神經(jīng)元就成（大于０.５為１，小于０.５為０），如果是多分類，幾分類就對應幾個神經(jīng)元（每個神經(jīng)元的輸出對應一個分類，大于０.５為真，小于０.５為假，這也是將分類問題轉化為線性問題的一個地方）。各層之間的關系通過一個一元一階線性函數(shù)來關聯(lián)的。在遍歷每個實例的過程中，計算輸出層中神經(jīng)元的輸出誤差，以此，然后倒推計算出隱藏層的輸出誤差，分別更新隱藏層與輸出層之間關聯(lián)函數(shù)的系數(shù)和輸出層與隱藏層之間關聯(lián)函數(shù)的系數(shù)。

注意:

二分類器與多分類器本質上沒有明顯的界限, 可以重復利用二分類器來解決多分類問題, 所以分類問題不必在分類方法上有所顧慮, 注重的是分類的性能問題.

分類器性能評估

l 最簡單的方式是直接觀察分類器在測試集中的預測準確率大小

l 由于交叉驗證需要做大量的計算，耗費大量的CPU，因此在機器能夠承受的情況下，

通過交叉驗證的方式來取平均預測準確率的大小，從而判斷分類器的性能。

l 對于某些場景，比如在二分類問題中，應用比較關注預測為正例的正確率，此時，會經(jīng)常用到ROC曲線及AUC面積來考證一個分類器的性能。這種方式主要應用在金融領域，對用戶的信用度進行評估時。

補充：

１）ROC曲線是FPR（預測為正例，但為錯誤判斷的概率）與TPR（預測為正例，而且也為正確判斷的概率）曲線。FPR = FP/(TN+FP)　表示負例當中被錯誤地預測為正例的比例；查全率或者叫recall ，TPR = TP/(TP+FN) 表示正例當中被正確地預測為正例的比例。

２）AUC面積指的是ROC曲線下的面積，即ROC曲線與X軸（FPR）圍成的面積。面積越大，分類器的性能越好。

l 對于某些場景，比如類似精準營銷的問題，希望通過對全體消費者進行分類，從而得到具有較高響應率的客戶群，以便實現(xiàn)投入產(chǎn)出比。這時，可以選擇提升曲線或者洛倫茲曲線作為評估分類器的指標。在提升曲線中，在Y軸值盡量大的情況下X軸值不能太小。

CDA數(shù)據(jù)分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

特征正態(tài)分布 KNN 連續(xù)型變量 SVM 決策樹方差分析神經(jīng)網(wǎng)絡

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數(shù)據(jù)人才培養(yǎng)標準教育事業(yè)！

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

^{<sub id="9mu7v"></sub>}

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調，回調的第一個參數(shù)驗證碼對象，之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

統(tǒng)計中分類算法總結

統(tǒng)計中分類算法總結

數(shù)據(jù)轉換

假設檢驗

數(shù)據(jù)定性與定量處理

回歸建模

分類建模

分類器性能評估

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

統(tǒng)計中分類算法總結

統(tǒng)計中分類算法總結

數(shù)據(jù)轉換

假設檢驗

數(shù)據(jù)定性與定量處理

回歸建模

分類建模

分類器性能評估

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...