99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀統(tǒng)計(jì)中分類(lèi)算法總結(jié)
統(tǒng)計(jì)中分類(lèi)算法總結(jié)
2016-03-19
收藏

統(tǒng)計(jì)中分類(lèi)算法總結(jié)

對(duì)于很多做統(tǒng)計(jì)的人員來(lái)說(shuō),對(duì)統(tǒng)計(jì)中的算法知道的不是很全面,下面就對(duì)統(tǒng)計(jì)中分類(lèi)算法做個(gè)總結(jié)。

數(shù)據(jù)轉(zhuǎn)換

主要有兩種:

l   歸一化處理

主要通過(guò)把數(shù)據(jù)歸一到一特定的區(qū)間范圍,如[0,1],便于明確樣本值在指標(biāo)整體中的位置.

應(yīng)用場(chǎng)景: 歸一化處理基本上是所有分析計(jì)算之前必做的一個(gè)預(yù)處理.

l   標(biāo)準(zhǔn)化處理

主要是通過(guò)把數(shù)據(jù)標(biāo)準(zhǔn)到正態(tài)分布區(qū)間內(nèi),便于各FEATURE之間的計(jì)算,即考慮綜合指標(biāo)的之間的作用時(shí).

應(yīng)用場(chǎng)景: 標(biāo)準(zhǔn)化處理主要用在聚類(lèi)分析中.

假設(shè)檢驗(yàn)

主要有四種常見(jiàn)的檢驗(yàn)方式:

一)   連續(xù)型指標(biāo)的檢驗(yàn)

l   T檢驗(yàn)

應(yīng)用場(chǎng)景: 判斷二分類(lèi)變量對(duì)一連續(xù)型指標(biāo)的顯著影響

前提條件: 沒(méi)有,就是針對(duì)二分類(lèi)變量的

原理: 判斷不同水平間目標(biāo)連續(xù)指標(biāo)的均值是否相等

例子: 性別對(duì)某APP訪問(wèn)量的影響

l   單因素方差分析

應(yīng)用場(chǎng)景: 判斷多分類(lèi)變量對(duì)一連續(xù)型指標(biāo)的顯著影響

前提條件:

1)       多分類(lèi)變量

2)       各水平(分組)數(shù)據(jù)的特征:

a)         服從正態(tài)分布

b)         方差相等(方差齊次)

檢驗(yàn)流程:

例子: 各年齡段對(duì)某APP訪問(wèn)量的影響

l   單因素協(xié)方差分析

應(yīng)用場(chǎng)景: 在某一連續(xù)變量影響下,判斷多分類(lèi)變量對(duì)目標(biāo)連續(xù)指標(biāo)的顯著影響

前提條件:

1)       另一連續(xù)變量對(duì)目標(biāo)連續(xù)型指標(biāo)有影響

2)       多分類(lèi)變量

3)       各水平(分組)數(shù)據(jù)的特征:

a)         服從正態(tài)分布

b)         方差相等(方差齊次)

4)       連續(xù)變量與分類(lèi)變量無(wú)交互作用

如何判斷兩者之間的交互作用:

1)       分別做它們與目標(biāo)連續(xù)指標(biāo)的回歸分析, 觀察斜率是否相同. 如果相同, 則無(wú)交互作用; 否則, 有交互作用

2)       直接根據(jù)AOV(Y ~ X1*X2)作回歸分析, 觀察綜合因素X1*X2對(duì)應(yīng)的概率P是否小于0.05(默認(rèn)). 即T檢驗(yàn)對(duì)應(yīng)斜率等于0的概率.如果小于0.05, 則有交互作用; 否則, 無(wú)交互作用.

例子: 注冊(cè)時(shí)間的影響下不同年齡段對(duì)某APP訪問(wèn)量的顯著影響

二)   非連續(xù)型指標(biāo)的檢驗(yàn)

l   卡方檢驗(yàn)

應(yīng)用場(chǎng)景: 對(duì)比分類(lèi)變量在不同水平下的轉(zhuǎn)換率數(shù)據(jù)是否有顯著差異

前提條件:

1)       目標(biāo)變量為分類(lèi)變量(例如: 網(wǎng)站用戶數(shù)可分為下訂單數(shù)與非下訂單數(shù))

原理: 判斷目標(biāo)分類(lèi)變量在不同水平下差異. 這里具體的可以參考卡方公式

例子: 網(wǎng)站改版前后對(duì)訂單的轉(zhuǎn)換有無(wú)影響(訂單的轉(zhuǎn)換率的顯著變化)

數(shù)據(jù)定性與定量處理

說(shuō)的定性就是把連續(xù)型的數(shù)據(jù)轉(zhuǎn)換成分類(lèi)型的數(shù)據(jù)(即離散化或者叫水平化); 定量處理就是把分類(lèi)型的數(shù)據(jù)轉(zhuǎn)換成連續(xù)型的數(shù)據(jù). 這個(gè)問(wèn)題在之前, 個(gè)人一直以為: 定性處理很簡(jiǎn)單, 不就是簡(jiǎn)單地”分段”嘛! 但是定量怎么處理呢? 下面有講, 這里著重提一下, 主要通過(guò)把”某個(gè)變量取某個(gè)水平值”的問(wèn)題轉(zhuǎn)換成”某個(gè)變量等于某個(gè)水平值的概率”的問(wèn)題. 這就實(shí)現(xiàn)了量化處理。
定性與定量的處理一般都是針對(duì)特定的算法做的,比方說(shuō),在要用回歸的方式來(lái)解決分類(lèi)問(wèn)題,而且此時(shí)解釋變量中有分類(lèi)型的變量,此時(shí)就需要做定量處理;又比方說(shuō),在某些不支持輸入變量為分類(lèi)型的變量的算法中,需要先做定性處理后才能使用該算法。

回歸建模

需要注意以下幾個(gè)細(xì)節(jié):

l  相關(guān)參數(shù)的理解

1)        各系數(shù)對(duì)應(yīng)的P值

意義: 對(duì)應(yīng)的系數(shù)是否有意義. 小于0.05(默認(rèn)), 則有意義; 否則, 無(wú)意義

原理: 通過(guò)T檢驗(yàn), 判斷各系數(shù)等0的概率. 即等于0與不等0兩水平下,對(duì)目標(biāo)連續(xù)指標(biāo)是否有顯著的影響. 小于0.05(默認(rèn)), 則有顯著影響(不可為0); 否則, 無(wú)顯著影響(可以為0)

2)        調(diào)整后的卡方值, 即 Adjusted R-squared

意義: 整體系數(shù)對(duì)目標(biāo)變量的關(guān)聯(lián)性

= 0 , 則完全不相關(guān)

<0.09 , 則不相關(guān)

>0.09 且 < 0.25, 則低度相關(guān)

>0.25 且 < 0.64, 則中度相關(guān)

>0.64, 則高度相關(guān)

= 1, 則完全相關(guān)

原理: 通過(guò)卡方檢驗(yàn), 判斷整體模型的有效性

3)         F檢驗(yàn)對(duì)應(yīng)的P值

意義: 檢驗(yàn)整體模型的參數(shù)等于0的概率

原理: 通過(guò)F檢驗(yàn)判斷整體模型的有效性

l  模型的修訂

1)        UPDATE方法

主要通過(guò)增加變量或者減少變量,或者對(duì)目標(biāo)變量做變換(取對(duì)數(shù)或者指數(shù)等). 這是一種人為修訂模型的方法.

2)        STEP

主要通過(guò)減少變量的方法來(lái)使各變量都能通過(guò)T檢驗(yàn). 這是一種自動(dòng)修訂模型的方法.

l  分類(lèi)型變量在回歸中的處理

主要通過(guò)將分類(lèi)型變量的水平取值轉(zhuǎn)換成”是否等于某水平取值”的模式. 可以理解為取某個(gè)水平值的概率.

幾個(gè)常用的回歸方法:

l  線性回歸

主要是多變量回歸

l  Logic 回歸

Logic回歸本質(zhì)上屬于分類(lèi)方法, 因?yàn)樗哪繕?biāo)變量是分類(lèi)型變量, 嚴(yán)格上說(shuō)是二分類(lèi). 只是它通過(guò)特定的公式把分類(lèi)問(wèn)題轉(zhuǎn)換成了回歸問(wèn)題. 將目標(biāo)變量由分類(lèi)型變量轉(zhuǎn)換成了連續(xù)型變量, 即”等于某個(gè)水平值的概率”. 由公式計(jì)算出的值大于0.5 即為正類(lèi); 否則為負(fù)類(lèi). Logic公式可以把一個(gè)線性模型的目標(biāo)值歸一到0-1之間.

大概步驟:

1)        目標(biāo)變量的LOGIC轉(zhuǎn)化. 必要時(shí)把解釋變量中的分類(lèi)型也轉(zhuǎn)化成連續(xù)型的.

2)        模型的修訂(其中的線性部分)

3)        預(yù)測(cè)和性能的衡量

l  回歸樹(shù) CART

它不僅可以處理回歸問(wèn)題,也可以處理分類(lèi)問(wèn)題. 也就是說(shuō)目標(biāo)變量可以是分類(lèi)型變量,也可以是連續(xù)型變量. 理論上它可以處理幾乎所有的分類(lèi)問(wèn)題.

回歸樹(shù)主要問(wèn)題在剪枝上. 通過(guò)觀察每次分裂項(xiàng), 選擇合適的分裂次數(shù)即可. CP值的大小基本上代表了結(jié)點(diǎn)的混合程度, 理論上隨著分裂, CP的值是越來(lái)越小的, XERR(預(yù)測(cè)的誤差)是先減小后增大, XSTD代表預(yù)測(cè)誤差的標(biāo)準(zhǔn)差. 一般選擇CP的原則是, 選擇最小XERR值正負(fù)對(duì)應(yīng)的XSTD范圍內(nèi),最小的XERR對(duì)應(yīng)的項(xiàng).

分類(lèi)建模

幾種常見(jiàn)的分類(lèi)方法:

l  K鄰近KNN

它適合解決分類(lèi)問(wèn)題,但也可以解決回歸問(wèn)題。即目標(biāo)變量可以是分類(lèi)型的也可以是連續(xù)型的。

原理:通過(guò)計(jì)算與哪K個(gè)樣本點(diǎn)最近, 就把目標(biāo)點(diǎn)劃分到K個(gè)點(diǎn)中目標(biāo)分類(lèi)最多的分類(lèi). 因?yàn)樗總€(gè)點(diǎn)做計(jì)算, 因此計(jì)算量相當(dāng)大.

l  決策樹(shù)(C4.5 CART)

它適合處理多分類(lèi)問(wèn)題, 輸入可以是連續(xù)型的變量也可以是分類(lèi)型的變量.屬于規(guī)則性的分類(lèi)方法。

1)       C4.5 它是在最原始的決策樹(shù)算法上做的一個(gè)改進(jìn)方法, 仍然使用熵來(lái)評(píng)估分裂條件的貢獻(xiàn)大小. 它根據(jù)取的每個(gè)水平值做分支條件, 因此是一種多叉樹(shù), 相比CART而言. 同樣它的重點(diǎn)在后剪枝上面.

這種方法在WEKA里面有非常成熟的一套實(shí)現(xiàn). 在R中可以把相應(yīng)的包給IMPORT進(jìn)來(lái)后, 直接調(diào)用.

2)       CART 前面已經(jīng)提到后, 它在這里扮演的角色就是處理分類(lèi)問(wèn)題了. 它使用GINI來(lái)評(píng)估分裂條件的貢獻(xiàn)大小. 屬于二叉樹(shù), 相比C4.5. 關(guān)于它的剪枝方法不多介紹了.

l  樸素貝葉斯分類(lèi)

前提條件是各解釋變量間相互獨(dú)立, 因?yàn)樵诤芏鄷r(shí)候, 解釋變量是無(wú)法做到完全獨(dú)立的, 不過(guò), 貝葉斯神經(jīng)網(wǎng)絡(luò)可以解決獨(dú)立性問(wèn)題, 只是相對(duì)要復(fù)雜很多.

原理:目標(biāo)是計(jì)算X條件下取Y各水平值時(shí)的條件概率,選取其中條件概率最大的Y水平值。由于對(duì)于特定的X取值,本質(zhì)上就是從訓(xùn)練集中取X Y聯(lián)合概率分布中最大值。

l  支持向量機(jī)SVM

適合處理二分類(lèi)問(wèn)題

原理:

在樣本點(diǎn)的特征空間中尋找一個(gè)合適的超平面, 使它的MARGIN邊緣最大化. 落在邊緣上的樣本點(diǎn)即為支持向量, 計(jì)算目標(biāo)分類(lèi)時(shí)只需要根據(jù)這些向量計(jì)算即可, 因此計(jì)算量特別小, 如果向量越多, 就越接近于KNN算法. 因此, 可以說(shuō)KNN 是SVM的一種特殊.

優(yōu)勢(shì):

1)在高維空間中特別有效,但維度最好不要超過(guò)樣本數(shù)。

2)計(jì)算時(shí)只使用支持向量,內(nèi)存利用率高

劣勢(shì):

1)維度數(shù)如果過(guò)高(遠(yuǎn)遠(yuǎn)超過(guò)樣本量)效果就不好

l  AdaBoost 和 隨機(jī)森林

適合處理二分類(lèi)問(wèn)題

原理:

它們主要是通過(guò)把簡(jiǎn)單的分類(lèi)器, 加上權(quán)重后組合成一個(gè)大的分類(lèi)器, 然后用它來(lái)處理分類(lèi)問(wèn)題.

步驟:

1)用戶指定一個(gè)迭代次數(shù),初始化每個(gè)實(shí)例的權(quán)重。

2)選擇簡(jiǎn)單分類(lèi)器。每次迭代中,遍歷每個(gè)屬性的每個(gè)取值及每個(gè)條件(大于或者小于),根據(jù)它對(duì)樣本實(shí)例進(jìn)行劃分,滿足條件即為1;不滿足條件即為-1。最后取誤差率最小的組合條件作為簡(jiǎn)單分類(lèi)器。

3)根據(jù)簡(jiǎn)單分類(lèi)器的誤差計(jì)算出該分類(lèi)器的權(quán)重,然后再更新每個(gè)實(shí)例的權(quán)重。

4)將該簡(jiǎn)單分類(lèi)器加入到組合分類(lèi)器中,統(tǒng)計(jì)當(dāng)前組合分類(lèi)器的誤差個(gè)數(shù)。如果誤差個(gè)數(shù)達(dá)到0或者指定的下限值,就停止迭代。

l  人工神經(jīng)網(wǎng)絡(luò)

可以解決多分類(lèi)問(wèn)題

原理:主要分為三層,輸入層、隱藏層、輸出層,各層的數(shù)據(jù)都是以神經(jīng)元的形式呈現(xiàn)的。輸出層中的神經(jīng)元對(duì)應(yīng)到輸入的維度,即有多個(gè)輸入維度就有多少個(gè)神經(jīng)元;隱藏層中神經(jīng)元的個(gè)數(shù)作為參數(shù)的形式由應(yīng)用傳入,它跟分類(lèi)的個(gè)數(shù)有關(guān);輸出層中神經(jīng)元的個(gè)數(shù)對(duì)應(yīng)到分類(lèi)的個(gè)數(shù),即如果是二分類(lèi),一個(gè)神經(jīng)元就成(大于0.5為1,小于0.5為0),如果是多分類(lèi),幾分類(lèi)就對(duì)應(yīng)幾個(gè)神經(jīng)元(每個(gè)神經(jīng)元的輸出對(duì)應(yīng)一個(gè)分類(lèi),大于0.5為真,小于0.5為假,這也是將分類(lèi)問(wèn)題轉(zhuǎn)化為線性問(wèn)題的一個(gè)地方)。各層之間的關(guān)系通過(guò)一個(gè)一元一階線性函數(shù)來(lái)關(guān)聯(lián)的。在遍歷每個(gè)實(shí)例的過(guò)程中,計(jì)算輸出層中神經(jīng)元的輸出誤差,以此,然后倒推計(jì)算出隱藏層的輸出誤差,分別更新隱藏層與輸出層之間關(guān)聯(lián)函數(shù)的系數(shù)和輸出層與隱藏層之間關(guān)聯(lián)函數(shù)的系數(shù)。

注意:

二分類(lèi)器與多分類(lèi)器本質(zhì)上沒(méi)有明顯的界限, 可以重復(fù)利用二分類(lèi)器來(lái)解決多分類(lèi)問(wèn)題, 所以分類(lèi)問(wèn)題不必在分類(lèi)方法上有所顧慮, 注重的是分類(lèi)的性能問(wèn)題.

分類(lèi)器性能評(píng)估

l  最簡(jiǎn)單的方式是直接觀察分類(lèi)器在測(cè)試集中的預(yù)測(cè)準(zhǔn)確率大小

l  由于交叉驗(yàn)證需要做大量的計(jì)算,耗費(fèi)大量的CPU,因此在機(jī)器能夠承受的情況下,

通過(guò)交叉驗(yàn)證的方式來(lái)取平均預(yù)測(cè)準(zhǔn)確率的大小,從而判斷分類(lèi)器的性能。

l  對(duì)于某些場(chǎng)景,比如在二分類(lèi)問(wèn)題中,應(yīng)用比較關(guān)注預(yù)測(cè)為正例的正確率,此時(shí),會(huì)經(jīng)常用到ROC曲線及AUC面積來(lái)考證一個(gè)分類(lèi)器的性能。這種方式主要應(yīng)用在金融領(lǐng)域,對(duì)用戶的信用度進(jìn)行評(píng)估時(shí)。

補(bǔ)充:

1)ROC曲線是FPR(預(yù)測(cè)為正例,但為錯(cuò)誤判斷的概率)與TPR(預(yù)測(cè)為正例,而且也為正確判斷的概率)曲線。FPR = FP/(TN+FP) 表示負(fù)例當(dāng)中被錯(cuò)誤地預(yù)測(cè)為正例的比例;查全率或者叫recall ,TPR = TP/(TP+FN) 表示正例當(dāng)中被正確地預(yù)測(cè)為正例的比例。

2)AUC面積指的是ROC曲線下的面積,即ROC曲線與X軸(FPR)圍成的面積。面積越大,分類(lèi)器的性能越好。

l  對(duì)于某些場(chǎng)景,比如類(lèi)似精準(zhǔn)營(yíng)銷(xiāo)的問(wèn)題,希望通過(guò)對(duì)全體消費(fèi)者進(jìn)行分類(lèi),從而得到具有較高響應(yīng)率的客戶群,以便實(shí)現(xiàn)投入產(chǎn)出比。這時(shí),可以選擇提升曲線或者洛倫茲曲線作為評(píng)估分類(lèi)器的指標(biāo)。在提升曲線中,在Y軸值盡量大的情況下X軸值不能太小。

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }