99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀數(shù)據(jù)挖掘中異常檢測
數(shù)據(jù)挖掘中異常檢測
2018-08-18
收藏
數(shù)據(jù)挖掘中異常檢測
最近在做聚類,是利用出租車上車下車地點(diǎn)信息聚類商圈和生活區(qū)域,在實(shí)戰(zhàn)過程中,遇到了很多問題
其一:聚類中心點(diǎn)的確定,我們聚類結(jié)果要返回一個經(jīng)緯度信息,或者說這是一個商圈的中心地點(diǎn)的一個顯示,最初是想用K-means做個簡單的展示版本,不得不感嘆K-means的強(qiáng)大,聚類結(jié)果還是是不錯的,不過聚類中心和附近商圈還是有一定的偏移
其二:異常點(diǎn)比較多。異常點(diǎn)的出現(xiàn),原因總是很多的,主要是兩個原因:數(shù)據(jù)錯誤或者這些是小概率事件。對于他們的處理,確實(shí)比較麻煩,因為我們知道,根據(jù)信息論只是,小概率事件有著更多的信息量,所以有時候他們更有價值,比如在一些金融公司的風(fēng)控系統(tǒng),他們希望找到異常賬號做分析,往往這些異常賬號是非常少的,這就涉及一個小樣本數(shù)據(jù)的問題。
問題一:最近在做調(diào)研,思路也有了,可以采用DBSCAN基于區(qū)域密度的思路,也可以改進(jìn)K-means,在距離度量上花點(diǎn)心思,這個實(shí)現(xiàn)之后在論述一下,這里就不展開。
問題二:異常監(jiān)測我參考了一些文獻(xiàn),書籍,做個總結(jié),希望以后用得著
一:定義
Hawkins的離群點(diǎn)定義:離群點(diǎn)是一個觀測值,他與其他觀測值的差別如此之大,以至于懷疑它是由不同的機(jī)制長生的。(數(shù)據(jù)挖掘導(dǎo)論)
沒有太多價值的定義。。。不過將就看著吧
二:離群點(diǎn)識別
1,統(tǒng)計學(xué)的思路,之前學(xué)概率一直不知道分布函數(shù)、置信區(qū)間、這些東西是做什么的,解除了數(shù)據(jù)挖掘之后才發(fā)現(xiàn),原來他們是這么得強(qiáng)大。
這里我們只討論正態(tài)分布,假設(shè)你的一個特征符合正態(tài)分布(具體為什么現(xiàn)實(shí)中有很多是正態(tài)分布,請知乎)分布,我不扯公式,如圖所示,正態(tài)分布為N(μ,σ^2),不知道你們注意到?jīng)]有當(dāng)x>u+3σ的概率就很小了,此時我們就可以認(rèn)為他是離群點(diǎn)了,畢竟是小概率事件嘛。

2、基于緊鄰度的檢測
離群點(diǎn)給我們的直觀感覺是他離其他集中點(diǎn)距離比較遠(yuǎn)。所以呢,k近鄰思路就這么出來了,找出所以點(diǎn)離她最近的k個點(diǎn)算距離,離群點(diǎn)的距離當(dāng)然是最大的。我很喜歡k近鄰思路,最很多推薦系統(tǒng)中,knn模型就能實(shí)現(xiàn)很多有趣的東西,比如類似滴滴的一些app地點(diǎn)推薦系統(tǒng),就是計算現(xiàn)在你的行為計算歷史行為計算相似度,匹配出最接近的幾種訂單,把歷史訂單信息做當(dāng)前行為推薦,很簡單卻很高效。
3、基于密度的檢測
密度是衡量一個區(qū)域點(diǎn)集中的很好的一個判斷,密度比較大則點(diǎn)集中,離群點(diǎn)的可能性就比較小,反之則很有可能是離群點(diǎn)。
4、基于聚類
聚類與異常檢測息息相關(guān),我們很好的一種思路就是不管三七二十一,我先sklearn找一個聚類,然后分析結(jié)果,會發(fā)現(xiàn)聚類會把一些異常數(shù)值聚出來的
5、數(shù)據(jù)可視化與經(jīng)驗
為什么把這個放在最后說,其實(shí)有些時候數(shù)據(jù)分析不必要那么麻煩,excel表,看看圖標(biāo),找出異常點(diǎn),結(jié)合自己的經(jīng)驗,其實(shí)就能找出來了,不過這不夠嚴(yán)謹(jǐn),也是一個很好的思路。
這些是最基礎(chǔ),基于這些思路有很多很好的解決方案。當(dāng)我們的場景更加復(fù)雜時,需要著重研究,簡單收集了一些。
Rosner:多個離群點(diǎn)討論
LOF技術(shù)
Chaudhary:使用k-d樹提高離群點(diǎn)檢測效率
Aggarwal與Yu:使用投影處理高維數(shù)據(jù)的離群點(diǎn)檢測
Shyu:基于主成分分析
不平衡數(shù)據(jù)集問題
Fox:時間序列異常檢測
Lee、Stolfo:入侵檢測
這些都是自己收集的資料加上自己的理解,有錯之處,請指出。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }