99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀基于六度分隔理論、PageRank等的人工風(fēng)控特征提取框架
基于六度分隔理論、PageRank等的人工風(fēng)控特征提取框架
2022-04-25
收藏

作者:小伍哥

來(lái)源:小伍哥聊風(fēng)控

基于六度分隔理論、PageRank等的人工風(fēng)控<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>提取框架

關(guān)于圖的風(fēng)控應(yīng)用,之前的很多文章都是基于算法的,今天分享一篇基于圖進(jìn)行人工特征提取的欺詐檢測(cè)文章,這樣大部分人都能應(yīng)用上了,其中的特征提取方法和思想,值得我們探索和借鑒,可以作為無(wú)監(jiān)督的的指標(biāo)進(jìn)行監(jiān)控,也可以作為算法特征的輸入。本文內(nèi)容來(lái)自論文《SocialWatch: Detection of Online Service Abuse via Large-Scale Social Graphs》,地址:https://users.soe.ucsc.edu/~abadi/Papers/socialwatch.pdf

一、背景介紹

本文主要進(jìn)行的是兩類(lèi)風(fēng)險(xiǎn)賬戶(hù)的檢測(cè):黑產(chǎn)自己注冊(cè)的賬號(hào)+黑產(chǎn)盜號(hào)的賬號(hào)。在一些網(wǎng)絡(luò)在線服務(wù)中,黑產(chǎn)會(huì)使用這些控制的惡意賬號(hào)進(jìn)行一些惡意行為,這些賬號(hào)可能是黑產(chǎn)批量注冊(cè)的,也可能是盜號(hào),因此需要有明顯的特征去區(qū)分惡意賬號(hào)和正常賬號(hào)。論文為了識(shí)別郵箱服務(wù)中的惡意賬號(hào),提出來(lái)兩類(lèi)特征:一類(lèi)是基于圖的屬性統(tǒng)計(jì)指標(biāo),另一類(lèi)是基于社交關(guān)系的特征(social affinity feature)。

我們可以從這篇文章中學(xué)到幾個(gè)點(diǎn):第一個(gè)是如何構(gòu)圖(文章中用的郵件,我們可以用電話、地址、點(diǎn)擊、設(shè)備、IP等),第二個(gè)是圖統(tǒng)計(jì)特征提,第三個(gè)是圖社交關(guān)系特征提取。

二、設(shè)計(jì)構(gòu)建Graph

論文中根據(jù)郵件關(guān)系構(gòu)建了兩種不同類(lèi)型的圖,頂點(diǎn)都是用戶(hù),但是邊的構(gòu)造有所不同,示意圖如下。

1)發(fā)送郵件的有向圖Gd:如果用戶(hù)v1給v2發(fā)郵件,那么生成v1指向v2的邊,權(quán)重是發(fā)送的數(shù)量

2)用戶(hù)關(guān)系的無(wú)向圖Gu:如果用戶(hù)v1給v2發(fā)郵件>=2,同時(shí)v2給v1發(fā)郵件>=2,那么v1和v2之間會(huì)形成一條邊。

下圖為示意圖,第一個(gè)圖覆蓋比較廣,第二個(gè)條件的條件比較嚴(yán)格,通過(guò)要求邊緣的權(quán)重至少同時(shí)為2,可以消除因偶爾或意外電子郵件交換(例如,意外回復(fù)惡意帳戶(hù))而導(dǎo)致的弱連接,圖會(huì)小很多,但是整個(gè)圖的靠靠性要強(qiáng)很多,可能很多人不知道結(jié)構(gòu)化的數(shù)據(jù)怎么構(gòu)建有向圖和無(wú)向圖,后面我會(huì)出個(gè)文章教大家怎么構(gòu)圖。

基于六度分隔理論、PageRank等的人工風(fēng)控<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>提取框架

條件1圖:節(jié)點(diǎn)數(shù)為6.82億個(gè),邊數(shù)57.45

條件2圖:節(jié)點(diǎn)個(gè)數(shù)2.55億個(gè),邊數(shù)4.369

三、檢測(cè)黑產(chǎn)自己注冊(cè)的賬號(hào)

對(duì)于黑產(chǎn)自己的賬號(hào),有兩個(gè)最顯著且易于計(jì)算的圖屬性,節(jié)點(diǎn)度 和 PageRank。度是一種能捕捉賬戶(hù)攻擊性的圖屬性,PageRank 是一種從全局層面計(jì)算整個(gè)圖上每個(gè)節(jié)點(diǎn)的權(quán)重的方法。接下來(lái),我們將討論如何在社交環(huán)境中修改這兩個(gè)屬性以進(jìn)行檢測(cè)。

1、賬號(hào)回復(fù)率

賬號(hào)回復(fù)率 = 回復(fù)該賬號(hào)郵件的賬號(hào)數(shù)/接收該賬號(hào)郵件的賬號(hào)數(shù)

惡意賬號(hào)出度大(發(fā)郵件給其他的賬號(hào)數(shù)量多),但回復(fù)率會(huì)比較低,通過(guò)簡(jiǎn)單的統(tǒng)計(jì),可以找到一些明顯的惡意賬號(hào)。

2、PageRank

PageRank算法是一種基于圖的傳播算法,一種簡(jiǎn)單的想法是在有向圖Gd上使用PageRank,傳播善意分?jǐn)?shù)(goodness score),然而盡管惡意賬號(hào)的回復(fù)率比較低,但是由于發(fā)送的郵件數(shù)巨大,偶然性的回復(fù)會(huì)使得其善意分?jǐn)?shù)偏高,而一些不活躍的正常賬號(hào)善意分?jǐn)?shù)會(huì)比較低。

基于六度分隔理論、PageRank等的人工風(fēng)控<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>提取框架

為了解決上述問(wèn)題,論文提出來(lái)了兩處改進(jìn),一是修改邊的權(quán)重(考慮發(fā)送和回復(fù)比例),二是把原來(lái)網(wǎng)絡(luò)圖連接關(guān)系進(jìn)行反轉(zhuǎn)(入鏈變成出鏈,出鏈變成入鏈),傳播惡意分?jǐn)?shù)(badness score)。

下面舉一個(gè)簡(jiǎn)單的例子:

基于六度分隔理論、PageRank等的人工風(fēng)控<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>提取框架

假設(shè)一個(gè)正常賬號(hào)A發(fā)送給spammer的郵件數(shù)是1,而給其friend的郵件數(shù)是10。那么在傳播goodness score時(shí),根據(jù)A發(fā)送郵件數(shù)作為傳播權(quán)重,傳給spammer的善意得分比較小。

將出入關(guān)系進(jìn)行反轉(zhuǎn),若spammer給A發(fā)送的郵件數(shù)是100,而friend給A發(fā)送的郵件數(shù)是10,根據(jù)公式:

基于六度分隔理論、PageRank等的人工風(fēng)控<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>提取框架

w(A->spammer) = (101/2) /( 101/2+11/11+11/11) ) = 96.4%

w(A->friend) = (11/11) /( 101/2+11/11+11/11) ) = 1.8%

根據(jù)上述權(quán)重由A傳播惡意分?jǐn)?shù),傳給spammer的善意得分比較大。定義指標(biāo)badness_score/goodness_score,若指標(biāo)大于某閾值則認(rèn)為賬號(hào)是惡意的。

上面的計(jì)算不是很理解的同學(xué),可以看看這個(gè)文章,網(wǎng)頁(yè)排序算法PageRank:http://sparkandshine.net/webpages-ranking-algorithm-pagerank/

基于六度分隔理論、PageRank等的人工風(fēng)控<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>提取框架

三、被盜號(hào)賬戶(hù)檢測(cè)-社會(huì)親和力特征

被盜的賬號(hào)相比于黑產(chǎn)自己注冊(cè)的賬號(hào)來(lái)講行為的噪音更大(被盜號(hào)賬戶(hù),過(guò)去的行為都很正常,并沒(méi)有大規(guī)模的異常郵件行為),通過(guò)degree或者pagerank很難識(shí)別到,為了解決這個(gè)問(wèn)題,作者從社交關(guān)系的角度出發(fā),定義了兩個(gè) social affinity feature(社會(huì)親和力特征):Recipient connectivity(收件人連通性 )和 Social distance(社交距離),下面我們分別看看這兩個(gè)特征的具體含義。

1、 Recipient connectivity(收件人連通性 )

一個(gè)正常賬號(hào) 和 與其進(jìn)行郵件通訊的賬號(hào)往往處于同一個(gè)社區(qū),對(duì)于一個(gè)賬號(hào)v,從Gu中抽取頂點(diǎn)為接收到v郵件的賬號(hào)子圖Gu(v),通過(guò)連通圖聚類(lèi)得到若干連通分量c1,c2,...,ck,這些連通圖分量的成員數(shù)至少為2,于是:對(duì)于節(jié)點(diǎn)v而言,刪除節(jié)點(diǎn)v得到以節(jié)點(diǎn)v為中心的一階的子圖,然后使用connected components 算法獲取k個(gè)聯(lián)通分量,顯然最小聯(lián)通分量包含兩個(gè)節(jié)點(diǎn)。

最后使用公式:Recipient connectivity(v) = 連通分量的賬號(hào)數(shù)之和/接收到v郵件的賬號(hào)數(shù)

基于六度分隔理論、PageRank等的人工風(fēng)控<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>提取框架

我畫(huà)了個(gè)示意圖,如下所示,我們把定點(diǎn)V剔除后,剩下的圖,連通性各不相同,圖1就是比較異常的,只要定都發(fā)送,發(fā)送的各個(gè)點(diǎn)之間并沒(méi)有聯(lián)系,剔除后連同分量為0,而圖3,剔除后的三個(gè)賬戶(hù),依然連通,所以連通分量為3。

基于六度分隔理論、PageRank等的人工風(fēng)控<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>提取框架

這背后的直覺(jué)就是正常的賬戶(hù)和周?chē)说穆?lián)系一般較為密切而極少與不認(rèn)識(shí)的人存在聯(lián)系,因此其 recipient connectivity 往往較高,而對(duì)于一個(gè)被劫持的正常賬戶(hù),由于被劫持賬戶(hù)也是用來(lái)發(fā)廣告之類(lèi)的(比如微博號(hào)、qq號(hào),微信號(hào)被盜,會(huì)給關(guān)注的人發(fā)各種亂七八糟的私信),因此被劫持的賬戶(hù)一旦發(fā)生了這類(lèi)行為,其recipient connectivity往往會(huì)發(fā)生變化,從而變得較低。

基于六度分隔理論、PageRank等的人工風(fēng)控<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>提取框架

Recipient connectivity的一個(gè)問(wèn)題是兩個(gè)用戶(hù)在郵件網(wǎng)絡(luò)中沒(méi)有聯(lián)系,不代表其在真實(shí)世界中也沒(méi)有聯(lián)系。

注意:無(wú)向圖G的極大連通子圖稱(chēng)為G的連通分量( Connected Component),任何連通圖的連通分量只有一個(gè),即是其自身,非連通的無(wú)向圖有多個(gè)連通分量。求圖的連通分量的目的,是為了確定從圖中的一個(gè)頂點(diǎn)是否能到達(dá)圖中的另一個(gè)頂點(diǎn),也就是說(shuō),圖中任意兩個(gè)頂點(diǎn)之間是否有路徑可達(dá)。這個(gè)問(wèn)題從圖上可以直觀地看出答案,然而,一旦把圖存入計(jì)算機(jī)中,答案就不大清楚了。

2、Social distance(收件人社交距離)

對(duì)于一個(gè)賬號(hào)v,從子圖Gu中剔除賬號(hào)v和相關(guān)的邊,于是:Social distance(v)= 接收到v郵件的賬號(hào)之間的平均最短距離

基于六度分隔理論、PageRank等的人工風(fēng)控<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>提取框架

However, the social-distance fea-ture l(v) requires computing shortest-path distances on the largegraph Gu for all user pairs in R(v)

這個(gè)特征怎么理解?其背后的直覺(jué)是復(fù)雜網(wǎng)絡(luò)中的“小世界”,正常賬戶(hù)往往在一個(gè)社交圈子里,大部分人彼此認(rèn)識(shí),因此對(duì)于正常用戶(hù)的通過(guò)郵件構(gòu)建起來(lái)的社交圈子而言,其social distance比較短,而對(duì)于被劫持的正常賬戶(hù)而言,群體中的其他人彼此并不認(rèn)識(shí),其social distance比較長(zhǎng)。

基于六度分隔理論、PageRank等的人工風(fēng)控<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>提取框架

有了這些相關(guān)特征后,如果有已知的被盜賬號(hào),那么通過(guò)各種算法就可以構(gòu)建一個(gè)分類(lèi)任務(wù)了,從而識(shí)別其他的被盜賬號(hào),或者直接用規(guī)則,識(shí)別被盜賬號(hào)。

收獲就這兩個(gè)社交親和力特征,用來(lái)幫助處理盜號(hào)問(wèn)題,沒(méi)標(biāo)簽就做規(guī)則,有標(biāo)簽就作為特征train 模型。在上述缺失觀測(cè)的情況下,由最短路徑距離定義的社會(huì)距離是完整圖上真實(shí)社會(huì)距離的上限近似值。

通過(guò)上面的圖,我們可以發(fā)現(xiàn)一個(gè)理論,六度分隔理論,哈佛大學(xué)心理學(xué)教授斯坦利·米爾格拉姆于1967年根據(jù)這個(gè)概念做過(guò)一次連鎖信實(shí)驗(yàn),嘗試證明平均只需要6步就可以聯(lián)系任何兩個(gè)互不相識(shí)的人。后世的人們將這個(gè)理論稱(chēng)作是“六度空間理論”或“六度分隔理論”。我們的計(jì)算中,正常用戶(hù)的距離,均值恰好是6左右。

基于六度分隔理論、PageRank等的人工風(fēng)控<a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征</a>提取框架

文章就寫(xiě)到這里了,文章雖然簡(jiǎn)單,但是里面的細(xì)節(jié)還是非常多的,大家可以結(jié)合自己的業(yè)務(wù),尋找不同的關(guān)系圖,然后來(lái)研究里面提到的指標(biāo)。

數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢(xún)
客服在線
立即咨詢(xún)
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶(hù)后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }