
作者:小伍哥
來(lái)源:小伍哥聊風(fēng)控
大家好,我是小伍哥。
有效的風(fēng)險(xiǎn)感知或者無(wú)監(jiān)督風(fēng)險(xiǎn)識(shí)別,其實(shí)非常的難,很多同學(xué)甚至無(wú)法下手,做了的可能也沒(méi)有效果,如果找到合適的方法了,其實(shí)是非常有意思,且考驗(yàn)想象力的事情,我認(rèn)為是風(fēng)控領(lǐng)域的一個(gè)明珠,需要扎實(shí)且廣泛的算法儲(chǔ)備、敏銳風(fēng)險(xiǎn)直覺(jué)、以及非常豐富的想象力,本文進(jìn)行初步的探討,希望對(duì)風(fēng)險(xiǎn)感知的同學(xué)有一定的啟示作用。
當(dāng)風(fēng)控做到一定程度,或者平臺(tái)生態(tài)非常復(fù)雜的時(shí)候,需要對(duì)未知風(fēng)險(xiǎn)進(jìn)行感知,也就是提前發(fā)現(xiàn)或者感知到平臺(tái)里面隱藏的未知風(fēng)險(xiǎn)。多于很多風(fēng)控人員來(lái)說(shuō),是個(gè)非常大的挑戰(zhàn),本文拿訂單場(chǎng)景舉例,拋磚引玉。
假如訂單包含:訂單編號(hào)、訂單時(shí)間、買家、賣家、價(jià)格、類目、收貨地址、收貨手機(jī)····
1、基于正態(tài)分布異常
要對(duì)其中的風(fēng)險(xiǎn)進(jìn)行感知,大家首先想到的是基于統(tǒng)計(jì)的方法
商家成交同比增加1倍
商家成交環(huán)比增加80%
買家成交環(huán)比增加80%
······
簡(jiǎn)單的統(tǒng)計(jì)特征用完了,就要基于分布異常進(jìn)行感知了,從全部訂單維度,檢測(cè)正態(tài)分布兩端的價(jià)格,分布異常的視為異常訂單
從買家維度,監(jiān)控3倍標(biāo)準(zhǔn)差以外的訂單
從賣家維度,監(jiān)控3倍標(biāo)準(zhǔn)差以外的訂單
從賣家維度,監(jiān)控5倍標(biāo)準(zhǔn)差以外的訂單
······
很多剛?cè)腼L(fēng)控的小伙伴,可能就到此為止了
如果要分類別監(jiān)控,我們可以利用箱線圖的方式進(jìn)行,其實(shí)還是上面的分布異常,只不過(guò)比較方便可視化和分類別進(jìn)行監(jiān)控,比如下面的指標(biāo):
根據(jù)類目,監(jiān)控每個(gè)類目上分布的價(jià)格異常的訂單
根據(jù)時(shí)段(每天24小時(shí)),監(jiān)控每個(gè)時(shí)段上的價(jià)格異常訂單
根據(jù)收貨城市,監(jiān)控每個(gè)城市的價(jià)格異常訂單
根據(jù)收貨城市,監(jiān)控每個(gè)用戶訂單量的分布
······
在時(shí)序維度上,波動(dòng)程度太大的,可能存在異常,所以我們可以構(gòu)建時(shí)序維度上的特征,并利用變異系數(shù)進(jìn)行時(shí)序維度的波動(dòng)監(jiān)控,然后把波動(dòng)過(guò)大的視為異常
以買家為維度,統(tǒng)計(jì)近30天每天的銷量,然后計(jì)算變異系數(shù),如果變異系數(shù)過(guò)高,則視為異常
以賣家為維度,統(tǒng)計(jì)近30天的銷量,然后統(tǒng)計(jì)變異系數(shù),如果過(guò)高,則認(rèn)為存在異常
······
時(shí)序維度,其實(shí)還可以變換下,變成有序的價(jià)格段維度,能夠發(fā)現(xiàn)更多的異常。
以買家為對(duì)象,計(jì)算每個(gè)價(jià)格段為維度,計(jì)算分布的變異系數(shù),過(guò)高,則認(rèn)為價(jià)格分布異常
以賣家為對(duì)象,計(jì)算每個(gè)價(jià)格段為維度,計(jì)算分布的變異系數(shù),過(guò)高,則認(rèn)為價(jià)格分布異常
以類目為對(duì)象,計(jì)算每個(gè)價(jià)格段為維度,計(jì)算分布的變異系數(shù),過(guò)高,則認(rèn)為價(jià)格分布異常
以地區(qū)為對(duì)象,計(jì)算每個(gè)價(jià)格段為維度,計(jì)算分布的變異系數(shù),過(guò)高,則認(rèn)為價(jià)格分布異常
部分機(jī)器訂單,可能下單速度比較異常,一秒鐘下幾單,并且每天如此,肯定是有問(wèn)題的
買家維度的速率監(jiān)控,這個(gè)需要涉及一個(gè)好的指標(biāo),單位時(shí)間訂單數(shù),或者最大持續(xù)密度,最大密度持續(xù)訂單量等,這個(gè)是個(gè)很有意思的話題,后續(xù)我研究好了告訴大家,歡迎持續(xù)關(guān)注小伍哥聊風(fēng)控。
賣家維度的速率監(jiān)控,最好和大盤速率進(jìn)行對(duì)比
比如上圖,我們可以只監(jiān)控紅框的長(zhǎng)度和密度,其他兩個(gè)不監(jiān)控,把紅框內(nèi)點(diǎn)多的以及密度多的視為異常,為什么要這么做,就擔(dān)心十分鐘內(nèi)下單100筆,隔了23小時(shí)又下了一筆,如果按天平均并不異常,但是某一個(gè)十分鐘,卻是十分異常。
商品關(guān)聯(lián)規(guī)則分析,哪些商品一起關(guān)聯(lián)購(gòu)買,某些商品組合,非常詭異的,不應(yīng)該出現(xiàn)的,可能是刷單導(dǎo)致的
類目關(guān)聯(lián)規(guī)則分析,這個(gè)是個(gè)特別抽象的,商家的店鋪的類目應(yīng)該很類似的,但是某些商家類目非常詭異的分布,比如女裝+撲克,可能就是賣賭博器材的
商家關(guān)聯(lián)團(tuán)伙分析,通過(guò)分析某一時(shí)間片段同時(shí)出現(xiàn)的商家,判斷商家的團(tuán)伙,對(duì)于高頻率同時(shí)出現(xiàn)的商家,可能存在異常
買家團(tuán)伙分析,通過(guò)時(shí)間分段,挖掘哪些買家一起行動(dòng),可以找到團(tuán)伙買家
基于松散同步行為的團(tuán)伙挖掘,非常抽象,可以看我之前的文章,這個(gè)通過(guò)訂單表,發(fā)現(xiàn)大規(guī)模的異常關(guān)聯(lián)和團(tuán)伙關(guān)系,是非常重要的無(wú)監(jiān)督感知方法。
對(duì)于通過(guò)訂單表挖掘出來(lái)的團(tuán)伙,再?gòu)臅r(shí)間維度,去看團(tuán)伙的變遷,購(gòu)買行為的移動(dòng),發(fā)現(xiàn)極具價(jià)值的信息。也是我最近研究的重點(diǎn),發(fā)現(xiàn)了很多有價(jià)值的東西。
基于圖的異常感知,才是感知的難點(diǎn)和價(jià)值點(diǎn),就比如宇宙中的黑洞,黑洞本身看不見(jiàn),但是我們可以通過(guò)監(jiān)測(cè)引力異常發(fā)現(xiàn)黑洞,黑洞越大周圍的引力越異常。大規(guī)模的復(fù)雜網(wǎng)絡(luò)中,由于異常用戶的出現(xiàn),同樣會(huì)扭曲網(wǎng)絡(luò)空間的曲線,我們?cè)O(shè)置合理的指標(biāo),就能感知出異常的'黑洞'
1)主導(dǎo)邊異常
再一個(gè)商家一個(gè)月賣了10000個(gè)訂單,100個(gè)消費(fèi)者,其中一個(gè)消費(fèi)者買了9900單,那這個(gè)消費(fèi)者占比9000/10000=90%,形成了主導(dǎo)邊,那這個(gè)商家可能就存在異常。
我們把賣家-買家換下,類目-商家,假如發(fā)現(xiàn)某個(gè)類目某個(gè)商家占比過(guò)高,會(huì)不會(huì)出現(xiàn)類目入侵的問(wèn)題,如果更高級(jí),我們是不是加入一個(gè)時(shí)間線,監(jiān)測(cè)長(zhǎng)時(shí)間某個(gè)類目、賣家成交權(quán)重的分布變化,那能發(fā)現(xiàn)非常多的莫名其妙的異常,非常推薦嘗試研究。
2)權(quán)重邊檢測(cè)
檢測(cè)商家與買家的平均訂單數(shù)量,再與大盤進(jìn)行比較,比如大盤每個(gè)買家對(duì)賣家的平均訂單是5單,但是某一個(gè)商家,平均每個(gè)買家買了30單,是不是商家組織一群人在不停的刷單。
3)Near-Star異常檢測(cè)
在正常的社交網(wǎng)絡(luò)中,我們通常認(rèn)為朋友之間可能會(huì)相互認(rèn)識(shí),因此一階Ego-net中的鄰居之間沒(méi)有任何關(guān)聯(lián)是非??梢傻模菩切?,鄰居之間很少聯(lián)系(如通話關(guān)系網(wǎng)絡(luò)中的中介、電催人員、營(yíng)銷號(hào)碼,他們大量的聯(lián)系別人,然而聯(lián)系人中之間幾乎沒(méi)啥聯(lián)系),這種結(jié)構(gòu)的Ego-net被稱為star,如下圖所示,中心節(jié)點(diǎn)與大量節(jié)點(diǎn)存在關(guān)聯(lián),但是鄰居之間無(wú)聯(lián)系或者聯(lián)系很少。
這個(gè)怎么理解:監(jiān)控每個(gè)商家的消費(fèi)者,假如這些消費(fèi)者近一段時(shí)間以來(lái),只買了這個(gè)商家,沒(méi)買其他商家,是不是就非常異常,正常一個(gè)買家會(huì)買好多商家,不會(huì)只買一個(gè)的
當(dāng)然,也可以利用無(wú)監(jiān)督算法進(jìn)行風(fēng)險(xiǎn)感知
買家維度:構(gòu)建注冊(cè)時(shí)長(zhǎng)、訂單數(shù)、平均價(jià)格、類目分布等等指標(biāo),用孤立森立、HBOS、KNN等算法進(jìn)行異常感知,輸出異常分?jǐn)?shù)高的買家
訂單維度:構(gòu)建注冊(cè)時(shí)長(zhǎng)、訂單價(jià)格、價(jià)格分位數(shù),類目分布等等指標(biāo),用孤立森立、HBOS、KNN等算法進(jìn)行異常感知,輸出異常分?jǐn)?shù)高的買家
有沒(méi)有更多監(jiān)督的方法?我覺(jué)得這個(gè)話題還可以更加深入的探討,我還需要更多的研究才能提供有價(jià)值的信息,不過(guò)大家可以去研究下。
本福特定理監(jiān)控商家、類目等維度的價(jià)格分布是否異常?
利用面相、星座等識(shí)別用戶的頭像與八字是否沖突?(早年間就有小貸公司根據(jù)面相確定貸款額度)
······
在無(wú)監(jiān)督的場(chǎng)景下,我們可以盡情的想象并進(jìn)行測(cè)試,說(shuō)不定有意外的驚喜,今天就寫(xiě)到這里了。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03