
作者:小伍哥
來源:小伍哥聊風控
大家好,我是小伍哥。
有效的風險感知或者無監(jiān)督風險識別,其實非常的難,很多同學甚至無法下手,做了的可能也沒有效果,如果找到合適的方法了,其實是非常有意思,且考驗想象力的事情,我認為是風控領域的一個明珠,需要扎實且廣泛的算法儲備、敏銳風險直覺、以及非常豐富的想象力,本文進行初步的探討,希望對風險感知的同學有一定的啟示作用。
當風控做到一定程度,或者平臺生態(tài)非常復雜的時候,需要對未知風險進行感知,也就是提前發(fā)現(xiàn)或者感知到平臺里面隱藏的未知風險。多于很多風控人員來說,是個非常大的挑戰(zhàn),本文拿訂單場景舉例,拋磚引玉。
假如訂單包含:訂單編號、訂單時間、買家、賣家、價格、類目、收貨地址、收貨手機····
1、基于正態(tài)分布異常
要對其中的風險進行感知,大家首先想到的是基于統(tǒng)計的方法
商家成交同比增加1倍
商家成交環(huán)比增加80%
買家成交環(huán)比增加80%
······
簡單的統(tǒng)計特征用完了,就要基于分布異常進行感知了,從全部訂單維度,檢測正態(tài)分布兩端的價格,分布異常的視為異常訂單
從買家維度,監(jiān)控3倍標準差以外的訂單
從賣家維度,監(jiān)控3倍標準差以外的訂單
從賣家維度,監(jiān)控5倍標準差以外的訂單
······
很多剛?cè)腼L控的小伙伴,可能就到此為止了
如果要分類別監(jiān)控,我們可以利用箱線圖的方式進行,其實還是上面的分布異常,只不過比較方便可視化和分類別進行監(jiān)控,比如下面的指標:
根據(jù)類目,監(jiān)控每個類目上分布的價格異常的訂單
根據(jù)時段(每天24小時),監(jiān)控每個時段上的價格異常訂單
根據(jù)收貨城市,監(jiān)控每個城市的價格異常訂單
根據(jù)收貨城市,監(jiān)控每個用戶訂單量的分布
······
在時序維度上,波動程度太大的,可能存在異常,所以我們可以構建時序維度上的特征,并利用變異系數(shù)進行時序維度的波動監(jiān)控,然后把波動過大的視為異常
以買家為維度,統(tǒng)計近30天每天的銷量,然后計算變異系數(shù),如果變異系數(shù)過高,則視為異常
以賣家為維度,統(tǒng)計近30天的銷量,然后統(tǒng)計變異系數(shù),如果過高,則認為存在異常
······
時序維度,其實還可以變換下,變成有序的價格段維度,能夠發(fā)現(xiàn)更多的異常。
以買家為對象,計算每個價格段為維度,計算分布的變異系數(shù),過高,則認為價格分布異常
以賣家為對象,計算每個價格段為維度,計算分布的變異系數(shù),過高,則認為價格分布異常
以類目為對象,計算每個價格段為維度,計算分布的變異系數(shù),過高,則認為價格分布異常
以地區(qū)為對象,計算每個價格段為維度,計算分布的變異系數(shù),過高,則認為價格分布異常
部分機器訂單,可能下單速度比較異常,一秒鐘下幾單,并且每天如此,肯定是有問題的
買家維度的速率監(jiān)控,這個需要涉及一個好的指標,單位時間訂單數(shù),或者最大持續(xù)密度,最大密度持續(xù)訂單量等,這個是個很有意思的話題,后續(xù)我研究好了告訴大家,歡迎持續(xù)關注小伍哥聊風控。
賣家維度的速率監(jiān)控,最好和大盤速率進行對比
比如上圖,我們可以只監(jiān)控紅框的長度和密度,其他兩個不監(jiān)控,把紅框內(nèi)點多的以及密度多的視為異常,為什么要這么做,就擔心十分鐘內(nèi)下單100筆,隔了23小時又下了一筆,如果按天平均并不異常,但是某一個十分鐘,卻是十分異常。
商品關聯(lián)規(guī)則分析,哪些商品一起關聯(lián)購買,某些商品組合,非常詭異的,不應該出現(xiàn)的,可能是刷單導致的
類目關聯(lián)規(guī)則分析,這個是個特別抽象的,商家的店鋪的類目應該很類似的,但是某些商家類目非常詭異的分布,比如女裝+撲克,可能就是賣賭博器材的
商家關聯(lián)團伙分析,通過分析某一時間片段同時出現(xiàn)的商家,判斷商家的團伙,對于高頻率同時出現(xiàn)的商家,可能存在異常
買家團伙分析,通過時間分段,挖掘哪些買家一起行動,可以找到團伙買家
基于松散同步行為的團伙挖掘,非常抽象,可以看我之前的文章,這個通過訂單表,發(fā)現(xiàn)大規(guī)模的異常關聯(lián)和團伙關系,是非常重要的無監(jiān)督感知方法。
對于通過訂單表挖掘出來的團伙,再從時間維度,去看團伙的變遷,購買行為的移動,發(fā)現(xiàn)極具價值的信息。也是我最近研究的重點,發(fā)現(xiàn)了很多有價值的東西。
基于圖的異常感知,才是感知的難點和價值點,就比如宇宙中的黑洞,黑洞本身看不見,但是我們可以通過監(jiān)測引力異常發(fā)現(xiàn)黑洞,黑洞越大周圍的引力越異常。大規(guī)模的復雜網(wǎng)絡中,由于異常用戶的出現(xiàn),同樣會扭曲網(wǎng)絡空間的曲線,我們設置合理的指標,就能感知出異常的'黑洞'
1)主導邊異常
再一個商家一個月賣了10000個訂單,100個消費者,其中一個消費者買了9900單,那這個消費者占比9000/10000=90%,形成了主導邊,那這個商家可能就存在異常。
我們把賣家-買家換下,類目-商家,假如發(fā)現(xiàn)某個類目某個商家占比過高,會不會出現(xiàn)類目入侵的問題,如果更高級,我們是不是加入一個時間線,監(jiān)測長時間某個類目、賣家成交權重的分布變化,那能發(fā)現(xiàn)非常多的莫名其妙的異常,非常推薦嘗試研究。
2)權重邊檢測
檢測商家與買家的平均訂單數(shù)量,再與大盤進行比較,比如大盤每個買家對賣家的平均訂單是5單,但是某一個商家,平均每個買家買了30單,是不是商家組織一群人在不停的刷單。
3)Near-Star異常檢測
在正常的社交網(wǎng)絡中,我們通常認為朋友之間可能會相互認識,因此一階Ego-net中的鄰居之間沒有任何關聯(lián)是非??梢傻?,近似星型,鄰居之間很少聯(lián)系(如通話關系網(wǎng)絡中的中介、電催人員、營銷號碼,他們大量的聯(lián)系別人,然而聯(lián)系人中之間幾乎沒啥聯(lián)系),這種結(jié)構的Ego-net被稱為star,如下圖所示,中心節(jié)點與大量節(jié)點存在關聯(lián),但是鄰居之間無聯(lián)系或者聯(lián)系很少。
這個怎么理解:監(jiān)控每個商家的消費者,假如這些消費者近一段時間以來,只買了這個商家,沒買其他商家,是不是就非常異常,正常一個買家會買好多商家,不會只買一個的
當然,也可以利用無監(jiān)督算法進行風險感知
買家維度:構建注冊時長、訂單數(shù)、平均價格、類目分布等等指標,用孤立森立、HBOS、KNN等算法進行異常感知,輸出異常分數(shù)高的買家
訂單維度:構建注冊時長、訂單價格、價格分位數(shù),類目分布等等指標,用孤立森立、HBOS、KNN等算法進行異常感知,輸出異常分數(shù)高的買家
有沒有更多監(jiān)督的方法?我覺得這個話題還可以更加深入的探討,我還需要更多的研究才能提供有價值的信息,不過大家可以去研究下。
本福特定理監(jiān)控商家、類目等維度的價格分布是否異常?
利用面相、星座等識別用戶的頭像與八字是否沖突?(早年間就有小貸公司根據(jù)面相確定貸款額度)
······
在無監(jiān)督的場景下,我們可以盡情的想象并進行測試,說不定有意外的驚喜,今天就寫到這里了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03