
作者:小伍哥
來源:小伍哥聊風(fēng)控
大家好,我是小伍哥。
有效的風(fēng)險(xiǎn)感知或者無監(jiān)督風(fēng)險(xiǎn)識別,其實(shí)非常的難,很多同學(xué)甚至無法下手,做了的可能也沒有效果,如果找到合適的方法了,其實(shí)是非常有意思,且考驗(yàn)想象力的事情,我認(rèn)為是風(fēng)控領(lǐng)域的一個(gè)明珠,需要扎實(shí)且廣泛的算法儲備、敏銳風(fēng)險(xiǎn)直覺、以及非常豐富的想象力,本文進(jìn)行初步的探討,希望對風(fēng)險(xiǎn)感知的同學(xué)有一定的啟示作用。
當(dāng)風(fēng)控做到一定程度,或者平臺生態(tài)非常復(fù)雜的時(shí)候,需要對未知風(fēng)險(xiǎn)進(jìn)行感知,也就是提前發(fā)現(xiàn)或者感知到平臺里面隱藏的未知風(fēng)險(xiǎn)。多于很多風(fēng)控人員來說,是個(gè)非常大的挑戰(zhàn),本文拿訂單場景舉例,拋磚引玉。
假如訂單包含:訂單編號、訂單時(shí)間、買家、賣家、價(jià)格、類目、收貨地址、收貨手機(jī)····
1、基于正態(tài)分布異常
要對其中的風(fēng)險(xiǎn)進(jìn)行感知,大家首先想到的是基于統(tǒng)計(jì)的方法
商家成交同比增加1倍
商家成交環(huán)比增加80%
買家成交環(huán)比增加80%
······
簡單的統(tǒng)計(jì)特征用完了,就要基于分布異常進(jìn)行感知了,從全部訂單維度,檢測正態(tài)分布兩端的價(jià)格,分布異常的視為異常訂單
從買家維度,監(jiān)控3倍標(biāo)準(zhǔn)差以外的訂單
從賣家維度,監(jiān)控3倍標(biāo)準(zhǔn)差以外的訂單
從賣家維度,監(jiān)控5倍標(biāo)準(zhǔn)差以外的訂單
······
很多剛?cè)腼L(fēng)控的小伙伴,可能就到此為止了
如果要分類別監(jiān)控,我們可以利用箱線圖的方式進(jìn)行,其實(shí)還是上面的分布異常,只不過比較方便可視化和分類別進(jìn)行監(jiān)控,比如下面的指標(biāo):
根據(jù)類目,監(jiān)控每個(gè)類目上分布的價(jià)格異常的訂單
根據(jù)時(shí)段(每天24小時(shí)),監(jiān)控每個(gè)時(shí)段上的價(jià)格異常訂單
根據(jù)收貨城市,監(jiān)控每個(gè)城市的價(jià)格異常訂單
根據(jù)收貨城市,監(jiān)控每個(gè)用戶訂單量的分布
······
在時(shí)序維度上,波動(dòng)程度太大的,可能存在異常,所以我們可以構(gòu)建時(shí)序維度上的特征,并利用變異系數(shù)進(jìn)行時(shí)序維度的波動(dòng)監(jiān)控,然后把波動(dòng)過大的視為異常
以買家為維度,統(tǒng)計(jì)近30天每天的銷量,然后計(jì)算變異系數(shù),如果變異系數(shù)過高,則視為異常
以賣家為維度,統(tǒng)計(jì)近30天的銷量,然后統(tǒng)計(jì)變異系數(shù),如果過高,則認(rèn)為存在異常
······
時(shí)序維度,其實(shí)還可以變換下,變成有序的價(jià)格段維度,能夠發(fā)現(xiàn)更多的異常。
以買家為對象,計(jì)算每個(gè)價(jià)格段為維度,計(jì)算分布的變異系數(shù),過高,則認(rèn)為價(jià)格分布異常
以賣家為對象,計(jì)算每個(gè)價(jià)格段為維度,計(jì)算分布的變異系數(shù),過高,則認(rèn)為價(jià)格分布異常
以類目為對象,計(jì)算每個(gè)價(jià)格段為維度,計(jì)算分布的變異系數(shù),過高,則認(rèn)為價(jià)格分布異常
以地區(qū)為對象,計(jì)算每個(gè)價(jià)格段為維度,計(jì)算分布的變異系數(shù),過高,則認(rèn)為價(jià)格分布異常
部分機(jī)器訂單,可能下單速度比較異常,一秒鐘下幾單,并且每天如此,肯定是有問題的
買家維度的速率監(jiān)控,這個(gè)需要涉及一個(gè)好的指標(biāo),單位時(shí)間訂單數(shù),或者最大持續(xù)密度,最大密度持續(xù)訂單量等,這個(gè)是個(gè)很有意思的話題,后續(xù)我研究好了告訴大家,歡迎持續(xù)關(guān)注小伍哥聊風(fēng)控。
賣家維度的速率監(jiān)控,最好和大盤速率進(jìn)行對比
比如上圖,我們可以只監(jiān)控紅框的長度和密度,其他兩個(gè)不監(jiān)控,把紅框內(nèi)點(diǎn)多的以及密度多的視為異常,為什么要這么做,就擔(dān)心十分鐘內(nèi)下單100筆,隔了23小時(shí)又下了一筆,如果按天平均并不異常,但是某一個(gè)十分鐘,卻是十分異常。
商品關(guān)聯(lián)規(guī)則分析,哪些商品一起關(guān)聯(lián)購買,某些商品組合,非常詭異的,不應(yīng)該出現(xiàn)的,可能是刷單導(dǎo)致的
類目關(guān)聯(lián)規(guī)則分析,這個(gè)是個(gè)特別抽象的,商家的店鋪的類目應(yīng)該很類似的,但是某些商家類目非常詭異的分布,比如女裝+撲克,可能就是賣賭博器材的
商家關(guān)聯(lián)團(tuán)伙分析,通過分析某一時(shí)間片段同時(shí)出現(xiàn)的商家,判斷商家的團(tuán)伙,對于高頻率同時(shí)出現(xiàn)的商家,可能存在異常
買家團(tuán)伙分析,通過時(shí)間分段,挖掘哪些買家一起行動(dòng),可以找到團(tuán)伙買家
基于松散同步行為的團(tuán)伙挖掘,非常抽象,可以看我之前的文章,這個(gè)通過訂單表,發(fā)現(xiàn)大規(guī)模的異常關(guān)聯(lián)和團(tuán)伙關(guān)系,是非常重要的無監(jiān)督感知方法。
對于通過訂單表挖掘出來的團(tuán)伙,再從時(shí)間維度,去看團(tuán)伙的變遷,購買行為的移動(dòng),發(fā)現(xiàn)極具價(jià)值的信息。也是我最近研究的重點(diǎn),發(fā)現(xiàn)了很多有價(jià)值的東西。
基于圖的異常感知,才是感知的難點(diǎn)和價(jià)值點(diǎn),就比如宇宙中的黑洞,黑洞本身看不見,但是我們可以通過監(jiān)測引力異常發(fā)現(xiàn)黑洞,黑洞越大周圍的引力越異常。大規(guī)模的復(fù)雜網(wǎng)絡(luò)中,由于異常用戶的出現(xiàn),同樣會扭曲網(wǎng)絡(luò)空間的曲線,我們設(shè)置合理的指標(biāo),就能感知出異常的'黑洞'
1)主導(dǎo)邊異常
再一個(gè)商家一個(gè)月賣了10000個(gè)訂單,100個(gè)消費(fèi)者,其中一個(gè)消費(fèi)者買了9900單,那這個(gè)消費(fèi)者占比9000/10000=90%,形成了主導(dǎo)邊,那這個(gè)商家可能就存在異常。
我們把賣家-買家換下,類目-商家,假如發(fā)現(xiàn)某個(gè)類目某個(gè)商家占比過高,會不會出現(xiàn)類目入侵的問題,如果更高級,我們是不是加入一個(gè)時(shí)間線,監(jiān)測長時(shí)間某個(gè)類目、賣家成交權(quán)重的分布變化,那能發(fā)現(xiàn)非常多的莫名其妙的異常,非常推薦嘗試研究。
2)權(quán)重邊檢測
檢測商家與買家的平均訂單數(shù)量,再與大盤進(jìn)行比較,比如大盤每個(gè)買家對賣家的平均訂單是5單,但是某一個(gè)商家,平均每個(gè)買家買了30單,是不是商家組織一群人在不停的刷單。
3)Near-Star異常檢測
在正常的社交網(wǎng)絡(luò)中,我們通常認(rèn)為朋友之間可能會相互認(rèn)識,因此一階Ego-net中的鄰居之間沒有任何關(guān)聯(lián)是非??梢傻?,近似星型,鄰居之間很少聯(lián)系(如通話關(guān)系網(wǎng)絡(luò)中的中介、電催人員、營銷號碼,他們大量的聯(lián)系別人,然而聯(lián)系人中之間幾乎沒啥聯(lián)系),這種結(jié)構(gòu)的Ego-net被稱為star,如下圖所示,中心節(jié)點(diǎn)與大量節(jié)點(diǎn)存在關(guān)聯(lián),但是鄰居之間無聯(lián)系或者聯(lián)系很少。
這個(gè)怎么理解:監(jiān)控每個(gè)商家的消費(fèi)者,假如這些消費(fèi)者近一段時(shí)間以來,只買了這個(gè)商家,沒買其他商家,是不是就非常異常,正常一個(gè)買家會買好多商家,不會只買一個(gè)的
當(dāng)然,也可以利用無監(jiān)督算法進(jìn)行風(fēng)險(xiǎn)感知
買家維度:構(gòu)建注冊時(shí)長、訂單數(shù)、平均價(jià)格、類目分布等等指標(biāo),用孤立森立、HBOS、KNN等算法進(jìn)行異常感知,輸出異常分?jǐn)?shù)高的買家
訂單維度:構(gòu)建注冊時(shí)長、訂單價(jià)格、價(jià)格分位數(shù),類目分布等等指標(biāo),用孤立森立、HBOS、KNN等算法進(jìn)行異常感知,輸出異常分?jǐn)?shù)高的買家
有沒有更多監(jiān)督的方法?我覺得這個(gè)話題還可以更加深入的探討,我還需要更多的研究才能提供有價(jià)值的信息,不過大家可以去研究下。
本福特定理監(jiān)控商家、類目等維度的價(jià)格分布是否異常?
利用面相、星座等識別用戶的頭像與八字是否沖突?(早年間就有小貸公司根據(jù)面相確定貸款額度)
······
在無監(jiān)督的場景下,我們可以盡情的想象并進(jìn)行測試,說不定有意外的驚喜,今天就寫到這里了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10