
數(shù)據(jù)挖掘在電信欺詐偵測中的應用_數(shù)據(jù)分析師考試
隨著移動業(yè)務的迅猛發(fā)展,移動通信業(yè)的收入日益增長。但是,隨之而來的移動網(wǎng)絡的欺詐行為也不斷涌現(xiàn),全球移動通信業(yè)都廣泛面臨著無線欺詐的嚴重問題,從而導致電信運營商的收入受到損失,額外支出的增加,進而致使利潤下降,而移動用戶的合法權益也受到損害,電信運營商的信譽無法得到保障。
無線欺詐類型可以簡單的分為四類:
(1)時間欺詐:占用了移動通信的時長而不付費用,該類欺詐可以分為兩類,一是技術型欺詐(包括碼機、魔術電話等),另一類是用戶欺詐(漫游、濫用補充業(yè)務以及善意的欺詐行為);
(2)內(nèi)部欺詐:運營商內(nèi)部人員利用職權非法牟利;
(3)手機欺詐:進行非法手機的交易,如再生盜用手機、偽造手機資源等行為;
(4)分銷商欺詐:為了獲取非法傭金而進行的欺詐;
“并非只有中國的電信運營商存在巨額的欠費損失,例如惡意欠費這樣的欺詐行為普遍存在各個國家的電信運營商里。這部分損失的比例根據(jù)電信運營商管理水平的不同在0.5%-10%之間。尤其隨著電信競爭的激烈,更可能誘發(fā)欺詐。為了吸納客戶增加用戶數(shù),運營商經(jīng)常主動或者被動地降低入網(wǎng)門檻,從而給予某些人可乘之機?!盙artner咨詢公司負責電信運營商管理咨詢的蔣炳慶分析欺詐產(chǎn)生的一些原因,重點提到隨著電信競爭的激烈,這樣的現(xiàn)象將越來越多。欺詐用戶對企業(yè)造成了很大的損失,一方面這些用戶往往是欠費的,另一方面這些用戶實施完欺詐手段一般都會離網(wǎng)。如何發(fā)現(xiàn)欺詐客戶的特征,有效的阻止欺詐正是本文欲探討和解決的問題。
2、相關技術
數(shù)據(jù)挖掘也稱KDD(knowledge discovery in databases)是從大量數(shù)據(jù)中發(fā)現(xiàn)正確的新穎的潛在有用并能夠被理解的知識的過程[1]。數(shù)據(jù)挖掘的目的是提高市場決策能力;檢測異常模式;在過去的經(jīng)驗基礎上預言未來趨勢等。數(shù)據(jù)挖掘是多技術的融合,涉及的技術有統(tǒng)計推理、機器學習、可視化、并行處理等。數(shù)據(jù)經(jīng)過挖掘算法(如聚類算法、分類算法、關聯(lián)規(guī)則、線性回歸等)生成挖掘模型,挖掘模型的運行產(chǎn)生挖掘結果[2],也就是隱藏在數(shù)據(jù)中的知識。
2.2群點發(fā)現(xiàn)
在許多數(shù)據(jù)挖掘應用中,如電信領域的欺詐行為偵測,例外情況或離群點的發(fā)現(xiàn)比常規(guī)知識的發(fā)現(xiàn)更有意義。離群點發(fā)現(xiàn)是數(shù)據(jù)挖掘中一類比較特殊而又重要的應用,大多數(shù)算法主要是發(fā)現(xiàn)常規(guī)模式,而消除噪聲影響。離群點發(fā)現(xiàn)正是尋找那些看起來像是噪聲,卻非常有價值的信息。
數(shù)據(jù)挖掘中多數(shù)聚類算法(如神經(jīng)網(wǎng)絡、Kohonen、K-means等)能夠發(fā)現(xiàn)一些例外情況。最近,有一些研究是專門針對離群點發(fā)現(xiàn)的[3~5]。本文運用三個成熟的聚類算法神經(jīng)網(wǎng)絡、Kohonen、K-means進行實驗比較,在本實驗中發(fā)現(xiàn)Kohonen算法對于離群點發(fā)現(xiàn)準確率和召回率最高。
2.3 Kohonen算法原理
在對人類的神經(jīng)系統(tǒng)及腦的研究中,人們發(fā)現(xiàn):人腦的某些區(qū)域對某種信息或感覺敏感,如人腦的某一部分進行機械記憶特別有效;而某一部分進行抽象思維特別有效。這種情況使人們對大腦的作用的整體性與局部性特征有所認識[6]。
對大腦的研究說明,大腦是由大量協(xié)同作用的神經(jīng)元群體組成的。大腦的神經(jīng)網(wǎng)絡是一個十分復雜的反饋系統(tǒng);在這個系統(tǒng)含有各種反饋作用,有整體反饋,局部反饋;另外,還有化學交互作用。在大腦處理信息的過程中,聚類是其極其重要的功能。大腦通過聚類過程從而識別外界信號,并產(chǎn)生自組織過程。
依據(jù)大腦對信號處理的特點,在1981年,T.Kohonen提出了一種神經(jīng)網(wǎng)絡模型,也就是自組織特征映射模型SOM(Seh—Organizing fenture Map)。
Kohonen的思想在本質上是希望解決有關外界信息在人腦中自組織地形成概念的問題。對于一個系統(tǒng)來說,就是要解決一個系統(tǒng)在受外界信息作用時在內(nèi)部自組織地形成對應表示形式。這包括神經(jīng)網(wǎng)絡的權系數(shù)調整。
在神經(jīng)網(wǎng)絡的SOM模型中,每一個權系數(shù)的有序序列 Wj=(W1j,W2j,...Wnj)都可以看作是神經(jīng)網(wǎng)絡的一種內(nèi)部表示,它是有序的輸入序列X=(X1,X2,...,Xn)的相對應映象。
SOM模型可以實現(xiàn)自組織功能。自組織的目的就是通過調整權系數(shù)Wij,使神經(jīng)網(wǎng)絡收斂于一種表示形態(tài),在這一表示形態(tài)中的一個神經(jīng)元只對某種輸入模式特別匹配或特別
敏感。換而言之,自組織映射的目的就是使神經(jīng)元的權系數(shù)的形態(tài)表示可以間接模仿輸入的信號模式。自組織特征映射網(wǎng)絡的學習是一種無監(jiān)督的學習,輸人信號模式是環(huán)境自行給出的,而不是人為給出的。
3 欺詐偵測
以下按照CRISP-DM的步驟提出電信領域欺詐偵測的解決方案。首先進行商業(yè)理解,定位要解決的欺詐問題。在背景知識中已經(jīng)介紹過,電信領域欺詐有很多種情況,有些是可以通過完善制度解決,有些可以通過非數(shù)據(jù)挖掘技術解決(如提高實時扣費實時性等)。這里我們利用數(shù)據(jù)挖掘的手段解決惡意欠費的欺詐問題。通過用戶的通話行為屬性和已確定的欺詐行為特征比較,對可能的欺詐用戶進行預警或者停機。由于移動運行商都對通話行為進行了監(jiān)控,理想情況下有限信用用戶在超過一定的消費額度就會催繳,進而監(jiān)控停機。惡意通話欠費主要表現(xiàn)為在短時間內(nèi)的高額通話。
電信運營支撐系統(tǒng)要正常運行,需要很多表信息相互協(xié)作。如用戶資料、通話詳單、月帳單、銷帳表、欠費表、監(jiān)控信息、結算信息等等。只有對這些數(shù)據(jù)進行準確的理解,才能制定有效的解決方案。
在進行數(shù)據(jù)理解之后,進行數(shù)據(jù)準備的工作,為模型建立做準備。建立模型的數(shù)據(jù)需要是經(jīng)過清理的干凈的客觀的數(shù)據(jù)。欺詐是用戶的行為,本解決方案也從用戶的行為中偵測。而對于用戶資料這些靜態(tài)的有一定主觀性(可能會誤填)的信息,則不能用于建立模型。實驗選取某運行商某年某月的用戶的詳單信息,付款情況,欠費情況,帳單信息等數(shù)據(jù),從通話行為的異常出發(fā),采用聚類分析方法中的孤立點分析方法,發(fā)現(xiàn)欺詐用戶。
4 結論
本文將數(shù)據(jù)挖掘技術應用于電信領域的欺詐偵測,針對移動電信領域惡意欠費欺詐情況提出一種偵測的可行性方案,并用某移動電信運營商的真實數(shù)據(jù)進行了驗證。所謂“道高一尺,魔高一丈”,我們不能窮盡所有的欺詐行為,本文也不能窮盡所有的解決方案,本文旨在通過分析一種典型的欺詐行為,給出一種解決方案,具體的實施與要求有待與移動運營商進行深入的交流,從而使數(shù)據(jù)挖掘在多個角度不僅可以描述現(xiàn)在,而且可以預測未來。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實踐” 中體現(xiàn) —— 脫離業(yè)務場景的分 ...
2025-09-10機器學習解決實際問題的核心關鍵:從業(yè)務到落地的全流程解析 在人工智能技術落地的浪潮中,機器學習作為核心工具,已廣泛應用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計產(chǎn)品與服務解決方案 ...
2025-09-09