
數(shù)據(jù)挖掘在電信欺詐偵測中的應(yīng)用_數(shù)據(jù)分析師考試
隨著移動業(yè)務(wù)的迅猛發(fā)展,移動通信業(yè)的收入日益增長。但是,隨之而來的移動網(wǎng)絡(luò)的欺詐行為也不斷涌現(xiàn),全球移動通信業(yè)都廣泛面臨著無線欺詐的嚴重問題,從而導(dǎo)致電信運營商的收入受到損失,額外支出的增加,進而致使利潤下降,而移動用戶的合法權(quán)益也受到損害,電信運營商的信譽無法得到保障。
無線欺詐類型可以簡單的分為四類:
(1)時間欺詐:占用了移動通信的時長而不付費用,該類欺詐可以分為兩類,一是技術(shù)型欺詐(包括碼機、魔術(shù)電話等),另一類是用戶欺詐(漫游、濫用補充業(yè)務(wù)以及善意的欺詐行為);
(2)內(nèi)部欺詐:運營商內(nèi)部人員利用職權(quán)非法牟利;
(3)手機欺詐:進行非法手機的交易,如再生盜用手機、偽造手機資源等行為;
(4)分銷商欺詐:為了獲取非法傭金而進行的欺詐;
“并非只有中國的電信運營商存在巨額的欠費損失,例如惡意欠費這樣的欺詐行為普遍存在各個國家的電信運營商里。這部分損失的比例根據(jù)電信運營商管理水平的不同在0.5%-10%之間。尤其隨著電信競爭的激烈,更可能誘發(fā)欺詐。為了吸納客戶增加用戶數(shù),運營商經(jīng)常主動或者被動地降低入網(wǎng)門檻,從而給予某些人可乘之機?!盙artner咨詢公司負責(zé)電信運營商管理咨詢的蔣炳慶分析欺詐產(chǎn)生的一些原因,重點提到隨著電信競爭的激烈,這樣的現(xiàn)象將越來越多。欺詐用戶對企業(yè)造成了很大的損失,一方面這些用戶往往是欠費的,另一方面這些用戶實施完欺詐手段一般都會離網(wǎng)。如何發(fā)現(xiàn)欺詐客戶的特征,有效的阻止欺詐正是本文欲探討和解決的問題。
2、相關(guān)技術(shù)
數(shù)據(jù)挖掘也稱KDD(knowledge discovery in databases)是從大量數(shù)據(jù)中發(fā)現(xiàn)正確的新穎的潛在有用并能夠被理解的知識的過程[1]。數(shù)據(jù)挖掘的目的是提高市場決策能力;檢測異常模式;在過去的經(jīng)驗基礎(chǔ)上預(yù)言未來趨勢等。數(shù)據(jù)挖掘是多技術(shù)的融合,涉及的技術(shù)有統(tǒng)計推理、機器學(xué)習(xí)、可視化、并行處理等。數(shù)據(jù)經(jīng)過挖掘算法(如聚類算法、分類算法、關(guān)聯(lián)規(guī)則、線性回歸等)生成挖掘模型,挖掘模型的運行產(chǎn)生挖掘結(jié)果[2],也就是隱藏在數(shù)據(jù)中的知識。
2.2群點發(fā)現(xiàn)
在許多數(shù)據(jù)挖掘應(yīng)用中,如電信領(lǐng)域的欺詐行為偵測,例外情況或離群點的發(fā)現(xiàn)比常規(guī)知識的發(fā)現(xiàn)更有意義。離群點發(fā)現(xiàn)是數(shù)據(jù)挖掘中一類比較特殊而又重要的應(yīng)用,大多數(shù)算法主要是發(fā)現(xiàn)常規(guī)模式,而消除噪聲影響。離群點發(fā)現(xiàn)正是尋找那些看起來像是噪聲,卻非常有價值的信息。
數(shù)據(jù)挖掘中多數(shù)聚類算法(如神經(jīng)網(wǎng)絡(luò)、Kohonen、K-means等)能夠發(fā)現(xiàn)一些例外情況。最近,有一些研究是專門針對離群點發(fā)現(xiàn)的[3~5]。本文運用三個成熟的聚類算法神經(jīng)網(wǎng)絡(luò)、Kohonen、K-means進行實驗比較,在本實驗中發(fā)現(xiàn)Kohonen算法對于離群點發(fā)現(xiàn)準確率和召回率最高。
2.3 Kohonen算法原理
在對人類的神經(jīng)系統(tǒng)及腦的研究中,人們發(fā)現(xiàn):人腦的某些區(qū)域?qū)δ撤N信息或感覺敏感,如人腦的某一部分進行機械記憶特別有效;而某一部分進行抽象思維特別有效。這種情況使人們對大腦的作用的整體性與局部性特征有所認識[6]。
對大腦的研究說明,大腦是由大量協(xié)同作用的神經(jīng)元群體組成的。大腦的神經(jīng)網(wǎng)絡(luò)是一個十分復(fù)雜的反饋系統(tǒng);在這個系統(tǒng)含有各種反饋作用,有整體反饋,局部反饋;另外,還有化學(xué)交互作用。在大腦處理信息的過程中,聚類是其極其重要的功能。大腦通過聚類過程從而識別外界信號,并產(chǎn)生自組織過程。
依據(jù)大腦對信號處理的特點,在1981年,T.Kohonen提出了一種神經(jīng)網(wǎng)絡(luò)模型,也就是自組織特征映射模型SOM(Seh—Organizing fenture Map)。
Kohonen的思想在本質(zhì)上是希望解決有關(guān)外界信息在人腦中自組織地形成概念的問題。對于一個系統(tǒng)來說,就是要解決一個系統(tǒng)在受外界信息作用時在內(nèi)部自組織地形成對應(yīng)表示形式。這包括神經(jīng)網(wǎng)絡(luò)的權(quán)系數(shù)調(diào)整。
在神經(jīng)網(wǎng)絡(luò)的SOM模型中,每一個權(quán)系數(shù)的有序序列 Wj=(W1j,W2j,...Wnj)都可以看作是神經(jīng)網(wǎng)絡(luò)的一種內(nèi)部表示,它是有序的輸入序列X=(X1,X2,...,Xn)的相對應(yīng)映象。
SOM模型可以實現(xiàn)自組織功能。自組織的目的就是通過調(diào)整權(quán)系數(shù)Wij,使神經(jīng)網(wǎng)絡(luò)收斂于一種表示形態(tài),在這一表示形態(tài)中的一個神經(jīng)元只對某種輸入模式特別匹配或特別
敏感。換而言之,自組織映射的目的就是使神經(jīng)元的權(quán)系數(shù)的形態(tài)表示可以間接模仿輸入的信號模式。自組織特征映射網(wǎng)絡(luò)的學(xué)習(xí)是一種無監(jiān)督的學(xué)習(xí),輸人信號模式是環(huán)境自行給出的,而不是人為給出的。
3 欺詐偵測
以下按照CRISP-DM的步驟提出電信領(lǐng)域欺詐偵測的解決方案。首先進行商業(yè)理解,定位要解決的欺詐問題。在背景知識中已經(jīng)介紹過,電信領(lǐng)域欺詐有很多種情況,有些是可以通過完善制度解決,有些可以通過非數(shù)據(jù)挖掘技術(shù)解決(如提高實時扣費實時性等)。這里我們利用數(shù)據(jù)挖掘的手段解決惡意欠費的欺詐問題。通過用戶的通話行為屬性和已確定的欺詐行為特征比較,對可能的欺詐用戶進行預(yù)警或者停機。由于移動運行商都對通話行為進行了監(jiān)控,理想情況下有限信用用戶在超過一定的消費額度就會催繳,進而監(jiān)控停機。惡意通話欠費主要表現(xiàn)為在短時間內(nèi)的高額通話。
電信運營支撐系統(tǒng)要正常運行,需要很多表信息相互協(xié)作。如用戶資料、通話詳單、月帳單、銷帳表、欠費表、監(jiān)控信息、結(jié)算信息等等。只有對這些數(shù)據(jù)進行準確的理解,才能制定有效的解決方案。
在進行數(shù)據(jù)理解之后,進行數(shù)據(jù)準備的工作,為模型建立做準備。建立模型的數(shù)據(jù)需要是經(jīng)過清理的干凈的客觀的數(shù)據(jù)。欺詐是用戶的行為,本解決方案也從用戶的行為中偵測。而對于用戶資料這些靜態(tài)的有一定主觀性(可能會誤填)的信息,則不能用于建立模型。實驗選取某運行商某年某月的用戶的詳單信息,付款情況,欠費情況,帳單信息等數(shù)據(jù),從通話行為的異常出發(fā),采用聚類分析方法中的孤立點分析方法,發(fā)現(xiàn)欺詐用戶。
4 結(jié)論
本文將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電信領(lǐng)域的欺詐偵測,針對移動電信領(lǐng)域惡意欠費欺詐情況提出一種偵測的可行性方案,并用某移動電信運營商的真實數(shù)據(jù)進行了驗證。所謂“道高一尺,魔高一丈”,我們不能窮盡所有的欺詐行為,本文也不能窮盡所有的解決方案,本文旨在通過分析一種典型的欺詐行為,給出一種解決方案,具體的實施與要求有待與移動運營商進行深入的交流,從而使數(shù)據(jù)挖掘在多個角度不僅可以描述現(xiàn)在,而且可以預(yù)測未來。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03