
數(shù)據(jù)挖掘 特異群組挖掘的框架與應(yīng)用
特異群組挖掘在證券金融、醫(yī)療保險(xiǎn)、智能交通、社會(huì)網(wǎng)絡(luò)和生命科學(xué)研究等領(lǐng)域具有重要應(yīng)用價(jià)值。特異群組挖掘與聚類(lèi)、異常挖掘都屬于根據(jù)數(shù)據(jù)對(duì)象的相似性來(lái)劃分?jǐn)?shù)據(jù)集的數(shù)據(jù)挖掘任務(wù),但是,特異群組挖掘在問(wèn)題定義、算法設(shè)計(jì)和應(yīng)用效果方面不同于聚類(lèi)和異常等挖掘任務(wù)。為此,系統(tǒng)地闡述了特異群組挖掘任務(wù),分析了特異群組挖掘任務(wù)與聚類(lèi)、異常等任務(wù)之間的差異,給出了特異群組挖掘任務(wù)的形式化描述及其基礎(chǔ)算法,最后,列舉了特異群組挖掘的幾個(gè)重點(diǎn)應(yīng)用。
1引言
數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)開(kāi)發(fā)技術(shù)的核心[1]。其中,挖掘高價(jià)值、低密度的數(shù)據(jù)對(duì)象是大數(shù)據(jù)的一項(xiàng)重要工作,甚至高價(jià)值、低密度常常被用于描述大數(shù)據(jù)的特征[2]。存在這樣一類(lèi)數(shù)據(jù)挖掘需求:將大數(shù)據(jù)集中的少部分具有相似性的對(duì)象劃分到若干個(gè)組中,而大部分?jǐn)?shù)據(jù)對(duì)象不在任何組中,也不和其他對(duì)象相似(如圖1所示)。將這樣的群組稱為特異群組,實(shí)現(xiàn)這一挖掘需求的數(shù)據(jù)挖掘任務(wù)被稱為特異群組挖掘,由朱揚(yáng)勇和熊赟于2009年首次提出[3]。參考文獻(xiàn)[3]中,特異群組的英文用peculiarity group表示,意指這些群組具有特殊性、異常性;參考文獻(xiàn)[4]強(qiáng)調(diào)這些群組中的對(duì)象具有強(qiáng)相似性、緊粘合性(即cohesive),因此將特異群組挖掘問(wèn)題的英文進(jìn)一步深化,表達(dá)為cohesive anomalymining,意指挖掘的特異群組不僅具有特殊性、異常性,而且群組對(duì)象是強(qiáng)相似、緊粘合的。將這些對(duì)象形成的群組改用abnormal group[4]表示。
圖1 大數(shù)據(jù)集里的特異群組
大數(shù)據(jù)特異群組挖掘具有廣泛應(yīng)用背景,在證券交易、智能交通、社會(huì)保險(xiǎn)、生物醫(yī)療、銀行金融和網(wǎng)絡(luò)社區(qū)等領(lǐng)域都有應(yīng)用需求,對(duì)發(fā)揮大數(shù)據(jù)在諸多領(lǐng)域的應(yīng)用價(jià)值具有重要意義。例如,在證券市場(chǎng)中,特異群組常常表現(xiàn)為合謀操縱(多賬戶聯(lián)合操縱)、基金“老鼠倉(cāng)”等。這些賬戶以獲取不正當(dāng)利益為目的,集中資金優(yōu)勢(shì)或利用信息優(yōu)勢(shì),操縱交易量、交易價(jià)格,擾亂市場(chǎng)秩序。其中,合謀操縱的行為模式主要是集中資金優(yōu)勢(shì)、持股優(yōu)勢(shì)進(jìn)行市場(chǎng)操縱,通過(guò)使用多個(gè)賬戶進(jìn)行分工交易、分倉(cāng)持有來(lái)合謀操縱市場(chǎng)價(jià)格和成交量,以誘導(dǎo)其他投資者;基金“老鼠倉(cāng)”的行為模式是通過(guò)獲悉基金即將或正在交易某投資標(biāo)的,且該筆交易大幅影響投資標(biāo)的價(jià)格的交易信息,以相近時(shí)刻、相同買(mǎi)賣(mài)方向用個(gè)人私有資產(chǎn)同步交易該投資標(biāo)的,以獲取收益。
本文系統(tǒng)地闡述了特異群組挖掘任務(wù)的框架,分析了特異群組挖掘任務(wù)與聚類(lèi)、異常等任務(wù)之間的差異,給出了特異群組挖掘任務(wù)的形式化描述及其基礎(chǔ)算法,最后,列舉了特異群組挖掘的幾個(gè)重點(diǎn)應(yīng)用。
2 特異群組挖掘與聚類(lèi)和異常檢測(cè)的關(guān)系
特異群組是指由給定大數(shù)據(jù)集里面少數(shù)相似的數(shù)據(jù)對(duì)象組成的、表現(xiàn)出相異于大多數(shù)數(shù)據(jù)對(duì)象而形成異常的群組[3,4],是一種高價(jià)值低密度的數(shù)據(jù)形態(tài)。特異群組挖掘、聚類(lèi)和異常檢測(cè)都是根據(jù)數(shù)據(jù)對(duì)象間的相似程度來(lái)劃分?jǐn)?shù)據(jù)對(duì)象的數(shù)據(jù)挖掘任務(wù),但它們?cè)趩?wèn)題定義、算法設(shè)計(jì)和應(yīng)用效果上存在差異[5]。
2.1 與聚類(lèi)的比較
聚類(lèi)是根據(jù)最大化簇內(nèi)相似性、最小化簇間相似性的原則,將數(shù)據(jù)對(duì)象集合劃分成若干個(gè)簇的過(guò)程[6]。相似性是定義一個(gè)簇的基礎(chǔ),聚類(lèi)過(guò)程的質(zhì)量取決于簇相似性函數(shù)的設(shè)計(jì),不同的簇相似性定義將得到不同類(lèi)別的簇[7]。例如,參考文獻(xiàn)[7]給出了幾種不同類(lèi)別的簇:圖2(a)表示明顯分離的簇,每個(gè)對(duì)象到同一簇中對(duì)象的距離比到不同簇中任意對(duì)象的距離更近或更相似;圖2(b)表示基于原型的簇,每個(gè)對(duì)象到定義該簇的原型的距離比到其他簇的原型的距離更近或更相似;圖2(c)是基于密度的簇,簇是對(duì)象的稠密區(qū)域;圖2(d)表示一種概念簇,簇是有某種共同性質(zhì)的對(duì)象的集合??梢钥闯?,具有某種共同性質(zhì)的對(duì)象取決于挖掘目標(biāo)的定義。不同的簇相似性定義得到不同的簇,甚至還有不同形狀、不同密度的簇。
圖2 不同相似性定義下的各種簇[7]
但不管怎樣,傳統(tǒng)聚類(lèi)算法是處理大部分?jǐn)?shù)據(jù)對(duì)象具有成簇趨勢(shì)的數(shù)據(jù)集,將大部分?jǐn)?shù)據(jù)對(duì)象劃分成若干個(gè)簇。然而,在一些大數(shù)據(jù)應(yīng)用中,大部分?jǐn)?shù)據(jù)并不呈現(xiàn)聚類(lèi)趨勢(shì),而僅有少部分?jǐn)?shù)據(jù)對(duì)象能夠形成群組。
特異群組挖掘是在大數(shù)據(jù)集中發(fā)現(xiàn)特異群組,找出的是少部分具有相似性的數(shù)據(jù)對(duì)象。與聚類(lèi)的共同之處是,特異群組中的對(duì)象也具有相似性,并將相似對(duì)象劃分到若干個(gè)組中,這在一定程度上符合傳統(tǒng)簇的概念。但是,特異群組之外的對(duì)象數(shù)目一般遠(yuǎn)大于特異群組中對(duì)象的數(shù)目,并且這些對(duì)象不屬于任何簇,這和聚類(lèi)的目的是不同的。
2.2 與異常檢測(cè)的比較
少部分?jǐn)?shù)據(jù)對(duì)象的挖掘通常被認(rèn)為是異常檢測(cè)任務(wù)[8]。在特異群組挖掘問(wèn)題中,相對(duì)于不在任何群組中的大部分?jǐn)?shù)據(jù)對(duì)象而言,少部分相似對(duì)象形成的群組是一種異常。但是,現(xiàn)有的異常檢測(cè)算法難以直接用于特異群組挖掘。一是,目前大多數(shù)異常挖掘算法的目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)集中那些少數(shù)不屬于任何簇,也不和其他對(duì)象相似的異常點(diǎn)(point anomalies)[9],這和特異群組的目標(biāo)不同;二是,除異常點(diǎn)檢測(cè)外,存在一些算法用于發(fā)現(xiàn)異常點(diǎn)成簇的情況,稱為微簇(micro-cluster或clustered anomalies)挖掘[10,11],但是該任務(wù)也對(duì)剩下的大部分?jǐn)?shù)據(jù)有聚類(lèi)假設(shè),即微簇問(wèn)題在一個(gè)數(shù)據(jù)集中包含點(diǎn)異常、微簇和簇,這不同于特異群組挖掘;三是,集體異常(collective anomalies)挖掘任務(wù)也不同于特異群組挖掘,因?yàn)榧w異常只能出現(xiàn)在數(shù)據(jù)對(duì)象具有相關(guān)性的數(shù)據(jù)集中,其挖掘要求探索數(shù)據(jù)集中的結(jié)構(gòu)關(guān)系[9]。目前集體異常挖掘主要處理序列數(shù)據(jù)、圖數(shù)據(jù)和空間數(shù)據(jù)。
2.3 三者關(guān)系
通過(guò)上述比較分析可以得到,如果一個(gè)數(shù)據(jù)集中的大部分?jǐn)?shù)據(jù)對(duì)象都能夠歸屬于某些簇,那么那些不能歸屬于任何簇的數(shù)據(jù)對(duì)象就是異常對(duì)象;如果一個(gè)數(shù)據(jù)集中的大部分?jǐn)?shù)據(jù)對(duì)象都不屬于任何簇,那么那些具有相似性的數(shù)據(jù)對(duì)象所形成的群組就是特異群組。因此,挖掘的需求決定了簇、特異群組、異常點(diǎn):如果需要找大部分?jǐn)?shù)據(jù)對(duì)象相似,則是聚類(lèi)問(wèn)題;需要找少部分?jǐn)?shù)據(jù)對(duì)象相似,則為特異群組;如果是找少數(shù)不相似的數(shù)據(jù)對(duì)象,則為異常。
綜上,特異群組挖掘結(jié)合了聚類(lèi)和異常檢測(cè)的一些特點(diǎn),但又具有自身的特性。特異群組挖掘所關(guān)注的是一個(gè)大數(shù)據(jù)集中大部分?jǐn)?shù)據(jù)對(duì)象不相似,而每個(gè)特異群組中的對(duì)象是相似的。即特異群組對(duì)象的群體性和普通對(duì)象的個(gè)體性不同,群組中的個(gè)體對(duì)象本身單獨(dú)而言并不一定特異,只是和群組中的相關(guān)對(duì)象一起構(gòu)成了特異群組。
3 特異群組挖掘形式化描述[4]
設(shè)Fd為d-維特征空間,D={O1, O2,…, Oi,…,On}是對(duì)象集合,Oi∈Fd。兩個(gè)對(duì)象Oi和Oj間的相似性f由相似性函數(shù)sim(Oi,Oj) 計(jì)算(0≤f≤1)。
定義1 (相似對(duì)象)給定一個(gè)相似性閾值δ,對(duì)于一個(gè)對(duì)象Oi(Oi∈D),如果數(shù)據(jù)集中至少存在另一個(gè)對(duì)象Oj,使得sim(Oi,Oj)≥δ。那么對(duì)象Oi稱為對(duì)象集合D中關(guān)于δ的相似對(duì)象。
在特異群組挖掘問(wèn)題中,由于大部分?jǐn)?shù)據(jù)對(duì)象都是不相似的,只有群組中的對(duì)象才是相似對(duì)象,表現(xiàn)出相異于大部分對(duì)象的特性,因此,在特異群組挖掘問(wèn)題中,相似對(duì)象被稱為特異對(duì)象,特異對(duì)象的集合記為P,剩下不在P中的對(duì)象記為D\P。相應(yīng)地,度量數(shù)據(jù)對(duì)象是否為相似對(duì)象的相似性函數(shù)被稱為特異度度量。特異度度量是定義一個(gè)特異群組的基礎(chǔ)。
對(duì)于一個(gè)數(shù)據(jù)集,形成特異群組集合的數(shù)據(jù)對(duì)象相對(duì)整個(gè)數(shù)據(jù)集中的數(shù)據(jù)對(duì)象是少數(shù)的。在很多情況下,指定合適的相似性閾值對(duì)用戶而言是困難的。例如,在證券市場(chǎng)合謀操縱賬戶挖掘中,多個(gè)賬戶在一定時(shí)間段內(nèi)的多次相同交易行為是價(jià)格操縱的基本行為。簡(jiǎn)單直觀地,可以以相同交易行為的數(shù)量l來(lái)定義兩個(gè)賬戶的相似度,用這個(gè)數(shù)量作為相似性閾值。然而,在實(shí)際實(shí)施過(guò)程中,這個(gè)相似性閾值對(duì)用戶而言是困難的。
但是,對(duì)于特異群組挖掘需求而言,用戶更容易知道的是他們希望發(fā)現(xiàn)的特異對(duì)象的數(shù)量。例如,作為證券監(jiān)管者,希望發(fā)現(xiàn)的是涉嫌操縱股價(jià)的賬戶數(shù)量。進(jìn)一步,特異群組挖掘問(wèn)題是挖掘“少量”數(shù)據(jù)對(duì)象構(gòu)成的特異群組,一般觀點(diǎn)認(rèn)為20% 已經(jīng)很少了,但在許多應(yīng)用中,如證券市場(chǎng)合謀操縱賬戶挖掘這個(gè)例子中,10%都不是“少量”,操縱賬戶可能小于0.2%或更小,才被認(rèn)為是“少量”,這個(gè)數(shù)量完全由實(shí)際問(wèn)題的用戶理解所決定。例如,用戶可以根據(jù)預(yù)算的經(jīng)費(fèi)和時(shí)間等指定其期望的特異對(duì)象數(shù)量。同時(shí),這也是用戶的直接需求,用戶易于理解和指定。于是,對(duì)特異群組挖掘問(wèn)題進(jìn)行定義。
定義2 (τ-特異群組挖掘)特異群組挖掘是在一個(gè)數(shù)據(jù)集中發(fā)現(xiàn)特異群組的過(guò)程,這些特異群組形成的集合包含τ個(gè)數(shù)據(jù)對(duì)象,τ是一個(gè)相對(duì)小的值(τ
性質(zhì)1 (相似性閾值的存在性)給定一個(gè)特異對(duì)象的數(shù)量的閾值τ,存在一個(gè)潛在的相似性閾值δ,對(duì)于τ個(gè)特異對(duì)象形成的集合P中每一個(gè)對(duì)象O,都存在至少另一個(gè)對(duì)象Q與其相似,sim(O,Q)≥δ。
性質(zhì)1說(shuō)明了數(shù)據(jù)集中具有相似性的數(shù)據(jù)對(duì)象(特異對(duì)象)的數(shù)量τ可以反映數(shù)據(jù)集中對(duì)象間的相似性閾值,即選擇一個(gè)特異對(duì)象數(shù)量作為代替相似性閾值的方法是合適的。
特異對(duì)象的數(shù)量τ不僅易于用戶描述其需求,而且因?yàn)棣酉鄬?duì)較小,算法可以利用τ設(shè)計(jì)剪枝策略,以提高大數(shù)據(jù)集特異群組挖掘算法的效率。
定義3 (對(duì)象的特異度評(píng)分,特異對(duì)象)一個(gè)對(duì)象Oi的特異度評(píng)分ω是Oi和該數(shù)據(jù)集中其他對(duì)象間的最大相似性值,即ω(Oi)=maxl≤j≤n, j≠iS(Oi,Oj),其中S(Oi,Oj)表示對(duì)象Oi和Oj的相似性度量值。
給定一個(gè)特異度評(píng)分閾值δ>0,當(dāng)一個(gè)對(duì)象O的特異度評(píng)分ω(Oi)>δ,則該對(duì)象O是一個(gè)特異對(duì)象。表示在整個(gè)數(shù)據(jù)集中特異對(duì)象的集合。
在特異度評(píng)分定義的基礎(chǔ)上,定義特異群組。
定義4 (特異群組)一個(gè)特異對(duì)象的集合G是一個(gè)候選特異群組,當(dāng)且僅當(dāng)G ≥2,并且G中的每?jī)蓚€(gè)對(duì)象都是相似的,即對(duì)于Oi,Oj∈G,有S(Oi,Oj)≥δ。如果不存在任何一個(gè)G的超集是一個(gè)候選特異群組,那么G是一個(gè)特異群組。
特異群組的緊致性度量如下。
定義5 (緊致性)一個(gè)特異群組G的緊致性ζ是該群組中所有對(duì)象的總體特異度評(píng)分之和,即ζ=Σi=1Gω(Oi)( Oi∈G)。
設(shè)是特異群組集,的緊致度是中所有特異群組緊致度之和。
前已述及,特異度評(píng)分閾值δ在實(shí)際應(yīng)用中用戶是很難設(shè)置的。為了克服這個(gè)困難,用戶可以設(shè)置一個(gè)特異群組集合的對(duì)象總數(shù)閾值τ,這對(duì)于用戶以及特異群組挖掘問(wèn)題本身而言是一個(gè)容易設(shè)置和接受的閾值。這兩個(gè)閾值(τ和δ)之間的關(guān)系如下。
給定一個(gè)相對(duì)小的閾值τ(τ≥2)(特異群組集合中的對(duì)象個(gè)數(shù)相對(duì)較少,因此τ的值相對(duì)較小),可以找到具有最高特異度評(píng)分的τ個(gè)對(duì)象。那么,第τ個(gè)對(duì)象的特異度評(píng)分就是相應(yīng)的特異度評(píng)分閾值δ,即這τ個(gè)對(duì)象具有最高的特異度評(píng)分值,并且包含τ個(gè)對(duì)象的特異群組集的緊致度最大。
在對(duì)象特異度評(píng)分定義基礎(chǔ)上,給出進(jìn)一步深化的特異群組挖掘任務(wù)定義。
定義6(τ-特異群組挖掘)特異群組挖掘問(wèn)題是找到數(shù)據(jù)集中所有的特異群組,滿足特異群組集合的緊致度最大,且=τ,其中τ(τ≥2)是一個(gè)給定閾值。
4 特異群組挖掘框架算法[4]
對(duì)于τ-特異群組挖掘問(wèn)題,傳統(tǒng)的聚類(lèi)算法無(wú)法直接使用。因?yàn)?,聚?lèi)算法通常要求用戶指定一個(gè)相似性閾值(或相關(guān)參數(shù)),而這樣的限制不能保證結(jié)果中相似對(duì)象的數(shù)量滿足閾值τ。一種修改是通過(guò)多次調(diào)用聚類(lèi)算法調(diào)整參數(shù)值,終止的條件是當(dāng)簇中對(duì)象的數(shù)量滿足用戶指定的數(shù)量τ。但是,由于重復(fù)多次的聚類(lèi)算法調(diào)用,造成大量冗余的計(jì)算。更壞的情況是,當(dāng)多個(gè)參數(shù)之間相關(guān)時(shí),這是相當(dāng)困難的。雖然,層次聚類(lèi)方法看上去能夠簡(jiǎn)單地使用一個(gè)對(duì)象數(shù)量的閾值作為參數(shù)提前終止聚類(lèi),且易于處理任何形式的相似性。然而,對(duì)象間相似性的計(jì)算具有相當(dāng)高的復(fù)雜度[12]。
因此,簡(jiǎn)單地修改聚類(lèi)算法處理τ-特異群組挖掘問(wèn)題不是很好的解決方案,原因是兩者的目的不同。
值得指出的是,Gupta等提出bregman bubble clustering(BBC)算法[16]挖掘c個(gè)密集的簇,包含τ個(gè)對(duì)象,這和特異群組挖掘問(wèn)題的出發(fā)點(diǎn)相似。然而,一方面,BBC 算法需要指定c個(gè)簇的代表點(diǎn),然后將對(duì)象指定到與代表點(diǎn)相近的對(duì)象中,直到τ個(gè)點(diǎn)被聚類(lèi)。對(duì)于用戶而言指定這樣的代表點(diǎn)是困難的;另一方面,BBC試圖同時(shí)限制對(duì)象的數(shù)量和簇的數(shù)量c,因此又遇到了τ個(gè)對(duì)象必須劃分到c個(gè)簇的困境。
考慮到上述問(wèn)題,下面給出一個(gè)特異群組挖掘(abnormal group mining,AGM)框架算法。該算法是一個(gè)兩階段算法[4],如圖3所示。第一階段是找到給定數(shù)據(jù)集中的最相似的數(shù)據(jù)對(duì)象對(duì),并采用剪枝策略將不可能包含特異對(duì)象的對(duì)象對(duì)刪除,然后從候選對(duì)象對(duì)中計(jì)算得到特異對(duì)象;第二階段將對(duì)象對(duì)劃分到特異群組中。
圖3 τ-特異群組挖掘算法框架[4]
在第一階段,采用Top k相似點(diǎn)對(duì)查詢策略找到Topk個(gè)相似點(diǎn)對(duì),在這些相似點(diǎn)對(duì)中的對(duì)象被認(rèn)為是候選對(duì)象。不難證明,k與τ之間的關(guān)系為k=τ×(τ-1)/2。因?yàn)棣邮且粋€(gè)相對(duì)小的數(shù),對(duì)于較小的k,具有剪枝策略的Top k相似點(diǎn)對(duì)查詢算法[17~19]有良好的運(yùn)行效率。即使對(duì)于高維數(shù)據(jù)對(duì)象,相似點(diǎn)對(duì)查詢算法復(fù)雜度也可以降到O((dn/B)1. 5)[18],其中d為數(shù)據(jù)對(duì)象的維度,n為數(shù)據(jù)對(duì)象集中對(duì)象數(shù),B為數(shù)據(jù)集所在外存頁(yè)字節(jié)數(shù)。之后,在獲得的Top k個(gè)點(diǎn)對(duì)中找到Topτ個(gè)具有最大特異度評(píng)分的對(duì)象作為特異對(duì)象。
在第二階段,根據(jù)特異群組定義,特異群組中的每對(duì)對(duì)象之間必須相似,因此特異群組事實(shí)上是一個(gè)最大團(tuán),采用最大團(tuán)挖掘算法[20,21]將所有的τ個(gè)特異對(duì)象劃分到相應(yīng)的特異群組中。最大團(tuán)挖掘的最壞情況時(shí)間復(fù)雜度為O(3τ/3)[21](τ為圖的頂點(diǎn)數(shù)),因?yàn)樘禺惾航M挖掘算法第一階段的輸出為T(mén)opτ個(gè)對(duì)象,而τ是一個(gè)相對(duì)較小的數(shù),因此,對(duì)τ個(gè)數(shù)據(jù)對(duì)象集發(fā)現(xiàn)其最大團(tuán)而言,特異群組挖掘算法具有較好效率。
5 特異群組挖掘應(yīng)用
行為數(shù)據(jù)反映了人類(lèi)的各種行為方式,這些行為通常是個(gè)體對(duì)象主動(dòng)的行為(如股票交易、看病就醫(yī)、通勤出行、購(gòu)物等),一般情況下,行為對(duì)象具有個(gè)體性。因此,如果有兩個(gè)或兩個(gè)以上的對(duì)象長(zhǎng)時(shí)間存在共同的行為,說(shuō)明這些對(duì)象具有群體組織性,有別于通常大部分對(duì)象的個(gè)體性,這些群體是異?,F(xiàn)象。特異群組挖掘就是在眾多行為對(duì)象中找到那些少數(shù)對(duì)象群體,這些行為對(duì)象具有一定數(shù)量的相同或相似行為模式,表現(xiàn)出相異于大多數(shù)對(duì)象而形成異常的群組,目前已有相當(dāng)?shù)膽?yīng)用。
(1)證券市場(chǎng)操縱行為挖掘
圖4 “老鼠倉(cāng)”可疑賬戶及操縱的股票[22]
然而,這批賬戶通常在多天具有共同的股票交易行為,且異于其他大多數(shù)賬戶,是一種異?,F(xiàn)象,形成特異群組。因此,特異群組挖掘技術(shù)將有助于發(fā)現(xiàn)這些可疑賬戶。
(2)醫(yī)療保險(xiǎn)中的保費(fèi)欺詐行為挖掘[3]
我國(guó)基本醫(yī)療保險(xiǎn)中,參保人使用醫(yī)保卡就醫(yī)發(fā)生費(fèi)用時(shí),由醫(yī)保基金支付醫(yī)保范圍內(nèi)的費(fèi)用,超出醫(yī)保范圍的費(fèi)用才需要個(gè)人現(xiàn)金支付。為保證醫(yī)?;鸬恼0踩\(yùn)轉(zhuǎn),醫(yī)保機(jī)構(gòu)對(duì)參保人醫(yī)保消費(fèi)行為有一定的限制,如參保人只能消費(fèi)與病情和處方相關(guān)的藥品,而不允許超范圍配藥,個(gè)人醫(yī)保費(fèi)用只允許用于本人就診、購(gòu)藥等。由于每張醫(yī)??ǖ氖褂孟拗?,一種典型的用卡欺詐行為是“醫(yī)??ㄌ赚F(xiàn)”,即嫌疑者使用多張醫(yī)保卡獲得盡可能多的藥品,然后賣(mài)出獲取利益。正常情況下,個(gè)人使用醫(yī)保卡就醫(yī)是個(gè)體行為,因此嫌疑者使用一批醫(yī)??ǎ炊鄠€(gè)醫(yī)??ㄙ~戶)多天在多個(gè)或同一個(gè)醫(yī)院進(jìn)行刷卡購(gòu)買(mǎi)藥品的行為是一種異?,F(xiàn)象。醫(yī)保監(jiān)督局希望能夠找到這樣的欺詐行為賬戶予以監(jiān)管。圖5是特異群組挖掘算法在上海市醫(yī)?;痫L(fēng)險(xiǎn)防控中的應(yīng)用展示。圖5(a)展示了7個(gè)特異群組,并給出了每個(gè)特異群組在多少天(“群組長(zhǎng)度”)有一致的行為,“包含卡數(shù)”表示該群組中的特異對(duì)象;圖5(a)的右下方還給出了有特異群組出現(xiàn)的一些醫(yī)院示例。圖5(b)將第一群組中的5個(gè)特異對(duì)象展開(kāi)(考慮到隱私,已隱去身份證號(hào),并且醫(yī)保卡號(hào)和姓名也做了一定的脫敏處理)。圖5(b)也展示了這些特異群組所持醫(yī)保卡一般套現(xiàn)的藥品名稱和費(fèi)用。
圖5 醫(yī)療保險(xiǎn)中的保費(fèi)欺詐行為挖掘
(3)智能交通監(jiān)控應(yīng)用中的駕車(chē)犯罪團(tuán)伙挖掘
以汽車(chē)為作案工具的犯罪案件中,一種常見(jiàn)的情況是多輛汽車(chē)共同參與作案。作案車(chē)輛為熟悉作案地點(diǎn)和行程,通常會(huì)提前準(zhǔn)備,在多天內(nèi)共同出現(xiàn)在多個(gè)地點(diǎn),隨著智能交通技術(shù)的發(fā)展,這些信息都將由高清攝像頭識(shí)別記錄。由于城市道路上的車(chē)輛行駛以個(gè)體行為為主,因此這種有一批車(chē)輛在多天共同出現(xiàn)在多個(gè)監(jiān)控點(diǎn)的行為是一種異?,F(xiàn)象。警察機(jī)關(guān)希望能夠從監(jiān)控?cái)?shù)據(jù)庫(kù)中挖掘到這些車(chē)輛,為案件偵破提供線索[3]。圖6是特異群組挖掘算法在上海市寶山公安分局關(guān)于跟車(chē)行為檢測(cè)中的應(yīng)用展示,通過(guò)挖掘可以得到在多天共同出現(xiàn)在多個(gè)監(jiān)控點(diǎn)的異常車(chē)輛群組(考慮到隱私,圖6中的車(chē)牌數(shù)據(jù)也進(jìn)行了一定的脫敏處理)。
圖6 公安系統(tǒng)跟車(chē)行為檢測(cè)
(4)電子商務(wù)交易中的信譽(yù)欺詐挖掘
大多數(shù)在線交易平臺(tái)(如eBay.com和Taobao.com)都已建立交易雙方的信用評(píng)分系統(tǒng)。對(duì)賣(mài)家而言,更高的信用等級(jí)將帶來(lái)更多買(mǎi)家,然而,從低等級(jí)到高等級(jí)需要經(jīng)過(guò)較長(zhǎng)時(shí)間積累大量的交易。于是,一些賣(mài)家采用“刷信用”方式賺取高等級(jí)的信用評(píng)分。提供“刷信用”服務(wù)的嫌疑者(甚至是專(zhuān)門(mén)的“刷信用”公司)通常申請(qǐng)一批賬號(hào)與所服務(wù)賣(mài)家事先商定,在不進(jìn)行實(shí)際交易的方式下給出好的信用評(píng)分。同時(shí),這批賬號(hào)又為其他多個(gè)賣(mài)家“刷信用”。相比所有在線客戶,“刷信用”賬號(hào)數(shù)量是相對(duì)較少的。因此,如果一組賬戶總是給大量相同的賣(mài)家好的信用評(píng)分,那么這組賬戶是可疑的。發(fā)現(xiàn)這些可疑賬戶將為交易平臺(tái)信譽(yù)欺詐檢測(cè)提供幫助。
(5)社會(huì)網(wǎng)絡(luò)中的小群體發(fā)現(xiàn)
Leskovec等人發(fā)現(xiàn)社會(huì)網(wǎng)絡(luò)中,社區(qū)變得越大,社區(qū)成員的交流卻開(kāi)始變得更少[23]。因此,在這樣龐大的社會(huì)網(wǎng)絡(luò)中識(shí)別交流更加密集的小社區(qū)變得更有意義,雖然他們僅僅包含非常少的節(jié)點(diǎn),即真正具有成為社區(qū)趨勢(shì)的對(duì)象數(shù)量相對(duì)整個(gè)社會(huì)網(wǎng)絡(luò)的節(jié)點(diǎn)而言是少部分。在大規(guī)模的社會(huì)網(wǎng)絡(luò)中挖掘小社區(qū)群體屬于特異群組挖掘問(wèn)題。
(6)論文抄襲檢測(cè)
大多數(shù)論文都是不相同的,但是仍然存在一些抄襲的論文。例如,幾篇論文抄襲同一篇,或者A抄襲B,B抄襲C,甚至出現(xiàn)專(zhuān)門(mén)的論文代寫(xiě)公司,這些抄襲的論文事實(shí)上構(gòu)成一系列的特異群組。然而,現(xiàn)有的Similarity Join方法[24]目的只是發(fā)現(xiàn)抄襲論文的對(duì)象對(duì),而不能發(fā)現(xiàn)多篇抄襲論文形成的特異群組。
除了在社會(huì)行為科學(xué)研究中特異群組挖掘具有廣泛的應(yīng)用背景,科學(xué)研究領(lǐng)域(如生命科學(xué)研究)產(chǎn)生的科學(xué)數(shù)據(jù)也有著重要的價(jià)值。
(7)在生命科學(xué)研究中的特異群組挖掘
生物學(xué)家總是希望對(duì)實(shí)驗(yàn)收集的基因或蛋白質(zhì)序列進(jìn)一步分析,如識(shí)別蛋白質(zhì)序列所屬的家族。聚類(lèi)是常用的方法,然而這些方法總是有大量的假陽(yáng)性。這是因?yàn)?,在一些?shí)驗(yàn)收集的序列數(shù)據(jù)集中,僅僅少部分序列可能是相似的。盡管如此,傳統(tǒng)的聚類(lèi)方法將大部分序列劃分到簇中。例如,Z heng等人指出許多人類(lèi)轉(zhuǎn)錄因子(transcription factor,TF)僅僅能調(diào)控幾個(gè)甚至一個(gè)下游基因[24](如TF adenosine deaminasedomain-containing protein2 (ADAD2)僅僅調(diào)控下游基因MUC5AC,而actinfilament-associated protein 1-like 1(AFAP1L1)僅僅調(diào)控基因CAV1)。因此,如果一個(gè)生物學(xué)家收集一個(gè)基因表達(dá)數(shù)據(jù)集,大多數(shù)下游基因被不同的TF調(diào)節(jié),而僅僅少部分由相同的TF調(diào)節(jié)。當(dāng)研究調(diào)控機(jī)制時(shí),發(fā)現(xiàn)少部分被相同TF調(diào)控的基因形成的簇更為合理,而不是聚類(lèi)所有的數(shù)據(jù)對(duì)象。參考文獻(xiàn)[4]對(duì)特異群組挖掘算法進(jìn)行了性能評(píng)估實(shí)驗(yàn),對(duì)比的算法主要是經(jīng)典的聚類(lèi)算法DBSCAN、BBC、SynC以及基于無(wú)剪枝的數(shù)據(jù)對(duì)象兩兩比對(duì)的NavAllPairs算法,如圖7所示。重疊分?jǐn)?shù)(overlapping score,OS)是被預(yù)測(cè)出的群組中的數(shù)據(jù)對(duì)象與已知類(lèi)中的數(shù)據(jù)對(duì)象匹配的數(shù)量比例。ARI(adjusted rand index)是Hubert等提出的一種常用的有效性度量指標(biāo)[26],評(píng)估預(yù)測(cè)群組與已知類(lèi)的一致程度。實(shí)驗(yàn)結(jié)果表明,從效率上看,特異群組挖掘算法的運(yùn)行時(shí)間隨著數(shù)據(jù)對(duì)象數(shù)量的增長(zhǎng)變化不大,具有較高的可伸縮性,而其他算法的運(yùn)行時(shí)間增長(zhǎng)較快;在有效性方面,在相似對(duì)象密集的情況(即τ的值越小的情況)下,有效性越高,這進(jìn)一步說(shuō)明,特異群組挖掘算法對(duì)于高價(jià)值、低密度的數(shù)據(jù)集具有更好的性能。
圖7 在生物數(shù)據(jù)集上特異群組挖掘算法性能[4]
此外,在公共安全方面發(fā)現(xiàn)突發(fā)群體事件,在社交網(wǎng)絡(luò)大數(shù)據(jù)中發(fā)現(xiàn)影響安全、和諧網(wǎng)絡(luò)環(huán)境的特異群體等都是大數(shù)據(jù)特異群組挖掘的應(yīng)用需求。通過(guò)對(duì)特異群組挖掘與利用,減少欺詐行為,提高監(jiān)管力度,提升公共安全管理和應(yīng)急響應(yīng)能力,幫助政府節(jié)省開(kāi)支。
6 結(jié)束語(yǔ)
特異群組挖掘是大數(shù)據(jù)的一個(gè)重要任務(wù)。本文討論了特異群組挖掘任務(wù)在問(wèn)題定義、算法實(shí)現(xiàn)和應(yīng)用等方面與聚類(lèi)、異常檢測(cè)之間的差異,指出挖掘的需求決定了簇、特異群組、異常點(diǎn)的本質(zhì),表明了相似性理論是大數(shù)據(jù)挖掘技術(shù)研究的基礎(chǔ)和關(guān)鍵;給出了一個(gè)易于理解和應(yīng)用的特異群組挖掘任務(wù)的形式化描述及其實(shí)現(xiàn)算法;描述了特異群組挖掘的一些應(yīng)用領(lǐng)域,實(shí)現(xiàn)大數(shù)據(jù)價(jià)值。
值得指出的是,聚類(lèi)、特異群組挖掘、異常檢測(cè)都是基于數(shù)據(jù)對(duì)象的相似性來(lái)挖掘數(shù)據(jù)對(duì)象的。對(duì)于給定的數(shù)據(jù)集和相似性定義,如果相似點(diǎn)的數(shù)量遠(yuǎn)大于孤立點(diǎn)的數(shù)量,對(duì)應(yīng)的相似點(diǎn)集是聚類(lèi)的結(jié)果簇,而孤立點(diǎn)是異常檢測(cè)需要找出的數(shù)據(jù)對(duì)象;如果相似點(diǎn)的數(shù)量遠(yuǎn)小于孤立點(diǎn)的數(shù)量,相似點(diǎn)構(gòu)成的組就是特異群組。相似點(diǎn)集挖掘是未來(lái)的一個(gè)重要研究方向。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03