潘金莲性肉欲全黄,99精品国产福久久久久久,女人被爽到高潮视频免费国产

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

一種面向高維數(shù)據(jù)的集成聚類算法

2018-06-10

一種面向高維數(shù)據(jù)的集成聚類算法

聚類集成已經成為機器學習的研究熱點，它對原始數(shù)據(jù)集的多個聚類結果進行學習和集成，得到一個能較好地反映數(shù)據(jù)集內在結構的數(shù)據(jù)劃分。很多學者的研究證明聚類集成能有效地提高聚類結果的準確性、魯棒性和穩(wěn)定性。本文提出了一種面向高維數(shù)據(jù)的聚類集成算法。該方法針對高維數(shù)據(jù)的特點，先用分層抽樣的方法結合信息增益對每個特征簇選擇合適數(shù)量比較重要的特征的生成新的具代表意義的數(shù)據(jù)子集，然后用基于鏈接的方法對數(shù)據(jù)子集上生成的聚類結果進行集成．最后在文本、圖像、基因數(shù)據(jù)集上進行實驗，結果表明，與集成前的K均值聚類算法及基于鏈接的聚類集成算法相比，該方法能有效的改善聚類結果。

引言

聚類分析又稱群分析，是根據(jù)“物以類聚”的道理對樣品或指標進行分類的一種多元統(tǒng)計分析方法。它是一個將數(shù)據(jù)分到不同類或者簇的過程，所以同一個簇中的對象有很大的相似性，而不同簇間的對象有很大的相異性。聚類分析是機器學習、模式識別的一個最重要的研究方向之一，它是了解數(shù)據(jù)集的結構的一種最重要的手段，并已經成功的應用于數(shù)據(jù)挖掘、信息檢索、語音識別、推薦系統(tǒng)等領域。

現(xiàn)實世界中的數(shù)據(jù)集具有各種形狀和結構，不存在哪一種單一的算法對任何數(shù)據(jù)集都表現(xiàn)的很好[3]，沒有一種聚類算法能準確揭示各種數(shù)據(jù)集所呈現(xiàn)出來的多種多樣的形狀和簇結構，每一種聚類算法都有其優(yōu)缺點，對于任何給定的數(shù)據(jù)集，使用不同的算法都會有不同的結果，甚至對于同一種算法給定不同的參數(shù)都會有不同的聚類結果，自然分組概念內在的不明確性決定了沒有一個通用的聚類算法能適用于任何數(shù)據(jù)集的聚類問題。此外，類存在多樣性的特點，類具有不同的形狀、大小、密度，而且類之間往往是相互重疊的，這樣的問題在高維數(shù)據(jù)中更加明顯，因為不相關的或者冗余的特征會使類的結構更加不明顯。K均值算法[5]是一種應用廣泛的最經典的聚類算法之一，它的特點之一就是隨機選取初始的聚類中心，如果選取的中心點不同，聚類結果就可能產生很大的差異。K均值聚類算法對初始中心點的依賴性，導致K均值算法的聚類結果不穩(wěn)定。在這種情況下，聚類集成應運而生，許多學者在這個領域進行了深入的研究。

聚類集成的目的在于結合不同聚類算法的結果得到比單個聚類算法更優(yōu)的聚類。對聚類集體中的成員聚類的問題成為一致性函數(shù)問題，或叫做集成問題。很多學者證實通過聚類集成可以有效的提高像K均值聚類這些單一聚類算法的準確性、魯棒性和穩(wěn)定性.在現(xiàn)有的研究中，產生基聚類結果的方法有:

(1)使用同一種聚類算法，每次運行使用不同的參數(shù)和隨機初始化；

(2)使用不同的聚類算法，如K均值產生多個不同的聚類;

(3)對數(shù)據(jù)集的子集聚類，子集通過不同采樣像bagging、Sub-sampling等方法獲得；

(4) 在數(shù)據(jù)集的不同特征子集或在數(shù)據(jù)集的不同子空間的投影上聚類得到不同聚類結果構成聚類集體。我們的方法主要是對第四種聚類集成問題進行了深入研究，在數(shù)據(jù)集的不同子集上進行集成分析。對于高維數(shù)據(jù)來說，數(shù)據(jù)點為單位劃分仍存在維數(shù)災難的問題，維數(shù)災難可能會引發(fā)這種現(xiàn)象，一個給定數(shù)據(jù)點與離它最近點的距離比與離它最遠的數(shù)據(jù)點的距離近，所以我們引入同樣的數(shù)據(jù)點但基于不同的特征子集就可能會避免這種問題。生成基聚類結果以后就是設計一致性函數(shù)對聚類結果集成，就是將聚類成員進行合并，得到一個統(tǒng)一的聚類結果。目前存在很多一致性函數(shù)，常用的有投票法、超圖劃分、基于共協(xié)矩陣的證據(jù)積累、概率積累等等，我們在文章中用了文獻[1]中的方法，它是一種基于鏈接的方法。常規(guī)的集成方法往往基于一個由基聚類結果即這些數(shù)據(jù)基聚類結果內部的關系生成，忽略了這些結果之間的關系，所以Iam-on等利用簇之間的相似度來精煉集成信息矩陣。在高維數(shù)據(jù)中，我們將數(shù)據(jù)集的局部特征子集用作聚類成員與基于鏈接的集成聚類方法有效結合，解決了高維數(shù)據(jù)進行集成聚類的問題。

本文組織如下：第2節(jié)對聚類集成做了一個概述，并針對于高維數(shù)據(jù)這一特殊數(shù)據(jù)集提出了自己的集成聚類方法。第3節(jié)是本文的核心部分，它講述了對特征進行分層抽樣，并基于信息增益抽取出比較重要的具有代表意義的局部特征子集的過程，此外對傳統(tǒng)的K均值算法的具體過程進行了簡要的描述，然后引出了分層抽樣的概念，用分層抽樣的思想確定我們選擇的特征的數(shù)目，最后給出了信息增益的定義，通過這個指標最終確定我們在每一個聚類簇中選擇的特征；最后把我們前面的工作抽取局部特征子集與基于鏈接的方法結合起來形成了自己的算法描述；第4節(jié)首先對8個實際數(shù)據(jù)集包括文本、圖像、基因數(shù)據(jù)進行描述，然后在這八個數(shù)據(jù)集上比較和分析了我們的方法(SSLB)和傳統(tǒng)K均值算法和基于鏈接的聚類集成算法(LB)在四個聚類評價標準上的聚類性能；第5節(jié)是對全文的總結。

相關工作

聚類集成概述

聚類分析是按照某種相似性測度將多維數(shù)據(jù)分割成自然分組或簇的過程。聚類算法很多，但是沒有一個萬能的聚類算法能用于任何聚類問題，其原因在自然分組概念的內在不明確性以及類可以有不同的形狀、大小、密度等，這個在高維數(shù)據(jù)中的問題更為明顯，那些不相關的特征和冗余的特征會使類結構更加模糊。單個聚類存在的這些問題，引發(fā)了學者們對聚類集成的研究。首先由Strehl[12]等人提出”聚類集成”的概念，而后Gionis[13]等人也給出該問題的描述。楊草原等給聚類集成下了一個定義，認為聚類集成就是利用經過選擇的多個聚類結果找到一個新的數(shù)據(jù)(或對象)劃分，這個劃分在最大程度上共享了所有輸入的聚類結果對數(shù)據(jù)或對象集的聚類信息。

聚類集成的符號化形式為：假設數(shù)據(jù)集X有n個實例，X={x1,x2,…,xn},首先對數(shù)據(jù)集X使用M次聚類算法，得到M個聚類，?={?1,?2,…,?M}(下面稱為聚類成員)，其中?i(i=1,2,…,M)為第i次聚類算法得到的聚類結果。然后用一致性函數(shù)T對?的聚類結果進行集成得到一個新的數(shù)據(jù)劃分?’[1].

摘要

圖1聚類集成的基本過程。首先對數(shù)據(jù)集使用不同的聚類算法得到不同的劃分，然后對這些劃分用一致性函數(shù)合并為一個聚類結果P’

由上面的聚類集成過程可知，對一個數(shù)據(jù)集進行聚類集成，主要有兩個階段，第一個階段是基聚類器對原始數(shù)據(jù)進行聚類，得到基聚類結果。第二個階段是基聚類結果集成，根據(jù)聚類集成算法對前一個階段采集的基聚類結果進行處理，使之能夠最大限度地分享這些結果，從而得到一個對原始數(shù)據(jù)最好的聚類集成結果。

面向高維數(shù)據(jù)的集成聚類

信息時代互聯(lián)網成為最大的信息聚集地，像Web文檔、交易數(shù)據(jù)、基因表達數(shù)據(jù)、用戶評分數(shù)據(jù)等等，這些成為聚類分析的主要研究對象，而這些數(shù)據(jù)的維度成千上萬，甚至更高，這給聚類分析帶來了極大的挑戰(zhàn)。高維數(shù)據(jù)的聚類集成面臨更多的問題。

傳統(tǒng)的集成學習的第一步是產生多個基聚類結果，這一階段是對數(shù)據(jù)集或者其子集反復進行聚類算法。現(xiàn)有的方法主要有：使用一個聚類算法，每次運行設置不同的參數(shù)和隨機初始化；使用不同的聚類算法；對數(shù)據(jù)集的子集進行聚類；將數(shù)據(jù)集的特征空間投影到數(shù)據(jù)子空間?；?a href='/map/julei/' style='color:#000;font-size:inherit;'>聚類結果生成以后就開始對基聚類結果進行集成。一致性函數(shù)是一個函數(shù)或者是一個方法，它將聚類成員進行集成，得到一個統(tǒng)一的聚類結果。目前存在許多一致性函數(shù)，它大致可以分為:

(1)基于成對相似性的方法，它主要考慮的是所有的數(shù)據(jù)點對的關系的重現(xiàn)、

(2)基于超圖劃分的方法和(3)基于特征的方法，它是把聚類的集成轉換為類標的集成。

針對高維數(shù)據(jù)的特點，我們選擇基于相似性的方法對聚類結果進行集成，凝聚層次聚類算法是最經典的基于相似性方法，我們用了文獻中的方法，他把SL凝聚聚類算法用來生成最終的劃分。但是基于成對相似度的集成的過程都是一個比較粗糙的過程，集成的結果往往基于一個由基聚類結果即這些數(shù)據(jù)劃分內部的關系生成，忽略了這些劃分結果之間的關系，所以它使用了Iam-on[17]等利用簇之間的相似度來精煉集成信息矩陣，實驗證明這種方法在很多數(shù)據(jù)集上表現(xiàn)很好，不僅增強了聚類穩(wěn)定性也改善了聚類性能。由于我們研究的對象是高維數(shù)據(jù)，考慮到需要聚類的對象的維度很大，對完整的對象聚類一定會增加聚類算法的運行開銷。這對基于鏈接的方法性能有所影響，因此，我們考慮對特征空間的局部特征子集進行聚類得到結果。經過上面的分析，我們引出自己的方法。我們對其中的基本步驟進行細化，我們的方法示意圖如下：

我們方法的示意圖，對聚類集成的過程進行了細化，描述了每一個過程的輸入和輸出

我們的方法就是針對高維數(shù)據(jù)的特點，對傳統(tǒng)的聚類集成進行了一些改進，我們首先用前面提到的K均值算法對特征進行聚類，然后用信息增益來衡量不同簇中的特征的重要程度，而每個特征簇中的所抽取特征的數(shù)目nh由上面stratified sampling[18]的方法得到，最后利用信息增益選擇top(nh)的特征。根據(jù)上述方法對特征進行降維，得到了最具代表的數(shù)據(jù)子集。數(shù)據(jù)子集的生成，變換K均值算法的k值，取 k=2,3…√N(N為數(shù)據(jù)點的數(shù)目)生成不同的具有差異的數(shù)據(jù)子集，然后沿用[1]中的方法進行聚類集成，最后把這√N-2次的聚類結果進行最后一次集成得到我們最終的聚類結果?；诰植?a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征子集的生成方法內容在下一章詳細講述。

基于局部特征的數(shù)據(jù)子集生成方法

集成時使用哪種方法產生聚類成員一般從兩個方面來考慮，一個是集成者的目的，一個是數(shù)據(jù)集的結構。在機器學習的實際應用中，我們面對的絕大多數(shù)都是高維數(shù)據(jù)。數(shù)據(jù)集的特征數(shù)量往往較多，可能存在不相關的特征，特征之間可能存在相互依賴，容易導致分析特征、訓練模型的時間變長，甚至引發(fā)“維度災難”，模型復雜推廣能力下降。所以我們采用基于局部特征的數(shù)據(jù)子集生成方法。圖3是我們生成局部特征的數(shù)據(jù)子集的示意圖：

Fig. 3 The basic process of the generation of feature subset

首先我們用傳統(tǒng)的K均值算法對數(shù)據(jù)集的特征進行聚類，然后對于不同的特征簇我們用信息增益來衡量它的重要性，不同的特征簇中我們應該篩選多少特征簇呢？分層抽樣很好的解決了這個問題，分層抽樣的思想是計算每個實例之間的相關性(用標準差、方差來衡量)，它認為類中的實例相關性比較大的可以選擇較多的樣本來代替當前類，類中相關性較小的就少選擇一些實例來代替當前類的樣本，根據(jù)分層抽樣中計算出的特征簇的數(shù)目再利用信息增益這種衡量重要性的標準進行篩選后就得到了局部的特征子集。下面具體論述基于局部特征的數(shù)據(jù)子集生成方法中的關鍵技術。

k均值算法

K均值算法[5]是MacDueen提出的一個著名的聚類學習算法。它根據(jù)相似度距離迭代的更新向量集的聚類中心，當聚類中心不再變化或者滿足某些停止條件，則停止迭代過程得到最終的聚類結果。K均值算法的具體步驟為：

(1) 隨機選擇k個數(shù)據(jù)項作為聚類中心；

(2) 根據(jù)相似度距離公式，將數(shù)據(jù)集中的每一項數(shù)據(jù)分配到離他最近的聚類中去；

(3) 計算新的聚類中心；

(4) 如果聚類中心沒有發(fā)生改變，算法結束；否則跳轉到第(2)步.

我們使用K均值算法對數(shù)據(jù)集的特征進行聚類，我們通過選取不同的k值進行特征聚類，然后用后面的分層抽樣進行選擇得到差異度比較明顯的局部特征的數(shù)據(jù)子集作為后面的聚類集成的輸入。

信息增益

對特征進行聚類后得到多個特征團，如何對它們進行特征選擇，如何度量特征團中的特征的重要程度是我們面臨的問題。信息增益是信息論中的一個重要概念，它被廣泛應用在機器學習、數(shù)據(jù)挖掘領域，計算信息增益是針對一個特征項而言的，它通過統(tǒng)計某一個特征項t在類別C中出現(xiàn)與否的實例數(shù)來計算特征項t對類別C的信息增益，定義為：

其中P(ci)表示ci類實例在數(shù)據(jù)集中出現(xiàn)的概率，p(t)表示數(shù)據(jù)集中包含特征項t的實例數(shù)，p(ci|t)表示實例包含特征項t時屬于ci類的條件概率，p(t ? )表示數(shù)據(jù)集中不包含特征項t的實例數(shù)，p(c_i |t ? )表示實例不包含特征項t時屬于ci類的概率，m為類別數(shù)。信息增益考慮特征與類別信息的相關程度，認為信息增益值越大，其貢獻越大。我們的方法采用信息增益來度量特征簇中的特征的重要程度。

分層抽樣（Stratified sampling）

在對特征進行聚類后對特征進行選擇，我們采用信息增益來度量每個特征簇中的特征的重要程度。但是每個特征簇我們選擇多少個特征比較合適，這是分層抽樣解決的問題。抽樣的目的是在不影響聚類效果的情況下在已經分好或者聚好類的實例中，從每個類中抽取部分的樣本來代替整個類。Stratified sampling[18]方法遵循的原則是：計算每個實例之間的相關性(用標準差、方差來衡量)，我們認為類中的實例相關性比較大的可以選擇較小的樣本來代替當前類，類中相關性較小的就多選擇一些實例來代替當前類的樣本。這個方法就是確定每個類中篩選的實例的數(shù)目。此方法中每個類的樣本數(shù)目為：

其中nh是第h類應該抽取的實例數(shù)。n是預計抽取的總樣本數(shù)，Nh是在總體樣本中第h類的實例數(shù)，?h是第h類的標準差。通過(1)式我們就可以得到每個類中應該選擇的實例數(shù)目。提出這中抽樣方法的學者還對它的精確度、置信區(qū)間進行了分析，證明了它在不影響學習效果的情況下對可以對數(shù)據(jù)降維，提高學習效率。
在本文的方法中，我們先用前面提到的k均值算法對特征進行聚類，然后用信息增益來衡量不同簇中的特征的重要程度，而每個特征簇中的所抽取特征的數(shù)目nh由上面stratified sampling的方法得到，最后利用信息增益選擇top(nh)的特征。根據(jù)上述方法對特征進行降維，得到了最具代表的數(shù)據(jù)子集，進行后面的數(shù)據(jù)集的聚類集成。

實驗結果與分析

實驗數(shù)據(jù)集

本文選用了8個數(shù)據(jù)集，包括文獻[1]中的兩個數(shù)據(jù)集：一個人工數(shù)據(jù)集Four-Gaussian[19]和一個被用來做基因數(shù)據(jù)聚類的真實數(shù)據(jù)集Leukemia dataset[20],另外就是六個真實數(shù)據(jù)集包括兩個文本數(shù)據(jù)集，兩個圖像數(shù)據(jù)集，兩個基因數(shù)據(jù)。表1給出了這些數(shù)據(jù)集的名稱以及數(shù)據(jù)的樣本、屬性、類別數(shù)量。

Table 1 Number of instance, features and classes of datasets

實驗分析

實驗中，本文對比了三種分類算法包括傳統(tǒng)的k-means算法，文獻[1]中的LB算法以及我們實現(xiàn)的算法SSLB。聚類性能通過下面四個評價指標來衡量，表2給出了這四個評價指標[1]的具體描述：

Table 2 Name of measures, formulas

K為聚類結果中簇的數(shù)目，nk是屬于第k個簇的數(shù)據(jù)點數(shù)目，d(xi,xj)是數(shù)據(jù)點xi和xj的距離，N是數(shù)據(jù)集中數(shù)據(jù)點的總數(shù)。n11是指在兩個劃分?’(正確的劃分)和?中出現(xiàn)在相同簇中的數(shù)據(jù)線對的個數(shù)，n00是指在兩個劃分?’、?中中出現(xiàn)在不同簇中的數(shù)據(jù)點對的個數(shù)，n01表示在劃分?中屬于不同簇在另一個劃分?’ 中屬于同一個簇的數(shù)據(jù)點對數(shù)目，n10表示在劃分?’中屬于不同簇在另一個劃分?中屬于同一個簇的數(shù)據(jù)點對數(shù)目。
其中CP衡量的是在同一個簇中，所有數(shù)據(jù)點的數(shù)據(jù)點對的平均距離，越小越好。CA衡量的是與已經的類標相比，聚類正確的數(shù)據(jù)點數(shù)目，CA的范圍是從0到1，越大越好。RI這個指標衡量存在于相同和不同簇中的點對數(shù)目，RI的值從0到1，越大越好，AR也是越大越好。

本文對這8個數(shù)據(jù)集進行聚類集成，聚類成員由k均值對特征聚類然后分層抽樣產生的局部特征子集獲得，聚類中心的個數(shù)為數(shù)據(jù)集的類別數(shù)。為了增加實驗的可靠性，所有的實驗結果為10次結果的平均值。對比試驗采用原始的K均值聚類算法、基于鏈接(LB)的方法，與我們實現(xiàn)的方法(SSLB)進行比較。在表3中，我們把關鍵值都突出的表現(xiàn)出來，在這8個數(shù)據(jù)集上，SSLB有在四個評價指標上都表現(xiàn)出比較大的優(yōu)勢。

根據(jù)表四，比較集成前的K均值算法、LB方法和SSLB方法，可以看出，在數(shù)據(jù)集Four-Gaussian上，SSLB在四種評價指標上都可以看出，其聚類性能明顯優(yōu)于集成前的K均值算法和LB聚類集成算法。在兩種文本數(shù)據(jù)集Tr31和Tr41上，我們的方法優(yōu)勢不是很明顯，但是在前兩個指標CP和CA上還是明顯好于集成前的K均值聚類，與LB算法在這兩個指標上性能相當，而且在這兩個文本數(shù)據(jù)上，在RI和AR上集成前的K均值算法與LB和SSLB方法相比都存在優(yōu)勢。在兩個圖像數(shù)據(jù)集上，SSLB方法在CP這個評價指標上都遠遠好于集成前的K均值聚類算法和LB算法，但是在第二個評價指標和第三個評價指標上就比LB算法差一點。在基因數(shù)據(jù)Colon上SSLB再第一個聚類評價指標上仍然存在很大的優(yōu)勢，在聚類的準確率上，我們的方法與LB方法相當，但是明顯優(yōu)于集成前的K均值算法。在基因數(shù)據(jù)TOX-171上，我們的方法獲得了最好的聚類集成性能，在四個聚類評價指標上，都遠遠好于集成前的K均值算法和LB算法。

下面我們逐一在這四個聚類評價標準比較集成前的K均值算法、SSLB算法和LB算法。圖四、圖五、圖六、以及圖七分別描述了集成前的K均值聚類、LB以及我們的方法SSLB在CP、CA、RI、AR上的表現(xiàn)。

聚類評價指標CP衡量的是在同一個簇中，所有數(shù)據(jù)點的數(shù)據(jù)點對的平均距離，越小越好。通過圖四可以看出，在所有數(shù)據(jù)集上，我們的算法SSLB都存在很大的優(yōu)勢，比集成前的K-means算法以及LB算法在CP這個指標上都好，此外還能看出CP在不同的數(shù)據(jù)集上的差異還是比較大的，在Four-Gaussian上明顯比其他數(shù)據(jù)集上差。

聚類評價指標CA衡量的是與已知的類標相比，聚類正確的數(shù)據(jù)點數(shù)目占總的數(shù)據(jù)點數(shù)目的比例，CA的范圍是從0到1，越大越好。從圖五可以看出我們的算法在數(shù)據(jù)集Four-Gaussian、Tr41、Colon和TOX-171上的聚類精度比集成前的K均值算法以及LB算法都要好，但是在Tr31以及兩個圖像數(shù)據(jù)集上的優(yōu)勢不大，這這個現(xiàn)象值得我們關注，也是我們接下來會研究的工作。

聚類評價指標RI衡量的是存在于相同和不同簇中的點對數(shù)目，RI的值從0到1，越大越好。從圖六可以看出我們的算法在人工數(shù)據(jù)集Four-Gaussian以及幾個基因數(shù)據(jù)集上的表現(xiàn)比較突出、但是在其他數(shù)據(jù)集上就處于弱勢，而且可以看出集成前的K均值算法在所有的數(shù)據(jù)集在RI上的表現(xiàn)都比較好。

聚類評價指標AR衡量的也是存在于相同和不同簇中的點對數(shù)目，AR的值從0到1，越大越好。從圖七可以看出我們的算法SSLB在大多數(shù)數(shù)據(jù)集上存在著優(yōu)勢，但是在數(shù)據(jù)集Leukemia、Tr41、Colon上的超過了集成前的K均值算法和我們的算法。這些現(xiàn)象和結果都是我們接下來的研究的重點。

綜上所述，在幾乎所有數(shù)據(jù)集上，在所有的聚類評價指標上我們的聚類集成算法SSLB好于集成前K均值算法的聚類效果，而且在大多數(shù)數(shù)據(jù)集上，我們的算法比LB算法存在一定的優(yōu)勢，尤其是在基因數(shù)據(jù)上的表現(xiàn)較為突出。但是在有的數(shù)據(jù)集上優(yōu)勢也不夠明顯，我們要繼續(xù)分析這些數(shù)據(jù)結構上的特點和我們的算法可能存在的問題，這也是我們接下來研究的方向。

結論

本文提出了一種面向高維數(shù)據(jù)的集成聚類方法。針對高維數(shù)據(jù)的特點，對傳統(tǒng)的聚類集成進行了一些改進，首先對特征聚類然后基于分層抽樣抽取特征子集，抽取到最具代表性的特征子集后用基于鏈接的方法進行聚類集成。并在8個實際數(shù)據(jù)集包括文本、圖像、基因數(shù)據(jù)上進行實驗，在這8個數(shù)據(jù)集上分析和比較了我們的方法和集成前的K均值算法以及基于鏈接的聚類集成算法在四個評價標準上的聚類性能，能夠看出我們的算法在聚類性能上有一定改善。