99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀如何為數(shù)據(jù)集選擇正確的聚類算法?
如何為數(shù)據(jù)集選擇正確的聚類算法?
2020-01-09
收藏
如何為數(shù)據(jù)集選擇正確的聚類算法?

作者 | CDA數(shù)據(jù)分析師

應(yīng)用聚類算法比選擇最佳算法要容易得多。每種類型都有其優(yōu)缺點(diǎn),如果您要爭取一個(gè)整潔的集群結(jié)構(gòu),則必須加以考慮。數(shù)據(jù)聚類是安排正確的整個(gè)數(shù)據(jù)模型的重要步驟。為了進(jìn)行分析,應(yīng)根據(jù)共同點(diǎn)整理信息量。主要問題是,什么通用性參數(shù)可以提供最佳結(jié)果,以及“最佳”定義中到底蘊(yùn)含著什么。

本文對(duì)于新手?jǐn)?shù)據(jù)科學(xué)家或想刷新其在該主題上的記憶的專家應(yīng)該是有用的。它包括最廣泛使用的聚類算法及其深入的綜述。根據(jù)每種方法的特殊性,提供了考慮其應(yīng)用的建議。

四種基本算法以及如何選擇一種

根據(jù)聚類模型,可以區(qū)分四種常見的算法類別。一般而言,算法不少于100種,但是它們的流行程度以及應(yīng)用領(lǐng)域都很適中。

分層聚類

基于整個(gè)數(shù)據(jù)集對(duì)象之間距離的計(jì)算,聚類稱為基于連通性或分層。根據(jù)算法的“方向”,它可以組合或反過來劃分信息數(shù)組- 聚集和分裂的名稱正是源于這種精確的變化。最為流行和合理的類型是聚集型,您可以從輸入數(shù)據(jù)點(diǎn)的數(shù)量開始,然后將這些數(shù)據(jù)點(diǎn)組合成越來越大的簇,直到達(dá)到極限。

基于連接的聚類的最突出示例是植物的分類。數(shù)據(jù)集的“樹”以特定物種開始,以一些植物王國結(jié)束,每個(gè)植物王國都由更小的簇組成(門,類,階等)。

應(yīng)用基于連接性的算法之一后,您將收到樹狀圖數(shù)據(jù),該樹狀圖向您展示了信息的結(jié)構(gòu),而不是集群上的不同分隔。這樣的功能可能既有好處,也有壞處:算法的復(fù)雜性可能變得過高或根本不適用于幾乎沒有層次的數(shù)據(jù)集。它還顯示出較差的性能:由于存在大量的迭代,因此完整的處理將花費(fèi)不合理的時(shí)間。最重要的是,使用分層算法不會(huì)獲得精確的結(jié)構(gòu)。

如何為數(shù)據(jù)集選擇正確的聚類算法?

同時(shí),從計(jì)數(shù)器要求的輸入數(shù)據(jù)下降到數(shù)據(jù)點(diǎn)的數(shù)量,該點(diǎn)不會(huì)對(duì)最終結(jié)果產(chǎn)生實(shí)質(zhì)性影響,也不會(huì)影響預(yù)設(shè)的距離度量,該距離度量也可以進(jìn)行粗略測(cè)量和近似計(jì)算。

KMeans聚類

根據(jù)我的經(jīng)驗(yàn),基于質(zhì)心的聚類由于其比較簡單而成為最常出現(xiàn)的模型。該模型旨在將數(shù)據(jù)集的每個(gè)對(duì)象分類為特定的聚類。簇?cái)?shù)( k)是隨機(jī)選擇的,這可能是該方法最大的“弱點(diǎn)”。由于與 k近鄰(kNN)相似,該 k均值算法在機(jī)器學(xué)習(xí)中特別受歡迎。

如何為數(shù)據(jù)集選擇正確的聚類算法?

計(jì)算過程包括多個(gè)步驟。首先,選擇輸入數(shù)據(jù),這是應(yīng)將數(shù)據(jù)集劃分為的大致聚類數(shù)。聚類的中心應(yīng)放置在盡可能遠(yuǎn)的位置,這將提高結(jié)果的準(zhǔn)確性。其次,該算法找到數(shù)據(jù)集的每個(gè)對(duì)象與每個(gè)聚類之間的距離。最小坐標(biāo)(如果我們?cè)谡務(wù)搱D形表示)確定了將對(duì)象移動(dòng)到哪個(gè)群集。之后,將根據(jù)所有對(duì)象坐標(biāo)的平均值重新計(jì)算聚類的中心。重復(fù)算法的第一步,但是重新計(jì)算了簇的新中心。除非達(dá)到某些條件,否則此類迭代將繼續(xù)。例如,當(dāng)集群的中心距上一次迭代沒有移動(dòng)或移動(dòng)不明顯時(shí),該算法可能會(huì)結(jié)束。

盡管數(shù)學(xué)和編碼都很簡單,但k-means仍然存在一些缺點(diǎn),因此我無法在所有可能的情況下使用它。那包括:

  • 每個(gè)集群的疏忽之處,因?yàn)閮?yōu)先級(jí)設(shè)置在集群的中心,而不是邊界;
  • 無法創(chuàng)建一個(gè)數(shù)據(jù)集結(jié)構(gòu),該結(jié)構(gòu)的對(duì)象可以按等量的方式分類到多個(gè)群集中;
  • 需要猜測(cè)最佳k數(shù),或者需要進(jìn)行初步計(jì)算以指定此量規(guī)。

同時(shí),期望最大化算法可以避免那些復(fù)雜情況,同時(shí)提供更高的準(zhǔn)確性。簡而言之,它計(jì)算每個(gè)數(shù)據(jù)集點(diǎn)與我們指定的所有聚類的關(guān)聯(lián)概率。用于該聚類模型的主要“工具”是高斯混合模型(GMM) –假設(shè)數(shù)據(jù)集的點(diǎn)通常遵循高斯分布。

如何為數(shù)據(jù)集選擇正確的聚類算法?

EM算法

k-means算法基本上是EM原理的簡化版本。它們都需要人工輸入簇?cái)?shù),這是方法所要面對(duì)的主要難題。除此之外,計(jì)算原理(對(duì)于GMM或k均值)很簡單:簇的近似范圍是在每次新迭代中逐漸指定的。

與基于質(zhì)心的模型不同,EM算法允許對(duì)兩個(gè)或多個(gè)聚類的點(diǎn)進(jìn)行分類-它僅向您展示每個(gè)事件的可能性,您可以使用該事件進(jìn)行進(jìn)一步的分析。更重要的是,每個(gè)聚類的邊界組成了不同度量的橢球體,這與k均值不同,在k均值中,聚類在視覺上表示為圓形。但是,該算法對(duì)于對(duì)象不遵循高斯分布的數(shù)據(jù)集根本不起作用。這是該方法的主要缺點(diǎn):它更適用于理論問題,而不是實(shí)際的測(cè)量或觀察。

DBSCAN

最后,基于密度的聚類,名稱包括模型的要點(diǎn)–將數(shù)據(jù)集劃分為聚類,計(jì)數(shù)器會(huì)輸入ε參數(shù),即“鄰居”距離。因此,如果對(duì)象位于ε半徑的圓(球)內(nèi),則它與群集有關(guān)。

如何為數(shù)據(jù)集選擇正確的聚類算法?

DBSCAN(帶有噪聲的基于應(yīng)用程序的基于密度的空間聚類)算法將逐步檢查每個(gè)對(duì)象,將其狀態(tài)更改為“已查看”,將其分類為OR聚類,直到最終處理整個(gè)數(shù)據(jù)集。用DBSCAN確定的簇可以具有任意形狀,因此非常精確。此外,該算法不會(huì)讓您計(jì)算聚類數(shù)-它是自動(dòng)確定的。

盡管如此,即使像DBSCAN這樣的杰作也有缺點(diǎn)。如果數(shù)據(jù)集由可變密度簇組成,則該方法顯示的結(jié)果較差。如果對(duì)象的放置位置太近,并且無法輕松估算ε參數(shù),也可能不是您的選擇。

總結(jié)起來,沒有錯(cuò)誤選擇算法之類的東西-其中有些更適合特定的數(shù)據(jù)集結(jié)構(gòu)。為了始終采用最佳(更適合)算法,您需要全面了解它們的優(yōu)缺點(diǎn)。

例如,如果某些算法不符合數(shù)據(jù)集規(guī)范,則可以從一開始就將其排除在外。為避免繁瑣的工作,您可以花一些時(shí)間來記住信息,而不是選擇反復(fù)試驗(yàn)的路徑并從自己的錯(cuò)誤中學(xué)習(xí)。

我們希望您一開始總是選擇最好的算法。繼續(xù)這了不起的工作吧!

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }