99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁(yè)精彩閱讀如何正確選擇聚類算法？

如何正確選擇聚類算法？

2019-11-26

作者 | Josh Thompson

來源 | 數(shù)據(jù)派THU

Choosing the Right Clustering Algorithm for your Dataset - KDnuggets

聚類算法十分容易上手，但是選擇恰當(dāng)?shù)木垲愃惴ú⒉皇且患菀椎氖隆?/span>

數(shù)據(jù)聚類是搭建一個(gè)正確數(shù)據(jù)模型的重要步驟。數(shù)據(jù)分析應(yīng)當(dāng)根據(jù)數(shù)據(jù)的共同點(diǎn)整理信息。然而主要問題是，什么通用性參數(shù)可以給出最佳結(jié)果，以及什么才能稱為“最佳”。

本文適用于菜鳥數(shù)據(jù)科學(xué)家或想提升聚類算法能力的專家。下文包括最廣泛使用的聚類算法及其概況。根據(jù)每種方法的特殊性，本文針對(duì)其應(yīng)用提出了建議。

四種基本算法以及如何選擇

聚類模型可以分為四種常見的算法類別。盡管零零散散的聚類算法不少于100種，但是其中大部分的流行程度以及應(yīng)用領(lǐng)域相對(duì)有限。

基于整個(gè)數(shù)據(jù)集對(duì)象間距離計(jì)算的聚類方法，稱為基于連通性的聚類（connectivity-based）或層次聚類。根據(jù)算法的“方向”，它可以組合或反過來分解信息——聚集和分解的名稱正是源于這種方向的區(qū)別。最流行和合理的類型是聚集型，你可以從輸入所有數(shù)據(jù)開始，然后將這些數(shù)據(jù)點(diǎn)組合成越來越大的簇，直到達(dá)到極限。

層次聚類的一個(gè)典型案例是植物的分類。數(shù)據(jù)集的“樹”從具體物種開始，以一些植物王國(guó)結(jié)束，每個(gè)植物王國(guó)都由更小的簇組成（門、類、階等）。

層次聚類算法將返回樹狀圖數(shù)據(jù)，該樹狀圖展示了信息的結(jié)構(gòu)，而不是集群上的具體分類。這樣的特點(diǎn)既有好處，也有一些問題：算法會(huì)變得很復(fù)雜，且不適用于幾乎沒有層次的數(shù)據(jù)集。這種算法的性能也較差：由于存在大量的迭代，因此整個(gè)處理過程浪費(fèi)了很多不必要的時(shí)間。最重要的是，這種分層算法并不能得到精確的結(jié)構(gòu)。

同時(shí)，從預(yù)設(shè)的類別一直分解到所有的數(shù)據(jù)點(diǎn)，類別的個(gè)數(shù)不會(huì)對(duì)最終結(jié)果產(chǎn)生實(shí)質(zhì)性影響，也不會(huì)影響預(yù)設(shè)的距離度量，該距離度量粗略測(cè)量和近似估計(jì)得到的。

根據(jù)我的經(jīng)驗(yàn)，由于簡(jiǎn)單易操作，基于質(zhì)心的聚類（Centroid-based）是最常出現(xiàn)的模型。該模型旨在將數(shù)據(jù)集的每個(gè)對(duì)象劃分為特定的類別。簇?cái)?shù)（k）是隨機(jī)選擇的，這可能是該方法的最大問題。由于與k最近鄰居（kNN）相似，該k均值算法在機(jī)器學(xué)習(xí)中特別受歡迎。

計(jì)算過程包括多個(gè)步驟。首先，輸入數(shù)據(jù)集的目標(biāo)類別數(shù)。聚類的中心應(yīng)當(dāng)盡可能分散，這有助于提高結(jié)果的準(zhǔn)確性。

其次，該算法找到數(shù)據(jù)集的每個(gè)對(duì)象與每個(gè)聚類中心之間的距離。最小坐標(biāo)距離（若使用圖形表示）確定了將對(duì)象移動(dòng)到哪個(gè)群集。

之后，將根據(jù)類別中所有點(diǎn)的坐標(biāo)平均值重新計(jì)算聚類的中心。重復(fù)算法的上一步，但是計(jì)算中要使用簇的新中心點(diǎn)。除非達(dá)到某些條件，否則此類迭代將繼續(xù)。例如，當(dāng)簇的中心距上次迭代沒有移動(dòng)或移動(dòng)不明顯時(shí)，聚類將結(jié)束。

盡管數(shù)學(xué)和代碼都很簡(jiǎn)單，但k均值仍有一些缺點(diǎn)，因此我們無法在所有情景中使用它。缺點(diǎn)包括：

因?yàn)閮?yōu)先級(jí)設(shè)置在集群的中心，而不是邊界，所以每個(gè)集群的邊界容易被疏忽。
無法創(chuàng)建數(shù)據(jù)集結(jié)構(gòu)，其對(duì)象可以按等量的方式分類到多個(gè)群集中。
需要猜測(cè)最佳類別數(shù)（k），或者需要進(jìn)行初步計(jì)算以指定此量規(guī)。

相比之下，期望最大化算法可以避免那些復(fù)雜情況，同時(shí)提供更高的準(zhǔn)確性。簡(jiǎn)而言之，它計(jì)算每個(gè)數(shù)據(jù)集點(diǎn)與我們指定的所有聚類的關(guān)聯(lián)概率。用于該聚類模型的主要工具是高斯混合模型（GMM）–假設(shè)數(shù)據(jù)集的點(diǎn)服從高斯分布。

k-means算法可以算是EM原理的簡(jiǎn)化版本。它們都需要手動(dòng)輸入簇?cái)?shù)，這是此類方法要面對(duì)的主要問題。除此之外，計(jì)算原理（對(duì)于GMM或k均值）很簡(jiǎn)單：簇的近似范圍是在每次新迭代中逐漸更新的。

與基于質(zhì)心的模型不同，EM算法允許對(duì)兩個(gè)或多個(gè)聚類的點(diǎn)進(jìn)行分類-它僅展示每個(gè)事件的可能性，你可以使用該事件進(jìn)行進(jìn)一步的分析。更重要的是，每個(gè)聚類的邊界組成了不同度量的橢球體。這與k均值聚類不同，k均值聚類方法用圓形表示。但是，該算法對(duì)于不服從高斯分布的數(shù)據(jù)集根本不起作用。這也是該方法的主要缺點(diǎn)：它更適用于理論問題，而不是實(shí)際的測(cè)量或觀察。

最后，基于數(shù)據(jù)密度的聚類成為數(shù)據(jù)科學(xué)家心中的最愛。

這個(gè)名字已經(jīng)包括了模型的要點(diǎn)——將數(shù)據(jù)集劃分為聚類，計(jì)數(shù)器會(huì)輸入ε參數(shù)，即“鄰居”距離。因此，如果目標(biāo)點(diǎn)位于半徑為ε的圓（球）內(nèi)，則它屬于該集群。

具有噪聲的基于密度的聚類方法（DBSCAN）將逐步檢查每個(gè)對(duì)象，將其狀態(tài)更改為“已查看”，將其劃分到具體的類別或噪聲中，直到最終處理整個(gè)數(shù)據(jù)集。用DBSCAN確定的簇可以具有任意形狀，因此非常精確。此外，該算法無需人為地設(shè)定簇?cái)?shù) —— 算法可以自動(dòng)決定。

盡管如此，DBSCAN也有一些缺點(diǎn)。如果數(shù)據(jù)集由可變密度簇組成，則該方法的結(jié)果較差；如果對(duì)象的位置太近，并且無法輕易估算出ε參數(shù)，那么這也不是一個(gè)很好的選擇。

總而言之，我們并不能說選擇了錯(cuò)誤的算法，只能說其中有些算法會(huì)更適合特定的數(shù)據(jù)集結(jié)構(gòu)。為了采用最佳的（看起來更恰當(dāng)?shù)模┧惴ǎ阈枰媪私馑鼈兊膬?yōu)缺點(diǎn)。

例如，如果某些算法不符合數(shù)據(jù)集規(guī)范，則可以從一開始就將其排除在外。為避免繁瑣的工作，你可以花一些時(shí)間來記住這些信息，而無需反復(fù)試驗(yàn)并從自己的錯(cuò)誤中學(xué)習(xí)。

我們希望本文能幫助你在初始階段選擇最好的算法。繼續(xù)這了不起的工作吧！

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫(kù)，點(diǎn)擊>>> “CDA題庫(kù)” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

層次聚類機(jī)器學(xué)習(xí) 數(shù)據(jù)分析

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼，搜微信號(hào)：CDAshujufenxi

上一篇機(jī)器學(xué)習(xí)工程師第一年的 12 點(diǎn)體會(huì)

下一篇8 段用于數(shù)據(jù)清洗 Python 代碼

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號(hào) 經(jīng)營(yíng)許可證編號(hào)：京B2-20210330

聯(lián)系電話：13321103290 (微信同號(hào))

CDA教材
CDA題庫(kù)
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗(yàn)證后自動(dòng)注冊(cè)

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

如何正確選擇聚類算法？

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營(yíng)銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

如何正確選擇聚類算法？

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營(yíng)銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...