99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

如何為數(shù)據(jù)集選擇正確的聚類算法？

2020-01-09

作者 | CDA數(shù)據(jù)分析師

應(yīng)用聚類算法比選擇最佳算法要容易得多。每種類型都有其優(yōu)缺點(diǎn)，如果您要爭取一個(gè)整潔的集群結(jié)構(gòu)，則必須加以考慮。數(shù)據(jù)聚類是安排正確的整個(gè)數(shù)據(jù)模型的重要步驟。為了進(jìn)行分析，應(yīng)根據(jù)共同點(diǎn)整理信息量。主要問題是，什么通用性參數(shù)可以提供最佳結(jié)果，以及“最佳”定義中到底蘊(yùn)含著什么。

本文對(duì)于新手?jǐn)?shù)據(jù)科學(xué)家或想刷新其在該主題上的記憶的專家應(yīng)該是有用的。它包括最廣泛使用的聚類算法及其深入的綜述。根據(jù)每種方法的特殊性，提供了考慮其應(yīng)用的建議。

四種基本算法以及如何選擇一種

根據(jù)聚類模型，可以區(qū)分四種常見的算法類別。一般而言，算法不少于100種，但是它們的流行程度以及應(yīng)用領(lǐng)域都很適中。

分層聚類

基于整個(gè)數(shù)據(jù)集對(duì)象之間距離的計(jì)算，聚類稱為基于連通性或分層。根據(jù)算法的“方向”，它可以組合或反過來劃分信息數(shù)組- 聚集和分裂的名稱正是源于這種精確的變化。最為流行和合理的類型是聚集型，您可以從輸入數(shù)據(jù)點(diǎn)的數(shù)量開始，然后將這些數(shù)據(jù)點(diǎn)組合成越來越大的簇，直到達(dá)到極限。

基于連接的聚類的最突出示例是植物的分類。數(shù)據(jù)集的“樹”以特定物種開始，以一些植物王國結(jié)束，每個(gè)植物王國都由更小的簇組成（門，類，階等）。

應(yīng)用基于連接性的算法之一后，您將收到樹狀圖數(shù)據(jù)，該樹狀圖向您展示了信息的結(jié)構(gòu)，而不是集群上的不同分隔。這樣的功能可能既有好處，也有壞處：算法的復(fù)雜性可能變得過高或根本不適用于幾乎沒有層次的數(shù)據(jù)集。它還顯示出較差的性能：由于存在大量的迭代，因此完整的處理將花費(fèi)不合理的時(shí)間。最重要的是，使用分層算法不會(huì)獲得精確的結(jié)構(gòu)。

同時(shí)，從計(jì)數(shù)器要求的輸入數(shù)據(jù)下降到數(shù)據(jù)點(diǎn)的數(shù)量，該點(diǎn)不會(huì)對(duì)最終結(jié)果產(chǎn)生實(shí)質(zhì)性影響，也不會(huì)影響預(yù)設(shè)的距離度量，該距離度量也可以進(jìn)行粗略測(cè)量和近似計(jì)算。

KMeans聚類

根據(jù)我的經(jīng)驗(yàn)，基于質(zhì)心的聚類由于其比較簡單而成為最常出現(xiàn)的模型。該模型旨在將數(shù)據(jù)集的每個(gè)對(duì)象分類為特定的聚類。簇?cái)?shù)（ k）是隨機(jī)選擇的，這可能是該方法最大的“弱點(diǎn)”。由于與 k近鄰（kNN）相似，該 k均值算法在機(jī)器學(xué)習(xí)中特別受歡迎。

計(jì)算過程包括多個(gè)步驟。首先，選擇輸入數(shù)據(jù)，這是應(yīng)將數(shù)據(jù)集劃分為的大致聚類數(shù)。聚類的中心應(yīng)放置在盡可能遠(yuǎn)的位置，這將提高結(jié)果的準(zhǔn)確性。其次，該算法找到數(shù)據(jù)集的每個(gè)對(duì)象與每個(gè)聚類之間的距離。最小坐標(biāo)（如果我們?cè)谡務(wù)搱D形表示）確定了將對(duì)象移動(dòng)到哪個(gè)群集。之后，將根據(jù)所有對(duì)象坐標(biāo)的平均值重新計(jì)算聚類的中心。重復(fù)算法的第一步，但是重新計(jì)算了簇的新中心。除非達(dá)到某些條件，否則此類迭代將繼續(xù)。例如，當(dāng)集群的中心距上一次迭代沒有移動(dòng)或移動(dòng)不明顯時(shí)，該算法可能會(huì)結(jié)束。

盡管數(shù)學(xué)和編碼都很簡單，但k-means仍然存在一些缺點(diǎn)，因此我無法在所有可能的情況下使用它。那包括：

每個(gè)集群的疏忽之處，因?yàn)閮?yōu)先級(jí)設(shè)置在集群的中心，而不是邊界；
無法創(chuàng)建一個(gè)數(shù)據(jù)集結(jié)構(gòu)，該結(jié)構(gòu)的對(duì)象可以按等量的方式分類到多個(gè)群集中；
需要猜測(cè)最佳k數(shù)，或者需要進(jìn)行初步計(jì)算以指定此量規(guī)。

同時(shí)，期望最大化算法可以避免那些復(fù)雜情況，同時(shí)提供更高的準(zhǔn)確性。簡而言之，它計(jì)算每個(gè)數(shù)據(jù)集點(diǎn)與我們指定的所有聚類的關(guān)聯(lián)概率。用于該聚類模型的主要“工具”是高斯混合模型（GMM） –假設(shè)數(shù)據(jù)集的點(diǎn)通常遵循高斯分布。

EM算法

k-means算法基本上是EM原理的簡化版本。它們都需要人工輸入簇?cái)?shù)，這是方法所要面對(duì)的主要難題。除此之外，計(jì)算原理（對(duì)于GMM或k均值）很簡單：簇的近似范圍是在每次新迭代中逐漸指定的。

與基于質(zhì)心的模型不同，EM算法允許對(duì)兩個(gè)或多個(gè)聚類的點(diǎn)進(jìn)行分類-它僅向您展示每個(gè)事件的可能性，您可以使用該事件進(jìn)行進(jìn)一步的分析。更重要的是，每個(gè)聚類的邊界組成了不同度量的橢球體，這與k均值不同，在k均值中，聚類在視覺上表示為圓形。但是，該算法對(duì)于對(duì)象不遵循高斯分布的數(shù)據(jù)集根本不起作用。這是該方法的主要缺點(diǎn)：它更適用于理論問題，而不是實(shí)際的測(cè)量或觀察。

DBSCAN

最后，基于密度的聚類，名稱包括模型的要點(diǎn)–將數(shù)據(jù)集劃分為聚類，計(jì)數(shù)器會(huì)輸入ε參數(shù)，即“鄰居”距離。因此，如果對(duì)象位于ε半徑的圓（球）內(nèi)，則它與群集有關(guān)。

DBSCAN（帶有噪聲的基于應(yīng)用程序的基于密度的空間聚類）算法將逐步檢查每個(gè)對(duì)象，將其狀態(tài)更改為“已查看”，將其分類為OR聚類，直到最終處理整個(gè)數(shù)據(jù)集。用DBSCAN確定的簇可以具有任意形狀，因此非常精確。此外，該算法不會(huì)讓您計(jì)算聚類數(shù)-它是自動(dòng)確定的。

盡管如此，即使像DBSCAN這樣的杰作也有缺點(diǎn)。如果數(shù)據(jù)集由可變密度簇組成，則該方法顯示的結(jié)果較差。如果對(duì)象的放置位置太近，并且無法輕松估算ε參數(shù)，也可能不是您的選擇。

總結(jié)起來，沒有錯(cuò)誤選擇算法之類的東西-其中有些更適合特定的數(shù)據(jù)集結(jié)構(gòu)。為了始終采用最佳（更適合）算法，您需要全面了解它們的優(yōu)缺點(diǎn)。

例如，如果某些算法不符合數(shù)據(jù)集規(guī)范，則可以從一開始就將其排除在外。為避免繁瑣的工作，您可以花一些時(shí)間來記住信息，而不是選擇反復(fù)試驗(yàn)的路徑并從自己的錯(cuò)誤中學(xué)習(xí)。

我們希望您一開始總是選擇最好的算法。繼續(xù)這了不起的工作吧！

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

機(jī)器學(xué)習(xí) 數(shù)據(jù)分析

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼，搜微信號(hào)：CDAshujufenxi

上一篇一文講解機(jī)器學(xué)習(xí)算法中的共線性問題

下一篇制藥和生命科學(xué)中的大數(shù)據(jù)——人工智能和數(shù)據(jù)管理

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號(hào) 經(jīng)營許可證編號(hào)：京B2-20210330

聯(lián)系電話：13321103290 (微信同號(hào))

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

<abbr id="hzlmx"></abbr>

免密碼登錄

提交首次登錄驗(yàn)證后自動(dòng)注冊(cè)

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

如何為數(shù)據(jù)集選擇正確的聚類算法？

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南 ...

CDA 認(rèn)證考試大綱 2025 重磅更新：一二級(jí)考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者 ...

SQL 在預(yù)測(cè)分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢(shì)預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價(jià)值深化 ...

CDA 數(shù)據(jù)分析師考試：從報(bào)考到取證的全攻略 ...

【CDA干貨】單樣本趨勢(shì)性檢驗(yàn)：捕捉數(shù)據(jù)背后的時(shí)間 ...

year_month數(shù)據(jù)類型：時(shí)間維度的精準(zhǔn)切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí) ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗(yàn)：數(shù)據(jù)趨勢(shì) ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略 ...

統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

如何為數(shù)據(jù)集選擇正確的聚類算法？

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南 ...

CDA 認(rèn)證考試大綱 2025 重磅更新：一二級(jí)考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者 ...

SQL 在預(yù)測(cè)分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢(shì)預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價(jià)值深化 ...

CDA 數(shù)據(jù)分析師考試：從報(bào)考到取證的全攻略 ...

【CDA干貨】單樣本趨勢(shì)性檢驗(yàn)：捕捉數(shù)據(jù)背后的時(shí)間 ...

year_month數(shù)據(jù)類型：時(shí)間維度的精準(zhǔn)切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí) ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗(yàn)：數(shù)據(jù)趨勢(shì) ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略 ...

統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

如何為數(shù)據(jù)集選擇正確的聚類算法？

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...