99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

聚類分析基礎(chǔ)知識總結(jié)及實戰(zhàn)解析

2016-11-28

聚類分析基礎(chǔ)知識總結(jié)及實戰(zhàn)解析

聚類分析是沒有給定劃分類別的情況下，根據(jù)樣本相似度進(jìn)行樣本分組的一種方法，是一種非監(jiān)督的學(xué)習(xí)算法。聚類的輸入是一組未被標(biāo)記的樣本，聚類根據(jù)數(shù)據(jù)自身的距離或相似度劃分為若干組，劃分的原則是組內(nèi)距離最小化而組間距離最大化，如下圖所示：

常見的聚類分析算法如下：

K-Means： K-均值聚類也稱為快速聚類法，在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K。該算法原理簡單并便于處理大量數(shù)據(jù)。
K-中心點：K-均值算法對孤立點的敏感性，K-中心點算法不采用簇中對象的平均值作為簇中心，而選用簇中離平均值最近的對象作為簇中心。
系統(tǒng)聚類：也稱為層次聚類，分類的單位由高到低呈樹形結(jié)構(gòu)，且所處的位置越低，其所包含的對象就越少，但這些對象間的共同特征越多。該聚類方法只適合在小數(shù)據(jù)量的時候使用，數(shù)據(jù)量大的時候速度會非常慢。

下面我們詳細(xì)介紹K-Means聚類算法。

K-Means聚類算法

K-Means算法是典型的基于距離的非層次聚類算法，在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K，采用距離作為相似性的評價指標(biāo)，即認(rèn)為兩個對象的距離越近，其相似度就越大。

算法實現(xiàn)

選擇K個點作為初始質(zhì)心

repeat

將每個點指派到最近的質(zhì)心，形成K個簇

重新計算每個簇的質(zhì)心

until 簇不發(fā)生變化或達(dá)到最大迭代次數(shù)

K如何確定
與層次聚類結(jié)合，經(jīng)常會產(chǎn)生較好的聚類結(jié)果的一個有趣策略是，首先采用層次凝聚算法決定結(jié)果粗的數(shù)目，并找到一個初始聚類，然后用迭代重定位來改進(jìn)該聚類。

初始質(zhì)心的選取
常見的方法是隨機的選取初始質(zhì)心，但是這樣簇的質(zhì)量常常很差。
（1）多次運行，每次使用一組不同的隨機初始質(zhì)心，然后選取具有最小SSE（誤差的平方和）的簇集。這種策略簡單，但是效果可能不好，這取決于數(shù)據(jù)集和尋找的簇的個數(shù)。
（2）取一個樣本，并使用層次聚類技術(shù)對它聚類。從層次聚類中提取K個簇，并用這些簇的質(zhì)心作為初始質(zhì)心。該方法通常很有效，但僅對下列情況有效：樣本相對較??；K相對于樣本大小較小。
（3）取所有點的質(zhì)心作為第一個點。然后，對于每個后繼初始質(zhì)心，選擇離已經(jīng)選取過的初始質(zhì)心最遠(yuǎn)的點。使用這種方法，確保了選擇的初始質(zhì)心不僅是隨機的，而且是散開的。但是，這種方法可能選中離群點。

距離的度量
常用的距離度量方法包括：歐幾里得距離和余弦相似度。歐幾里得距離度量會受指標(biāo)不同單位刻度的影響，所以一般需要先進(jìn)行標(biāo)準(zhǔn)化，同時距離越大，個體間差異越大；空間向量余弦夾角的相似度度量不會受指標(biāo)刻度的影響，余弦值落于區(qū)間[-1,1]，值越大，差異越小。

質(zhì)心的計算
對于距離度量不管是采用歐式距離還是采用余弦相似度，簇的質(zhì)心都是其均值。

算法停止條件
一般是目標(biāo)函數(shù)達(dá)到最優(yōu)或者達(dá)到最大的迭代次數(shù)即可終止。對于不同的距離度量，目標(biāo)函數(shù)往往不同。當(dāng)采用歐式距離時，目標(biāo)函數(shù)一般為最小化對象到其簇質(zhì)心的距離的平方和；當(dāng)采用余弦相似度時，目標(biāo)函數(shù)一般為最大化對象到其簇質(zhì)心的余弦相似度和。

空聚類的處理
如果所有的點在指派步驟都未分配到某個簇，就會得到空簇。如果這種情況發(fā)生，則需要某種策略來選擇一個替補質(zhì)心，否則的話，平方誤差將會偏大。
（1）選擇一個距離當(dāng)前任何質(zhì)心最遠(yuǎn)的點。這將消除當(dāng)前對總平方誤差影響最大的點。
（2）從具有最大SSE的簇中選擇一個替補的質(zhì)心，這將分裂簇并降低聚類的總SSE。如果有多個空簇，則該過程重復(fù)多次。

適用范圍及缺陷
K-Menas算法試圖找到使平方誤差準(zhǔn)則函數(shù)最小的簇。當(dāng)潛在的簇形狀是凸面的，簇與簇之間區(qū)別較明顯，且簇大小相近時，其聚類結(jié)果較理想。對于處理大數(shù)據(jù)集合，該算法非常高效，且伸縮性較好。
但該算法除了要事先確定簇數(shù)K和對初始聚類中心敏感外，經(jīng)常以局部最優(yōu)結(jié)束，同時對“噪聲”和孤立點敏感，并且該方法不適于發(fā)現(xiàn)非凸面形狀的簇或大小差別很大的簇。
克服缺點的方法：使用盡量多的數(shù)據(jù)；使用中位數(shù)代替均值來克服outlier的問題。

實例解析

>>> import pandas as pd
# 載入sklearn包自帶數(shù)據(jù)集
>>> from sklearn.datasets importload_iris
>>> iris = load_iris()
# 需要聚類的數(shù)據(jù)150個樣本，4個變量
>>> iris.data
>>> data = pd.DataFrame(iris.data)
# 數(shù)據(jù)標(biāo)準(zhǔn)化(z-score)
>>> data_zs = (data -data.mean())/data.std()
# 導(dǎo)入sklearn中的kmeans
>>> from sklearn.cluster importKMeans
# 設(shè)置類數(shù)k
>>> k = 3
# 設(shè)置最大迭代次數(shù)
>>> iteration = 500
# 創(chuàng)建kmeans對象
>>> model = KMeans(n_clusters=k,n_jobs=4,max_iter=iteration)
# 使用數(shù)據(jù)訓(xùn)練訓(xùn)練model
>>> model.fit(data_zs)
# 每個類別樣本個數(shù)
>>> pd.Series(model.labels_).value_counts()
# 每個類別的聚類中心
>>> pd.DataFrame(model.cluster_centers_)

下面我們用TSNE（高維數(shù)據(jù)可視化工具）對聚類結(jié)果進(jìn)行可視化

>>> import matplotlib.pyplot asplt
>>> from sklearn.manifold importTSNE

>>> tsne = TSNE(learning_rate=100)
# 對數(shù)據(jù)進(jìn)行降維
>>> tsne.fit_transform(data_zs)
>>> data =pd.DataFrame(tsne.embedding_, index=data_zs.index)

# 不同類別用不同顏色和樣式繪圖
>>> d = data[model.labels_==0]
>>> plt.plot(d[0],d[1],'r.')
>>> d = data[model.labels_==1]
>>> plt.plot(d[0],d[1],'go')
>>> d = data[model.labels_==2]
>>> plt.plot(d[0],d[1],'b*')
>>> plt.show()

聚類效果圖如下：

下面我們用PCA 降維后，對聚類結(jié)果進(jìn)行可視化

>>> from sklearn.decompositionimport PCA
>>> pca = PCA()
>>> data =pca.fit_transform(data_zs)
>>> data = pd.DataFrame(data,index=data_zs.index)
>>> d = data[model.labels_==0]
>>> plt.plot(d[0],d[1],'r.')
>>> d = data[model.labels_==1]
>>> plt.plot(d[0],d[1],'go')
>>> d = data[model.labels_==2]
>>> plt.plot(d[0],d[1],'b*')
>>> plt.show()

聚類效果圖如下：

Python主要的聚類分析算法總結(jié)

在scikit-learn中實現(xiàn)的聚類算法主要包括K-Means、層次聚類、FCM、神經(jīng)網(wǎng)絡(luò)聚類，其主要相關(guān)函數(shù)如下：

KMeans: K均值聚類；

AffinityPropagation: 吸引力傳播聚類，2007年提出，幾乎優(yōu)于所有其他方法，不需要指定聚類數(shù)K，但運行效率較低；

MeanShift：均值漂移聚類算法；

SpectralClustering：譜聚類，具有效果比KMeans好，速度比KMeans快等特點；

5. AgglomerativeClustering：層次聚類，給出一棵聚類層次樹；

DBSCAN：具有噪音的基于密度的聚類方法；

BIRCH：綜合的層次聚類算法，可以處理大規(guī)模數(shù)據(jù)的聚類。

這些方法的使用大同小異，基本都是先用對應(yīng)的函數(shù)建立模型，然后用fit()方法來訓(xùn)練模型，訓(xùn)練好之后，就可以用labels_屬性得到樣本數(shù)據(jù)的標(biāo)簽，或者用predict()方法預(yù)測新樣本的標(biāo)簽。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認(rèn)證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

層次聚類 DataFrame PCA 降維神經(jīng)網(wǎng)絡(luò) 特征 matplotlib 數(shù)據(jù)標(biāo)準(zhǔn)化

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認(rèn)證再升一檔！與國家共同推進(jìn)大數(shù)據(jù)人才培養(yǎng)標(biāo)準(zhǔn)教育事業(yè)！

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

聚類分析基礎(chǔ)知識總結(jié)及實戰(zhàn)解析

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認(rèn)證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者 ...

SQL 在預(yù)測分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準(zhǔn)切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對策略 ...

統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

聚類分析基礎(chǔ)知識總結(jié)及實戰(zhàn)解析

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認(rèn)證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者 ...

SQL 在預(yù)測分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準(zhǔn)切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對策略 ...

統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...