99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

<s id="fkrvz"></s>

熱線電話：13121318867

登錄

首頁精彩閱讀R語言的三種聚類方法

R語言的三種聚類方法

2018-01-28

R語言的三種聚類方法

摘要：層次聚類 kmeans dbscan筆記

一、距離和相似系數

r語言中使用dist(x， method = “euclidean”，diag = FALSE， upper = FALSE， p = 2) 來計算距離。其中x是樣本矩陣或者數據框。method表示計算哪種距離。method的取值有：

euclidean                歐幾里德距離，就是平方再開方。

maximum                切比雪夫距離

manhattan            絕對值距離

canberra                Lance 距離

minkowski            明科夫斯基距離，使用時要指定p值

binary                    定性變量距離.

定性變量距離：記m個項目里面的 0：0配對數為m0 ，1：1配對數為m1，不能配對數為m2，距離=m1/(m1+m2)；

diag 為TRUE的時候給出對角線上的距離。upper為TURE的時候給出上三角矩陣上的值。

r語言中使用scale(x， center = TRUE， scale = TRUE) 對數據矩陣做中心化和標準化變換。

如只中心化 scale(x，scale=F) ，

r語言中使用sweep(x， MARGIN， STATS， FUN=”-“， …) 對矩陣進行運算。MARGIN為1，表示行的方向上進行運算，為2表示列的方向上運算。STATS是運算的參數。FUN為運算函數，默認是減法。下面利用sweep對矩陣x進行極差標準化變換

>center <- sweep(x， 2， apply(x， 2， mean)) #在列的方向上減去均值。
>R <- apply(x， 2， max) - apply(x，2，min)   #算出極差，即列上的最大值-最小值
>x_star <- sweep(center， 2， R， "/")        #把減去均值后的矩陣在列的方向上除以極差向量

    center <- sweep(x, 2, apply(x, 2, min)) #極差正規(guī)化變換
    R <- apply(x, 2, max) - apply(x,2,min)
    x_star <- sweep(center, 2, R, "/")

有時候我們不是對樣本進行分類，而是對變量進行分類。這時候，我們不計算距離，而是計算變量間的相似系數。常用的有夾角和相關系數。

r語言計算兩向量的夾角余弦：

y <- scale(x， center = F， scale = T)/sqrt(nrow(x)-1)
C <- t(y) %*% y

相關系數用cor函數

二、層次聚類法

層次聚類法。先計算樣本之間的距離。每次將距離最近的點合并到同一個類。然后，再計算類與類之間的距離，將距離最近的類合并為一個大類。不停的合并，直到合成了一個類。其中類與類的距離的計算方法有：最短距離法，最長距離法，中間距離法，類平均法等。比如最短距離法，將類與類的距離定義為類與類之間樣本的最段距離。。。

r語言中使用hclust(d， method = “complete”， members=NULL) 來進行層次聚類。

其中d為距離矩陣。

method表示類的合并方法，有：

single            最短距離法

complete        最長距離法

median        中間距離法

mcquitty        相似法

average        類平均法

centroid        重心法

ward            離差平方和法

> x <- c(1,2,6,8,11)      #試用一下
> dim(x) <- c(5,1)
> d <- dist(x)
> hc1 <- hclust(d,"single")
> plot(hc1)
> plot(hc1,hang=-1,type="tirangle")             #hang小于0時，樹將從底部畫起。
#type = c("rectangle", "triangle"),默認樹形圖是方形的。另一個是三角形。
#horiz TRUE 表示豎著放，FALSE表示橫著放。

> z <- scan()
1： 1.000 0.846 0.805 0.859 0.473 0.398 0.301 0.382
9： 0.846 1.000 0.881 0.826 0.376 0.326 0.277 0.277
17： 0.805 0.881 1.000 0.801 0.380 0.319 0.237 0.345
25： 0.859 0.826 0.801 1.000 0.436 0.329 0.327 0.365
33： 0.473 0.376 0.380 0.436 1.000 0.762 0.730 0.629
41： 0.398 0.326 0.319 0.329 0.762 1.000 0.583 0.577
49： 0.301 0.277 0.237 0.327 0.730 0.583 1.000 0.539
57： 0.382 0.415 0.345 0.365 0.629 0.577 0.539 1.000
65：
Read 64 items
> names
[1] "shengao"    "shoubi"     "shangzhi"   "xiazhi"     "tizhong"
[6] "jingwei"    "xiongwei"   "xiongkuang"
> r <- matrix(z，nrow=8，dimnames=list(names，names))
> d <- as.dist(1-r)
> hc <- hclust(d)
> plot(hc)

然后可以用rect.hclust(tree， k = NULL， which = NULL， x = NULL， h = NULL，border = 2， cluster = NULL)來確定類的個數。 tree就是求出來的對象。k為分類的個數，h為類間距離的閾值。border是畫出來的顏色，用來分類的。

> plot(hc)
> rect.hclust(hc，k=2)
> rect.hclust(hc，h=0.5)

    result=cutree(model,k=3) 該函數可以用來提取每個樣本的所屬類別

三、動態(tài)聚類 kmeans

層次聚類，在類形成之后就不再改變。而且數據比較大的時候更占內存。
動態(tài)聚類，先抽幾個點，把周圍的點聚集起來。然后算每個類的重心或平均值什么的，以算出來的結果為分類點，不斷的重復。直到分類的結果收斂為止。r語言中主要使用kmeans(x， centers， iter.max = 10， nstart = 1，algorithm =c(“Hartigan-Wong”， “Lloyd”，”Forgy”， “MacQueen”))來進行聚類。centers是初始類的個數或者初始類的中心。iter.max是最大迭代次數。nstart是當centers是數字的時候，隨機集合的個數。algorithm是算法，默認是第一個。

> newiris <- iris
> model <- kmeans(scale(newiris[1：4])，3)
> model
K-means clustering with 3 clusters of sizes 50， 47， 53
Cluster means：
Sepal.Length Sepal.Width Petal.Length Petal.Width
1 -1.01119138 0.85041372   -1.3006301 -1.2507035
2   1.13217737 0.08812645    0.9928284   1.0141287
3 -0.05005221 -0.88042696    0.3465767   0.2805873
Clustering vector：
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[38] 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 3 3 3 2 3 3 3 3 3 3 3 3 2 3 3 3 3 2 3 3 3
[75] 3 2 2 2 3 3 3 3 3 3 3 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 2 3 2 2 2 2 3 2 2 2 2
[112] 2 2 3 3 2 2 2 2 3 2 3 2 3 2 2 3 2 2 2 2 2 2 3 3 2 2 2 3 2 2 2 3 2 2 2 3 2
[149] 2 3
Within cluster sum of squares by cluster：
[1] 47.35062 47.45019 44.08754
(between_SS / total_SS = 76.7 %)
Available components：
[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
[6] "betweenss"    "size"         "iter"         "ifault"
> table(iris$Species，kc$cluster)
Error in table(iris$Species， kc$cluster) ： object 'kc' not found
> table(iris$Species，model$cluster)   #比較一下
              1 2 3
setosa     50 0 0
versicolor 0 11 39
virginica   0 36 14
> plot(newiris[c("Sepal.Length"，"Sepal.Width")]，col=model$cluster) #畫出聚類圖

四、DBSCAN

動態(tài)聚類往往聚出來的類有點圓形或者橢圓形?；诿芏葤呙璧乃惴軌蚪鉀Q這個問題。思路就是定一個距離半徑，定最少有多少個點，然后把可以到達的點都連起來，判定為同類。在r中的實現

dbscan(data， eps， MinPts， scale， method， seeds， showplot， countmode)

其中eps是距離的半徑，minpts是最少多少個點。 scale是否標準化（我猜) ，method 有三個值raw，dist，hybird，分別表示，數據是原始數據避免計算距離矩陣，數據就是距離矩陣，數據是原始數據但計算部分距離矩陣。showplot畫不畫圖，0不畫，1和2都畫。countmode，可以填個向量，用來顯示計算進度。用鳶尾花試一試

> install.packages("fpc"， dependencies=T)
> library(fpc)
> newiris <- iris[1：4]
> model <- dbscan(newiris，1.5，5，scale=T，showplot=T，method="raw")# 畫出來明顯不對把距離調小了一點
> model <- dbscan(newiris，0.5，5，scale=T，showplot=T，method="raw")
> model #還是不太理想……
dbscan Pts=150 MinPts=5 eps=0.5
        0 1 2
border 34 5 18
seed    0 40 53
total 34 45 71

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

層次聚類 R語言

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇Python程序員鮮為人知但你應該知道的17個問題

下一篇一名合格的數據分析師該怎樣解釋“買不起房”這件事

CDA報考指南

報考流程
考試時間
報名費用
聯系我們

數據分析學習

數據分析師資訊

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數1：配置參數 // 參數2：回調，回調的第一個參數驗證碼對象，之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式，包括：float，popup width: "280px", https: true // 更多配置參數說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

R語言的三種聚類方法

數據分析師考試動態(tài)

CDA報考指南

數據分析學習

數據分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數據分析師報考條件詳解與準備指南 ...

【CDA干貨】數據透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數據分析師：連接數據與業(yè)務的價值轉化者 ...

SQL 在預測分析中的應用：從數據查詢到趨勢預判 ...

數據查詢結束后：分析師的收尾工作與價值深化 ...

CDA 數據分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數據背后的時間 ...

year_month數據類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數據分析中的核心應用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數據趨勢 ...

備戰(zhàn) CDA 數據分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...

統計學方法在市場調研數據中的深度應用 ...

CDA數據分析師證書考試全攻略

剖析 CDA 數據分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉日期：解鎖數據 ...

CDA 數據分析師視角：從數據迷霧中探尋商業(yè)真相 ...

CDA 數據分析師：開啟數據職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數據分析師公眾號

CDA考試中心小程序

CDA數據分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

R語言的三種聚類方法

數據分析師考試動態(tài)

CDA報考指南

數據分析學習

數據分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數據分析師報考條件詳解與準備指南 ...

【CDA干貨】數據透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數據分析師：連接數據與業(yè)務的價值轉化者 ...

SQL 在預測分析中的應用：從數據查詢到趨勢預判 ...

數據查詢結束后：分析師的收尾工作與價值深化 ...

CDA 數據分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數據背后的時間 ...

year_month數據類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數據分析中的核心應用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數據趨勢 ...

備戰(zhàn) CDA 數據分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...

統計學方法在市場調研數據中的深度應用 ...

CDA數據分析師證書考試全攻略

剖析 CDA 數據分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉日期：解鎖數據 ...

CDA 數據分析師視角：從數據迷霧中探尋商業(yè)真相 ...

CDA 數據分析師：開啟數據職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數據分析師公眾號

CDA考試中心小程序

CDA數據分析師App下載

備戰(zhàn) CDA 數據分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...