99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

<var id="u4nii"></var><nav id="u4nii"><strong id="u4nii"></strong></nav>

熱線電話：13121318867

登錄

首頁精彩閱讀Python機器學習算法之k均值聚類（k-means）

Python機器學習算法之k均值聚類（k-means）

2018-05-23

Python機器學習算法之k均值聚類（k-means）

一開始的目的是學習十大挖掘算法（機器學習算法）,并用編碼實現(xiàn)一遍，但越往后學習，越往后實現(xiàn)編碼，越發(fā)現(xiàn)自己的編碼水平低下，學習能力低。這一個k-means算法用Python實現(xiàn)竟用了三天時間，可見編碼水平之低，而且在編碼的過程中看了別人的編碼，才發(fā)現(xiàn)自己對numpy認識和運用的不足，在自己的代碼中有很多可以優(yōu)化的地方，比如求均值的地方可以用mean直接對數(shù)組求均值，再比如去最小值的下標，我用的是argsort排序再取列表第一個，但是有argmin可以直接用啊。下面的代碼中這些可以優(yōu)化的并沒有改，這么做的原因是希望做到拋磚引玉，歡迎大家丟玉，如果能給出優(yōu)化方法就更好了

一.k-means算法

人以類聚，物以群分，k-means聚類算法就是體現(xiàn)。數(shù)學公式不要，直接用白話描述的步驟就是：

1.隨機選取k個質(zhì)心（k值取決于你想聚成幾類）
2.計算樣本到質(zhì)心的距離，距離質(zhì)心距離近的歸為一類，分為k類
3.求出分類后的每類的新質(zhì)心
4.判斷新舊質(zhì)心是否相同，如果相同就代表已經(jīng)聚類成功，如果沒有就循環(huán)2-3直到相同

用程序的語言描述就是：

1.輸入樣本
2.隨機去k個質(zhì)心
3.重復下面過程知道算法收斂：

計算樣本到質(zhì)心距離（歐幾里得距離）
樣本距離哪個質(zhì)心近，就記為那一類
計算每個類別的新質(zhì)心（平均值）

二.需求分析

數(shù)據(jù)來源：從國際統(tǒng)計局down的數(shù)據(jù)，數(shù)據(jù)為城鄉(xiāng)居民家庭人均收入及恩格爾系數(shù)（點擊這里下載）

數(shù)據(jù)描述：

1.橫軸：城鎮(zhèn)居民家庭人均可支配收入和農(nóng)村居民家庭人均純收入，
2.縱軸：1996-2012年。
3.數(shù)據(jù)為年度數(shù)據(jù)

需求說明：我想把這數(shù)據(jù)做個聚類分析，看人民的收入大概經(jīng)歷幾個階段（感覺我好高大上啊）

需求分析：

1.由于樣本數(shù)據(jù)有限，就兩列，用k-means聚類有很大的準確性
2.用文本的形式導入數(shù)據(jù)，結(jié)果輸出聚類后的質(zhì)心，這樣就能看出人民的收入經(jīng)歷了哪幾個階段

三.Python實現(xiàn)

引入numpy模塊，借用其中的一些方法進行數(shù)據(jù)處理，上代碼：

# -*- coding=utf-8 -*-

"""

authon:xuwf

created:2017-02-07

purpose:實現(xiàn)k-means算法

"""

importnumpy as np

importrandom

'''裝載數(shù)據(jù)'''

defload():

data=np.loadtxt('data\k-means.csv',delimiter=',')

returndata

'''計算距離'''

defcalcDis(data,clu,k):

clalist=[]#存放計算距離后的list

data=data.tolist()#轉(zhuǎn)化為列表

clu=clu.tolist()

foriinrange(len(data)):

clalist.append([])

forjinrange(k):

dist=round(((data[i][1]-clu[j][0])**2+(data[i][2]-clu[j][1])**2)*0.05,1)

clalist[i].append(dist)

clalist=np.array(clalist)#轉(zhuǎn)化為數(shù)組

returnclalist

'''分組'''

defgroup(data,clalist,k):

grouplist=[]#存放分組后的集群

claList=clalist.tolist()

data=data.tolist()

foriinrange(k):

#確定要分組的個數(shù)，以空列表的形式，方便下面進行數(shù)據(jù)的插入

grouplist.append([])

forjinrange(len(clalist)):

sortNum=np.argsort(clalist[j])

grouplist[sortNum[0]].append(data[j][1:])

grouplist=np.array(grouplist)

returngrouplist

'''計算質(zhì)心'''

defcalcCen(data,grouplist,k):

clunew=[]

data=data.tolist()

grouplist=grouplist.tolist()

templist=[]

#templist=np.array(templist)

foriinrange(k):

#計算每個組的新質(zhì)心

sumx=0

sumy=0

forjinrange(len(grouplist[i])):

sumx+=grouplist[i][j][0]

sumy+=grouplist[i][j][1]

clunew.append([round(sumx/len(grouplist[i]),1),round(sumy/len(grouplist[i]),1)])

clunew=np.array(clunew)

#clunew=np.mean(grouplist,axis=1)

returnclunew

'''優(yōu)化質(zhì)心'''

defclassify(data,clu,k):

clalist=calcDis(data,clu,k)#計算樣本到質(zhì)心的距離

grouplist=group(data,clalist,k)#分組

foriinrange(k):

#替換空值

ifgrouplist[i]==[]:

grouplist[i]=[4838.9,1926.1]

clunew=calcCen(data,grouplist,k)

sse=clunew-clu

#print "the clu is :%r\nthe group is :%r\nthe clunew is :%r\nthe sse is :%r" %(clu,grouplist,clunew,sse)

returnsse,clunew,data,k

if__name__=='__main__':

k=3#給出要分類的個數(shù)的k值

data=load()#裝載數(shù)據(jù)

clu=random.sample(data[:,1:].tolist(),k)#隨機取質(zhì)心

clu=np.array(clu)

sse,clunew,data,k=classify(data,clu,k)

whilenp.any(sse!=0):

sse,clunew,data,k=classify(data,clunew,k)

clunew=np.sort(clunew,axis=0)

print"the best cluster is %r"%clunew

四.測試

直接運行程序就可以，k值可以自己設置，會發(fā)現(xiàn)k=3的時候結(jié)果數(shù)據(jù)是最穩(wěn)定的，這里我就不貼圖了
需要注意的是上面的代碼里面主函數(shù)里的數(shù)據(jù)結(jié)構都是array，但是在每個小函數(shù)里就有可能轉(zhuǎn)化成了list，主要原因是需要進行array的一下方法進行計算，而轉(zhuǎn)化為list的原因是需要向數(shù)組中插入數(shù)據(jù)，但是array做不到?。ㄖ辽傥覜]找到怎么做）。于是這里就出現(xiàn)了一個問題，那就是數(shù)據(jù)結(jié)構混亂，到最后我調(diào)試了半天，干脆將主函數(shù)的數(shù)據(jù)結(jié)構都轉(zhuǎn)化成array，在小函數(shù)中輸入的array，輸出的時候也轉(zhuǎn)化成了array，這樣就清晰多了

五.算法分析

單看這個算法還是較好理解的，但是算法的目的是聚類，那就要考慮到聚類的準確性，這里聚類的準確性取決于k值、初始質(zhì)心和距離的計算方式。

k值就要看個人經(jīng)驗和多次試驗了，算法結(jié)果在哪個k值的時候更穩(wěn)定就證明這個分類更加具有可信度，其中算法結(jié)果的穩(wěn)定也取決于初始質(zhì)心的選擇

初始質(zhì)心一般都是隨機選取的，怎么更準確的選擇初始質(zhì)心呢？有種較難實現(xiàn)的方法是將樣本中所有點組合起來都取一遍，然后計算算法收斂后的所有質(zhì)心到樣本的距離之和，哪個距離最小，哪個的聚類就最為成功，相對應的初始質(zhì)心就選取的最為準確。但是這種方法有很大的計算量，如果樣本很大，維度很多，那就是讓電腦干到死的節(jié)奏

距離的計算方式取決于樣本的特征，有很多的選擇，入歐式距離，夾角余弦距離，曼哈頓距離等，具體的數(shù)據(jù)特性用具體的距離計算方式

六.項目評測

1.項目總結(jié)數(shù)據(jù)源的數(shù)據(jù)很干凈，不需要進行過多的數(shù)據(jù)清洗和數(shù)據(jù)降噪，數(shù)據(jù)預處理的工作成本接近為0。需求基本實現(xiàn)
2.還能做什么:可以用計算最小距離之和的方法求出最佳k值，這樣就可以得到穩(wěn)定的收入階梯；可以引入畫圖模塊，將數(shù)據(jù)結(jié)果進行數(shù)據(jù)可視化，顯得更加直觀；如果可能應該引入更多的維度或更多的數(shù)據(jù)，這樣得到的聚類才更有說服力。

以上就是本文的全部內(nèi)容，希望對大家的學習有所幫助

CDA數(shù)據(jù)分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

聚類數(shù)據(jù)結(jié)構 numpy 需求分析機器學習數(shù)據(jù)處理數(shù)據(jù)預處理集群

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線性回歸

下一篇2020美國總統(tǒng)競選大戲開鑼，川普當選的奇跡會再發(fā)生嗎？

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

<abbr id="b5kz3"></abbr>

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

Python機器學習算法之k均值聚類（k-means）

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

Python機器學習算法之k均值聚類（k-means）

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...