99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁(yè)大數(shù)據(jù)時(shí)代KNN最近鄰算法原理是什么？如何實(shí)現(xiàn)？

KNN最近鄰算法原理是什么？如何實(shí)現(xiàn)？

2020-07-24

把近朱者赤，近墨者黑這一思想運(yùn)用到機(jī)器學(xué)習(xí)中會(huì)產(chǎn)生什么?當(dāng)然是KNN最鄰近算法啦!KNN(全稱K-Nearest Neighbor)最鄰近分類算法是數(shù)據(jù)挖掘分類算法中最簡(jiǎn)單的算法之一，白話解釋一下就是：由你的鄰居來(lái)推斷出你的類別。那么KNN算法的原理是什么，如何實(shí)現(xiàn)?一起與小編來(lái)看下面的內(nèi)容吧。

一、KNN最鄰近算法概念

KNN最鄰近算法，是著名的模式識(shí)別統(tǒng)計(jì)學(xué)方法之一，在機(jī)器學(xué)習(xí)分類算法中占有很高的地位。KNN最鄰近算法在理論上比較成熟，不僅是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一，而且也是基于實(shí)例的學(xué)習(xí)方法中最基本的，最好的文本分類算法之一。

KNN最鄰近算法基本做法是：給定測(cè)試實(shí)例，基于某種距離度量找出訓(xùn)練集中與其最靠近的k個(gè)實(shí)例點(diǎn)，然后基于這k個(gè)最近鄰的信息來(lái)進(jìn)行預(yù)測(cè)。

KNN最鄰近算法不具有顯式的學(xué)習(xí)過(guò)程，事實(shí)上，它是懶惰學(xué)習(xí)(lazy learning)的著名代表，此類學(xué)習(xí)技術(shù)在訓(xùn)練階段僅僅是把樣本保存起來(lái)，訓(xùn)練時(shí)間開(kāi)銷為零，待收到測(cè)試樣本后再進(jìn)行處理。

二、KNN最鄰近算法三要素

KNN最鄰近算法三要素為：距離度量、k值的選擇及分類決策規(guī)則。根據(jù)選擇的距離度量(如曼哈頓距離或歐氏距離)，可計(jì)算測(cè)試實(shí)例與訓(xùn)練集中的每個(gè)實(shí)例點(diǎn)的距離，根據(jù)k值選擇k個(gè)最近鄰點(diǎn)，最后根據(jù)分類決策規(guī)則將測(cè)試實(shí)例分類。

1.距離度量

特征空間中的兩個(gè)實(shí)例點(diǎn)的距離是兩個(gè)實(shí)例點(diǎn)相似程度的反映。K近鄰法的特征空間一般是n維實(shí)數(shù)向量空間Rn。使用的距離是歐氏距離，但也可以是其他距離，如更一般的Lp距離或Minkowski距離。

這里p≥1.

當(dāng)p=1時(shí)，稱為曼哈頓距離(Manhattan distance)，即

當(dāng)p=2時(shí)，稱為歐氏距離(Euclidean distance)，即

2.k值的選擇

k值的選擇會(huì)對(duì)KNN最鄰近算法的結(jié)果產(chǎn)生重大影響。在應(yīng)用中，k值一般取一個(gè)比較小的數(shù)值，通常采用交叉驗(yàn)證法來(lái)選取最優(yōu)的k值。

3.分類決策規(guī)則

KNN最鄰近算法中的分類決策規(guī)則通常是多數(shù)表決，即由輸入實(shí)例的k個(gè)鄰近的訓(xùn)練實(shí)例中的多數(shù)類，決定輸入實(shí)例的類。

三、KNN最鄰近算法優(yōu)缺點(diǎn)

1.優(yōu)點(diǎn)

①簡(jiǎn)單，易于理解，易于實(shí)現(xiàn)，無(wú)需參數(shù)估計(jì)，無(wú)需訓(xùn)練;

②精度高，對(duì)異常值不敏感(個(gè)別噪音數(shù)據(jù)對(duì)結(jié)果的影響不是很大);

③適合對(duì)稀有事件進(jìn)行分類;

④特別適合于多分類問(wèn)題(multi-modal,對(duì)象具有多個(gè)類別標(biāo)簽)，KNN要比SVM表現(xiàn)要好.

2.缺點(diǎn)

①對(duì)測(cè)試樣本分類時(shí)的計(jì)算量大，空間開(kāi)銷大，因?yàn)閷?duì)每一個(gè)待分類的文本都要計(jì)算它到全體已知樣本的距離，才能求得它的K個(gè)最近鄰點(diǎn)。目前常用的解決方法是事先對(duì)已知樣本點(diǎn)進(jìn)行剪輯，事先去除對(duì)分類作用不大的樣本;

②可解釋性差，無(wú)法給出決策樹(shù)那樣的規(guī)則;

③最大的缺點(diǎn)是當(dāng)樣本不平衡時(shí)，如一個(gè)類的樣本容量很大，而其他類樣本容量很小時(shí)，有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí)，該樣本的K個(gè)鄰居中大容量類的樣本占多數(shù)。該算法只計(jì)算“最近的”鄰居樣本，某一類的樣本數(shù)量很大，那么或者這類樣本并不接近目標(biāo)樣本，或者這類樣本很靠近目標(biāo)樣本。無(wú)論怎樣，數(shù)量并不能影響運(yùn)行結(jié)果?？梢圆捎脵?quán)值的方法(和該樣本距離小的鄰居權(quán)值大)來(lái)改進(jìn);

④消極學(xué)習(xí)方法。

四、KNN算法實(shí)現(xiàn)

主要有以下三個(gè)步驟：

1. 算距離：給定待分類樣本，計(jì)算它與已分類樣本中的每個(gè)樣本的距離;

2. 找鄰居：圈定與待分類樣本距離最近的K個(gè)已分類樣本，作為待分類樣本的近鄰;

3. 做分類：根據(jù)這K個(gè)近鄰中的大部分樣本所屬的類別來(lái)決定待分類樣本該屬于哪個(gè)分類;

python示例

import math
import csv
import operator
import random
import numpy as np
from sklearn.datasets import make_blobs
 
#Python version 3.6.5
 
# 生成樣本數(shù)據(jù)集 samples(樣本數(shù)量) features(特征向量的維度) centers(類別個(gè)數(shù))
def createDataSet(samples=100, features=2, centers=2):
    return make_blobs(n_samples=samples, n_features=features, centers=centers, cluster_std=1.0, random_state=8)
 
# 加載鳶尾花卉數(shù)據(jù)集 filename(數(shù)據(jù)集文件存放路徑)
def loadIrisDataset(filename):
    with open(filename, 'rt') as csvfile:
        lines = csv.reader(csvfile)
        dataset = list(lines)
        for x in range(len(dataset)):
            for y in range(4):
                dataset[x][y] = float(dataset[x][y])
        return dataset
    
# 拆分?jǐn)?shù)據(jù)集 dataset(要拆分的數(shù)據(jù)集) split(訓(xùn)練集所占比例) trainingSet(訓(xùn)練集) testSet(測(cè)試集)
def splitDataSet(dataSet, split, trainingSet=[], testSet=[]):
    for x in range(len(dataSet)):
        if random.random() <= split:
            trainingSet.append(dataSet[x])
        else:
            testSet.append(dataSet[x])
# 計(jì)算歐氏距離 
def euclideanDistance(instance1, instance2, length):
    distance = 0
    for x in range(length):
        distance += pow((instance1[x] - instance2[x]), 2)
    return math.sqrt(distance)
 
# 選取距離最近的K個(gè)實(shí)例
def getNeighbors(trainingSet, testInstance, k):
    distances = []
    length = len(testInstance) - 1
    for x in range(len(trainingSet)):
        dist = euclideanDistance(testInstance, trainingSet[x], length)
        distances.append((trainingSet[x], dist))
    distances.sort(key=operator.itemgetter(1))
    
    neighbors = []
    for x in range(k):
        neighbors.append(distances[x][0])
    return neighbors
 
#  獲取距離最近的K個(gè)實(shí)例中占比例較大的分類
def getResponse(neighbors):
    classVotes = {}
    for x in range(len(neighbors)):
        response = neighbors[x][-1]
        if response in classVotes:
            classVotes[response] += 1
        else:
            classVotes[response] = 1
    sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True)
    return sortedVotes[0][0]
 
# 計(jì)算準(zhǔn)確率
def getAccuracy(testSet, predictions):
    correct = 0
    for x in range(len(testSet)):
        if testSet[x][-1] == predictions[x]:
            correct += 1
    return (correct / float(len(testSet))) * 100.0
 
 
def main():
    # 使用自定義創(chuàng)建的數(shù)據(jù)集進(jìn)行分類
    # x,y = createDataSet(features=2)
    # dataSet= np.c_[x,y]
    
    # 使用鳶尾花卉數(shù)據(jù)集進(jìn)行分類
    dataSet = loadIrisDataset(r'C:\DevTolls\eclipse-pureh2b\python\DeepLearning\KNN\iris_dataset.txt')
        
    print(dataSet)
    trainingSet = []
    testSet = []
    splitDataSet(dataSet, 0.75, trainingSet, testSet)
    print('Train set:' + repr(len(trainingSet)))
    print('Test set:' + repr(len(testSet)))
    predictions = []
    k = 7
    for x in range(len(testSet)):
        neighbors = getNeighbors(trainingSet, testSet[x], k)
        result = getResponse(neighbors)
        predictions.append(result)
        print('>predicted=' + repr(result) + ',actual=' + repr(testSet[x][-1]))
    accuracy = getAccuracy(testSet, predictions)
    print('Accuracy: ' + repr(accuracy) + '%')
main()

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫(kù)，點(diǎn)擊>>> “CDA題庫(kù)” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

KNN 特征機(jī)器學(xué)習(xí) 特征空間 python 文本分類 SVM numpy

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼，搜微信號(hào)：CDAshujufenxi

上一篇數(shù)據(jù)清洗之python實(shí)現(xiàn)缺失值處理

下一篇無(wú)監(jiān)督機(jī)器學(xué)習(xí)中，這幾種聚類算法，你知道嗎？

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號(hào) 經(jīng)營(yíng)許可證編號(hào)：京B2-20210330

聯(lián)系電話：13321103290 (微信同號(hào))

CDA教材
CDA題庫(kù)
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗(yàn)證后自動(dòng)注冊(cè)

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn)：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

KNN最近鄰算法原理是什么？如何實(shí)現(xiàn)？

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營(yíng)銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA 數(shù)據(jù)分析師：商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng) ...

CDA教育閉環(huán)

常見(jiàn)問(wèn)題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

KNN最近鄰算法原理是什么？如何實(shí)現(xiàn)？

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對(duì)象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 ...

【CDA干貨】Python HTTP 請(qǐng)求工具對(duì)比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營(yíng)銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實(shí)踐到業(yè)務(wù) ...

【CDA干貨】統(tǒng)計(jì)模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA 數(shù)據(jù)分析師：商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng) ...

CDA教育閉環(huán)

常見(jiàn)問(wèn)題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號(hào)

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

KNN最近鄰算法原理是什么？如何實(shí)現(xiàn)？

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...