Iris數(shù)據(jù)集是常用的分類實(shí)驗(yàn)數(shù)據(jù)集,由Fisher, 1936收集整理。Iris也稱鳶尾花卉數(shù)據(jù)集,是一類多重變量分析的數(shù)據(jù)集。數(shù)據(jù)集包含150個(gè)數(shù)據(jù)樣本,分為3類,每類50個(gè)數(shù)據(jù),每個(gè)數(shù)據(jù)包含4個(gè)屬性??赏ㄟ^(guò)花萼長(zhǎng)度,花萼寬度,花瓣長(zhǎng)度,花瓣寬度4個(gè)屬性預(yù)測(cè)鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個(gè)種類中的哪一類。
iris以鳶尾花的特征作為數(shù)據(jù)來(lái)源,常用在分類操作中。該數(shù)據(jù)集由3種不同類型的鳶尾花的各50個(gè)樣本數(shù)據(jù)構(gòu)成。其中的一個(gè)種類與另外兩個(gè)種類是線性可分離的,后兩個(gè)種類是非線性可分離的。
該數(shù)據(jù)集包含了4個(gè)屬性:
& Sepal.Length(花萼長(zhǎng)度),單位是cm;
& Sepal.Width(花萼寬度),單位是cm;
& Petal.Length(花瓣長(zhǎng)度),單位是cm;
& Petal.Width(花瓣寬度),單位是cm;
1.導(dǎo)包
import numpy as np
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
2.數(shù)據(jù)集導(dǎo)入
①from sklearn import datasets
iris = datasets.load_iris()
②提前下載好數(shù)據(jù)集,用pandas包導(dǎo)入
例:iris=pd.read_csv('文件名',columns=['列名'])
3.查看數(shù)據(jù)特征
iris.data.shape
4. 拆分屬性數(shù)據(jù)
iris_X = iris.data
5.# 拆分類別數(shù)據(jù)
iris_y = iris.target
6.預(yù)測(cè)數(shù)據(jù)
#準(zhǔn)備訓(xùn)練集和測(cè)試集
iris_train_X , iris_test_X, iris_train_y ,iris_test_y = train_test_split(iris_X, iris_y, test_size=0.2,random_state=0)
#創(chuàng)建模型
knn = KNeighborsClassifier(n_neighbors=6)
#訓(xùn)練模型
knn.fit(iris_train_X, iris_train_y)
#預(yù)測(cè)
predict_result=knn.predict(iris_test_X)
print('預(yù)測(cè)結(jié)果',predict_result)
# 計(jì)算預(yù)測(cè)的準(zhǔn)確率
print('預(yù)測(cè)準(zhǔn)確率',knn.score(iris_test_X, iris_test_y))








暫無(wú)數(shù)據(jù)