五、導(dǎo)包
1、畫圖包
import matplotlib.pyplot as plt #畫圖軟件
plt.style.use('ggplot')#畫圖的風(fēng)格
%matplotlib inline #在線顯示
plt.rcParams["font.sans-serif"]=["SimHei"] #解決中文亂碼問題 plt.rcParams["axes.unicode_minus"]=False #解決坐標(biāo)軸刻度負(fù)號(hào)亂碼
2、導(dǎo)入模型的包
from scipy.stats import ttest_ind as ttest, levene#導(dǎo)入t分布和方差齊性檢驗(yàn)的包
from statsmodels.stats.anova import anova_lm #anova方差分析
from sklearn.neighbors import KNeighborsClassifier #knn分類
from sklearn.neighbors import KNeighborsRegressor#Knn回歸
from sklearn.model_selection import train_test_split #模型拆分訓(xùn)練與測(cè)試集
from sklearn.preprocessing import StandardScaler # 數(shù)據(jù)標(biāo)準(zhǔn)化
from sklearn.linear_model import Ridge, Lasso #回歸里的L1范式 L2范式
from sklearn.linear_model import RidgeCV # 帶交叉驗(yàn)證的嶺回歸
from sklearn.naive_bayes import GaussianNB #樸素貝葉斯模型
from sklearn.linear_model import LogisticRegression # 邏輯回歸模型
from sklearn import tree # 決策樹 tree.DecisionTreeClassifier()
分類樹采用了基尼指數(shù)(Gini Index)最小化原則,而回歸樹選擇了平方損失函數(shù)
最小化原則
1、 模型處理運(yùn)算包
from sklearn.datasets import load_數(shù)據(jù) #導(dǎo)入sklearn中內(nèi)置的數(shù)據(jù)集
from sklearn.decomposition import PCA #導(dǎo)入PCA降維算法
import warnings: warnings.filterwarnings('ignore') #忽略警告
from sklearn.preprocessing import LabelEncoder:標(biāo)準(zhǔn)化標(biāo)簽,將標(biāo)簽值統(tǒng)一轉(zhuǎn)換成range(標(biāo)簽值個(gè)數(shù)-1)范圍內(nèi),即0、1、2、3……
4、模型評(píng)估的包
from sklearn import metrics #模型評(píng)估
sklearn.metrics中的評(píng)估方法
(accuracy_score,recall_score,roc_curve,roc_auc_score,confusion_matrix)
accuracy_score:精確率=分類準(zhǔn)確率分?jǐn)?shù)是指所有分類正確的百分比
recall_score:召回率 =提取出的正確信息條數(shù) /樣本中的信息條數(shù)
roc_curve :ROC曲線,以真正例率(也就是靈敏度)為縱坐標(biāo),假正例率(1-特
效性)為橫坐標(biāo)繪制的曲線。
roc_auc_score:直接根據(jù)真實(shí)值(必須是二值)、預(yù)測(cè)值(可以是0/1,也可以是proba
值)計(jì)算出auc值,中間過程的roc計(jì)算省略。
confusion_matrix:混淆矩陣
from sklearn.metrics import classification_report, confusion_matrix
#混淆矩陣、分類報(bào)告等自動(dòng)生成
from sklearn.model_selection import GridSearchCV #網(wǎng)格搜索,查找最優(yōu)參
from sklearn.model_selection import cross_val_ score as CVS #交叉驗(yàn)證
5、導(dǎo)出數(shù)據(jù)
1、import pandas_profiling #快速把python的代碼頁面變成網(wǎng)頁版查看數(shù)據(jù)
profile = pandas_profiling.ProfileReport(data)
profile.to_file(outputfile = "output_file.html")
2、import graphviz #決策樹的導(dǎo)出文件








暫無數(shù)據(jù)