logistic回歸
1.模型長成什么樣? log(p/1-p)=β0+β1x+ε
a.y是分類數(shù)據(jù)
b.R^2與線性回歸的R^完全不同(P,R,f,準(zhǔn)確率)
c.數(shù)據(jù)分區(qū)(可以處理數(shù)據(jù)過擬合)
2.損失函數(shù)(成本函數(shù))長成什么樣?
a.大概記住損失函數(shù)是什么樣子?
3.更新函數(shù)長成什么樣?
a.更新函數(shù)的內(nèi)容都一樣,在機器學(xué)習(xí)中的形式可能不一樣
b.python包中參數(shù)怎么選?參數(shù)搜索功能
分區(qū)
測試集test 20% / 訓(xùn)練集train 70% / 驗證集vaild 10% | 得分集score[真實數(shù)據(jù)]
驗證集是用來避免漏測試題的
是否過擬合?
1.訓(xùn)練集的R^2是否過高
2.測試集與訓(xùn)練集的R^2差差多少??
相差15%為大幅度下降,模型不可用
5%以內(nèi) 顯著差異,可以接受
5-15% 過擬合
邏輯回歸模型好不好不能只看R^2,邏輯回歸的R^2與線性回歸的不同
邏輯回歸出來的得分不是R^2,而是準(zhǔn)確率
當(dāng)y=0和1平衡的時候才能參考準(zhǔn)確率,就是y=0有50%左右,y=1有50%,但是真實中,0和1是經(jīng)常不平衡的,所以有以下:
橫預(yù)估y尖
0 1
縱實際y
0 a b
1 c d
recall 召回率R:一個都不能少,一個都不能漏掉!所有人都納進來,要花費大量的人力識別[一般用于很嚴(yán)重的情況]
R=d/c+d(預(yù)測準(zhǔn)確的/所有的實際量)
precision 精準(zhǔn)率P:一個都不能錯[范圍比較小,誤差比較大]
p=d/c+b(預(yù)測準(zhǔn)確的/所有的預(yù)估量)
召回率與精準(zhǔn)率是反關(guān)系,召回率高,精準(zhǔn)率低;反之同理
由上句話可知,在總體量不變的情況下[很重要的前提條件],我們是無法同時提高R和P,
因此我們需要在R和P之間取一個平衡,取最優(yōu)值
所以把召回率R和精準(zhǔn)率P進行整合,形成一個新的指標(biāo)'諧波平均',用來取R和P平衡的最優(yōu)值!
加權(quán)平均強調(diào)大權(quán)重變量的影響程度
諧波平均f強調(diào)小權(quán)重變量的影響程度,權(quán)重比較小的變量的貢獻
一般來說f越大,說明邏輯回歸模型越好
如何解釋邏輯回歸系數(shù)?
or值=exp(β1)
or值以1做起點,范圍(0,1)負(fù)相關(guān),(1,正無窮)正相關(guān)
or值是
交叉驗證CV
1.分區(qū)-判斷是否過擬合(交叉驗證也可以做這件事)
2.CV適合用于支持向量機SVM,決策樹
列數(shù)
<15 正常
>15 大于15就推薦用支持向量機
>100 高維
>500 超高維
列數(shù)>行數(shù)(大部分方法都不能用!)
參數(shù)
1.可調(diào)性參數(shù) [可以按照經(jīng)驗值來調(diào)]
2.不可調(diào)性參數(shù) [需要按照測試來調(diào)]
3.全局參數(shù)








暫無數(shù)據(jù)