
Python語言描述機器學習之Logistic回歸算法
本文介紹機器學習中的Logistic回歸算法,我們使用這個算法來給數(shù)據(jù)進行分類。Logistic回歸算法同樣是需要通過樣本空間學習的監(jiān)督學習算法,并且適用于數(shù)值型和標稱型數(shù)據(jù),例如,我們需要根據(jù)輸入數(shù)據(jù)的特征值(數(shù)值型)的大小來判斷數(shù)據(jù)是某種分類或者不是某種分類。
一、樣本數(shù)據(jù)
在我們的例子中,我們有這樣一些樣本數(shù)據(jù):
樣本數(shù)據(jù)有3個特征值:X0X0,X1X1,X2X2
我們通過這3個特征值中的X1X1和X2X2來判斷數(shù)據(jù)是否符合要求,即符合要求的為1,不符合要求的為0。
樣本數(shù)據(jù)分類存放在一個數(shù)組中
我們在logRegres.py文件中編寫如下函數(shù)來準備數(shù)據(jù),并將數(shù)據(jù)打印觀察一下:
#coding=utf-8
from numpy import *
def loadDataSet():
dataMat = []; labelMat = []
fr = open('testSet.txt')
for line in fr.readlines():
lineArr = line.strip().split()
dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
labelMat.append(int(lineArr[2]))
return dataMat,labelMat
if __name__=='__main__':
dataMat,labelMat=loadDataSet()
print 'dataMat:\n',dataMat
我們來觀察一下這個數(shù)據(jù)樣本:
dataMat:
[[1.0, -0.017612, 14.053064], [1.0, -1.395634, 4.662541], [1.0, -0.752157, 6.53862], [1.0, -1.322371, 7.152853], [1.0, 0.423363, 11.054677], [1.0, 0.406704, 7.067335], [1.0, 0.667394, 12.741452], [1.0, -2.46015, 6.866805], [1.0, 0.569411, 9.548755], [1.0, -0.026632, 10.427743], [1.0, 0.850433, 6.920334], [1.0, 1.347183, 13.1755], [1.0, 1.176813, 3.16702], [1.0, -1.781871, 9.097953], [1.0, -0.566606, 5.749003], [1.0, 0.931635, 1.589505], [1.0, -0.024205, 6.151823], [1.0, -0.036453, 2.690988], [1.0, -0.196949, 0.444165], [1.0, 1.014459, 5.754399], [1.0, 1.985298, 3.230619], [1.0, -1.693453, -0.55754], [1.0, -0.576525, 11.778922], [1.0, -0.346811, -1.67873], [1.0, -2.124484, 2.672471], [1.0, 1.217916, 9.597015], [1.0, -0.733928, 9.098687], [1.0, -3.642001, -1.618087], [1.0, 0.315985, 3.523953], [1.0, 1.416614, 9.619232], [1.0, -0.386323, 3.989286], [1.0, 0.556921, 8.294984], [1.0, 1.224863, 11.58736], [1.0, -1.347803, -2.406051], [1.0, 1.196604, 4.951851], [1.0, 0.275221, 9.543647], [1.0, 0.470575, 9.332488], [1.0, -1.889567, 9.542662], [1.0, -1.527893, 12.150579], [1.0, -1.185247, 11.309318], [1.0, -0.445678, 3.297303], [1.0, 1.042222, 6.105155], [1.0, -0.618787, 10.320986], [1.0, 1.152083, 0.548467], [1.0, 0.828534, 2.676045], [1.0, -1.237728, 10.549033], [1.0, -0.683565, -2.166125], [1.0, 0.229456, 5.921938], [1.0, -0.959885, 11.555336], [1.0, 0.492911, 10.993324], [1.0, 0.184992, 8.721488], [1.0, -0.355715, 10.325976], [1.0, -0.397822, 8.058397], [1.0, 0.824839, 13.730343], [1.0, 1.507278, 5.027866], [1.0, 0.099671, 6.835839], [1.0, -0.344008, 10.717485], [1.0, 1.785928, 7.718645], [1.0, -0.918801, 11.560217], [1.0, -0.364009, 4.7473], [1.0, -0.841722, 4.119083], [1.0, 0.490426, 1.960539], [1.0, -0.007194, 9.075792], [1.0, 0.356107, 12.447863], [1.0, 0.342578, 12.281162], [1.0, -0.810823, -1.466018], [1.0, 2.530777, 6.476801], [1.0, 1.296683, 11.607559], [1.0, 0.475487, 12.040035], [1.0, -0.783277, 11.009725], [1.0, 0.074798, 11.02365], [1.0, -1.337472, 0.468339], [1.0, -0.102781, 13.763651], [1.0, -0.147324, 2.874846], [1.0, 0.518389, 9.887035], [1.0, 1.015399, 7.571882], [1.0, -1.658086, -0.027255], [1.0, 1.319944, 2.171228], [1.0, 2.056216, 5.019981], [1.0, -0.851633, 4.375691], [1.0, -1.510047, 6.061992], [1.0, -1.076637, -3.181888], [1.0, 1.821096, 10.28399], [1.0, 3.01015, 8.401766], [1.0, -1.099458, 1.688274], [1.0, -0.834872, -1.733869], [1.0, -0.846637, 3.849075], [1.0, 1.400102, 12.628781], [1.0, 1.752842, 5.468166], [1.0, 0.078557, 0.059736], [1.0, 0.089392, -0.7153], [1.0, 1.825662, 12.693808], [1.0, 0.197445, 9.744638], [1.0, 0.126117, 0.922311], [1.0, -0.679797, 1.22053], [1.0, 0.677983, 2.556666], [1.0, 0.761349, 10.693862], [1.0, -2.168791, 0.143632], [1.0, 1.38861, 9.341997], [1.0, 0.317029, 14.739025]]
labelMat:
[0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0]
樣本數(shù)據(jù)dataMat的第一列,也就是我們的特征值X0X0全部為1,這個問題我們之后在計算回歸參數(shù)時需要注意理解。所有的樣本數(shù)據(jù)一共100條,對應的分類結果也是100個。
那么,我們現(xiàn)在的問題是:
我們要找到樣本空間中的特征值與分類結果的關系。設計一個函數(shù)或者功能,實現(xiàn)在輸入一組特征值后,能夠根據(jù)樣本空間特征值與分類結果的關系,自動為輸入的數(shù)據(jù)進行分類,即得到結果要么是1,要么是0。
二、Sigmoid函數(shù)
為了解決上一節(jié)我們提到的問題,我們這里先介紹一下Sigmoid函數(shù):
這個函數(shù)有如下幾個特征:
當z=0z=0時,值為0.50.5
當zz不斷增大時,值將趨近于1
當zz不斷減小時,值將趨近于0
我們來看一下函數(shù)的曲線圖:
我們如果將樣本空間的3個特征值X0X0、X1X1和X2X2的值代入到函數(shù)中,計算出一個結果。那么這個結果將是接近與我們的分類結果的(0到1之間的一個數(shù)值)。如果這個結果接近0那么我們就認為分類為0,如果結果接近1我們就認為分類為1。
以什么方式代入到函數(shù)中呢?其實簡單的相加就可以,因為zz不斷增大或者減小時,函數(shù)的值就相應的趨近于1或者0。我們使z=x0+x1+x2z=x0+x1+x2
但是實際的情況是我們的計算結果和實際的分類值,會有誤差,甚至是完全不正確。為了矯正這個問題,我們?yōu)闃颖究臻g的3個特征值X0X0、X1X1和X2X2,一一定義一個回歸系數(shù)w0w0、w1w1和w2w2,使這個誤差減小。即使z=w0x0+w1x1+w2x2
其實不難想象,這組ww回歸系數(shù)的值決定了我們計算結果的準確性,甚至是正確性。也就是說,這組ww的值反應了樣本空間分類的規(guī)則。
那么,我們在輸入一組樣本之外的數(shù)據(jù)時,配合正確的ww回歸系數(shù),我們就能得到比較接近樣本空間分類規(guī)則的分類結果。
問題又來了,我們怎么來得到這樣一組ww回歸系數(shù)呢?
三、梯度上升法
梯度上升法,是在函數(shù)的梯度方向上,不斷的迭代計算參數(shù)值,以找到一個最大的參數(shù)值。迭代公式如下:
其中,αα為步長,Δσ(w)Δσ(w)為σ(w)σ(w)函數(shù)梯度。關于梯度的推導請參考這里。作者的數(shù)學能力有限,就不做說明了。
最后,我們可以得到梯度的計算公式:
那么,迭代公式如下:
公式說明:
wk+1wk+1為本次迭代XX特征項的回歸系數(shù)結果
wkwk為上一次迭代XX特征項的回歸系數(shù)結果
αα為每次迭代向梯度方向移動的步長
xixi為XX特征項中第i個元素
yiyi是樣本中第i條記錄的分類樣本結果
σ(xi,wk)σ(xi,wk)是樣本中第i條記錄,使用sigmoid函數(shù)和wkwk作為回歸系數(shù)計算的分類結果
[yi?σ(xi,wk)][yi?σ(xi,wk)]是樣本第i條記錄對應的分類結果值,與sigmoid函數(shù)使用wkwk作為回歸系數(shù)計算的分類結果值的誤差值。
現(xiàn)在,我們有了計算回歸系數(shù)的公式,下面我們在logRegres.py文件中來實現(xiàn)一個函數(shù),實現(xiàn)計算樣本空間的回歸系數(shù),并打印一下我們的結果:
def gradAscent(dataMatIn, classLabels):
dataMatrix = mat(dataMatIn) #100行3列
#print dataMatrix
labelMat = mat(classLabels).transpose() #100行1列
#print 'labelMat:\n',labelMat
print 'labelMat 的形狀:rowNum=',shape(labelMat)[0],'colNum=',shape(labelMat)[1]
rowNum,colNum = shape(dataMatrix)
alpha = 0.001
maxCycles = 500
weights = ones((colNum,1)) #3行1列
#print shape(dataMatrix)
#print shape(weights)
#print shape(labelMat)
for k in range(maxCycles): #heavy on matrix operations
h = sigmoid(dataMatrix*weights) #100行1列
#print h
error = (labelMat - h) #vector subtraction
weights = weights + alpha * dataMatrix.transpose()* error #3行1列
return weights
if __name__=='__main__':
dataMat,labelMat=loadDataSet()
#weights=gradAscent(dataMat,labelMat)
#print 'dataMat:\n',dataMat
#print 'labelMat:\n',labelMat
print weights
打印結果:
回歸系數(shù):
[[ 4.12414349]
[ 0.48007329]
[-0.6168482 ]]
為了驗證我們計算的回顧系數(shù)的準確性,我們觀察一下樣本空間的散點圖和回歸系數(shù)的擬合曲線。我們以z(x1,x2)=w0+w1x1+w2x2作為我們的擬合函數(shù),在坐標系中畫出它的擬合曲線。以樣本空間中X1X1和X2X2的值作為橫坐標和縱坐標,畫出樣本空間的散點。代碼如下:
def plotBestFit(weights):
import matplotlib.pyplot as plt
dataMat,labelMat=loadDataSet()
dataArr = array(dataMat)
n = shape(dataArr)[0]
xcord1 = []; ycord1 = []
xcord2 = []; ycord2 = []
for i in range(n):
if int(labelMat[i])== 1:
xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
else:
xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
ax.scatter(xcord2, ycord2, s=30, c='green')
x = arange(-3.0, 3.0, 0.1)
y = (-weights[0]-weights[1]*x)/weights[2]
y = y.transpose()
ax.plot(x, y)
plt.xlabel('X1'); plt.ylabel('X2');
plt.show()
if __name__=='__main__':
dataMat,labelMat=loadDataSet()
weights=gradAscent(dataMat,labelMat)
print '回歸系數(shù):\n',weights
plotBestFit(weights)
運行后,我們得到如下圖片:
通過我們的觀察,我們的這個回歸系數(shù)的算法還是比較準確的,擬合曲線將樣本數(shù)據(jù)分成兩部分,并且符合樣本的分類規(guī)則。
接下來,我們來實現(xiàn)一個分類器,并測試這個分類器:
def classify0(targetData,weights):
v = sigmoid(targetData*weights)
if v>0.5:
return 1.0
else :
return 0
def testClassify0():
dataMat,labelMat=loadDataSet()
examPercent=0.7
row,col=shape(dataMat)
exam=[]
exam_label=[]
test=[]
test_label=[]
for i in range(row):
if i < row*examPercent:
exam.append(dataMat[i])
exam_label.append(labelMat[i])
else:
test.append(dataMat[i])
test_label.append(labelMat[i])
weights=gradAscent(exam,exam_label)
errCnt=0
trow,tcol=shape(test)
for i in range(trow):
v=int(classify0(test[i],weights))
if v != int(test_label[i]):
errCnt += 1
print '計算值:',v,' 原值',test_label[i]
print '錯誤率:',errCnt/trow
if __name__=='__main__':
#dataMat,labelMat=loadDataSet()
#weights=gradAscent(dataMat,labelMat)
##print 'dataMat:\n',dataMat
##print 'labelMat:\n',labelMat
#print '回歸系數(shù):\n',weights
#plotBestFit(weights)
testClassify0()
分類器的實現(xiàn)很簡單。我們使用之前的樣本數(shù)據(jù)中的70條數(shù)據(jù)作為我們測試的樣本數(shù)據(jù),計算出回歸系數(shù)。然后用分類器對剩下的30條記錄進行分類,然后將結果和樣本數(shù)據(jù)進行對比。最后打印出錯誤率。我們可以看到,錯誤率是0,近乎完美!我們可以修改測試樣本在原樣本空間的比例多測試幾遍。那么,結論是我們的算法的準確率還不錯!
那么,到這里問題就解決了嗎?好像還差一點什么。我們來仔細研究一下我們計算回歸系數(shù)的方法,不難發(fā)現(xiàn),這個過程中我們用樣本數(shù)據(jù)組成的矩陣進行了矩陣乘法。也就是說,為了計算回歸系數(shù),我們遍歷了整個樣本數(shù)據(jù)。
我們的問題又來了,我們例子中的樣本數(shù)據(jù)只有100條,如果處理成千上萬的樣本數(shù)據(jù),我們的計算回歸系數(shù)的函數(shù)的計算復雜度會直線上升。下面我們來看看如何優(yōu)化這個算法。
四、優(yōu)化梯度上升算法——隨機梯度上升法
我們在理解了回歸系數(shù)迭代計算的公式
和我們實現(xiàn)的程序之后。我們將計算回歸系數(shù)的方法進行如下改進:
def stocGradAscent0(dataMatrix, classLabels):
m,n = shape(dataMatrix)
alpha = 0.01
weights = ones((n,1)) #initialize to all ones
for i in range(m):
h = sigmoid(sum(dataMatrix[i]*weights))
error = classLabels[i] - h
weights = weights + alpha * error * mat(dataMatrix[i]).transpose()
return weights
每一次迭代計算回歸系數(shù)時,只使用樣本空間中的一個樣本點來計算。我們通過程序生成一個樣本散點和擬合曲線的圖來看一下這個算法的準確程度:
不難看出跟之前的算法相差還是比較大的。原因是之前的算法是通過500次迭代算出的結果,后者只經(jīng)過了100次迭代。那么這里要說明的問題是,回歸系數(shù)在隨著迭代次數(shù)的增加是趨于收斂的,并且收斂的過程是存在波動的。說白了,就是迭代的次數(shù)越多,越接近我們想要的那個值,但是由于樣本的數(shù)據(jù)是非線性的,這個過程也會有一定的誤差。具體的回歸系數(shù)和迭代次數(shù)的關系大家可以參考一些教材,例如《機器學習實戰(zhàn)》中的描述,這里就不做詳細介紹了。
我們這里只介紹一下如何改進我們的算法,使我們的算法能夠快速的收斂并減小波動。方法如下:
每次迭代隨機的抽取一個樣本點來計算回歸向量
迭代的步長隨著迭代次數(shù)增大而不斷減少,但是永遠不等于0
改進代碼,并打印出擬合曲線和樣本散點圖:
def stocGradAscent1(dataMatrix, classLabels, numIter=150):
m,n = shape(dataMatrix)
weights = ones((n,1)) #initialize to all ones
for j in range(numIter):
dataIndex = range(m)
for i in range(m):
alpha = 4/(1.0+j+i)+0.0001 #apha decreases with iteration, does not
randIndex = int(random.uniform(0,len(dataIndex)))#go to 0 because of the constant
h = sigmoid(sum(dataMatrix[randIndex]*weights))
error = classLabels[randIndex] - h
weights = weights + alpha * error * mat(dataMatrix[randIndex]).transpose()
del(dataIndex[randIndex])
return weights
if __name__=='__main__':
dataMat,labelMat=loadDataSet()
#weights=stocGradAscent0(dataMat,labelMat)
weights=stocGradAscent1(dataMat,labelMat)
#weights=gradAscent(dataMat,labelMat)
#print 'dataMat:\n',dataMat
#print 'labelMat:\n',labelMat
#print '回歸系數(shù):\n',weights
plotBestFit(weights)
#testClassify0()
默認是150迭代的樣本散點圖和擬合曲線圖:
不難看出準確程度與第一個算法很接近了!
五、總結
Logistic回歸算法主要是利用了Sgimoid函數(shù)來為數(shù)據(jù)分類,分類的準確的關鍵取決于從樣本空間中計算出的回歸系數(shù)。我們使用梯度上升法來計算回歸系數(shù),并采用隨機梯度上升法來改進了算法的性能。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03