
R語言與機(jī)器學(xué)習(xí)學(xué)習(xí)筆記2(分類算法)
當(dāng)實(shí)際輸出與期望輸出不符時(shí),進(jìn)入誤差的反向傳播階段。誤差通過輸出層,按誤差梯度下降的方式修正各層權(quán)值,向隱藏層、輸入層逐層反傳。周而復(fù)始的信息正向傳播和誤差反向傳播過程,是各層權(quán)值不斷調(diào)整的過程,也是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的過程,此過程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可以接受的程度,或者預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。
反向傳播這一算法把我們前面提到的delta規(guī)則的分析擴(kuò)展到了帶有隱藏節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)。為了理解這個(gè)問題,設(shè)想Bob給Alice講了一個(gè)故事,然后Alice又講給了Ted,Ted檢查了這個(gè)事實(shí)真相,發(fā)現(xiàn)這個(gè)故事是錯(cuò)誤的?,F(xiàn)在 Ted 需要找出哪些錯(cuò)誤是Bob造成的而哪些又歸咎于Alice。當(dāng)輸出節(jié)點(diǎn)從隱藏節(jié)點(diǎn)獲得輸入,網(wǎng)絡(luò)發(fā)現(xiàn)出現(xiàn)了誤差,權(quán)系數(shù)的調(diào)整需要一個(gè)算法來找出整個(gè)誤差是由多少不同的節(jié)點(diǎn)造成的,網(wǎng)絡(luò)需要問,“是誰讓我誤入歧途?到怎樣的程度?如何彌補(bǔ)?”這時(shí),網(wǎng)絡(luò)該怎么做呢?
同樣源于梯度降落原理,在權(quán)系數(shù)調(diào)整分析中的唯一不同是涉及到t(p,n)與y(p,n)的差分。通常來說Wi的改變?cè)谟冢?/span>
alpha * s'(a(p,n)) * d(n) *X(p,i,n)
其中d(n)是隱藏節(jié)點(diǎn)n的函數(shù),讓我們來看:
n 對(duì)任何給出的輸出節(jié)點(diǎn)有多大影響;
輸出節(jié)點(diǎn)本身對(duì)網(wǎng)絡(luò)整體的誤差有多少影響。
一方面,n 影響一個(gè)輸出節(jié)點(diǎn)越多,n 造成網(wǎng)絡(luò)整體的誤差也越多。另一方面,如果輸出節(jié)點(diǎn)影響網(wǎng)絡(luò)整體的誤差越少,n 對(duì)輸出節(jié)點(diǎn)的影響也相應(yīng)減少。這里d(j)是對(duì)網(wǎng)絡(luò)的整體誤差的基值,W(n,j) 是 n 對(duì) j 造成的影響,d(j) * W(n,j) 是這兩種影響的總和。但是 n 幾乎總是影響多個(gè)輸出節(jié)點(diǎn),也許會(huì)影響每一個(gè)輸出結(jié)點(diǎn),這樣,d(n) 可以表示為:SUM(d(j)*W(n,j))
這里j是一個(gè)從n獲得輸入的輸出節(jié)點(diǎn),聯(lián)系起來,我們就得到了一個(gè)培訓(xùn)規(guī)則。
這里每個(gè)從n接收輸入的輸出節(jié)點(diǎn)j都不同。關(guān)于反向傳播算法的基本情況大致如此。
通常把第 1部分稱為正向傳播,把第2部分稱為反向傳播。反向傳播的名字由此而來。
最速下降法的基本思想是:要找到某函數(shù)的最小值,最好的辦法是沿函數(shù)的梯度方向探尋,如果梯度記為d,那么迭代公式可寫為w=w-alpha*d,其中alpha可理解為我們前面提到的學(xué)習(xí)速率。
最速下降法有著收斂速度慢(因?yàn)槊看嗡阉髋c前一次均正交,收斂是鋸齒形的),容易陷入局部最小值等缺點(diǎn),所以他的改進(jìn)辦法也有不少,最常見的是增加動(dòng)量項(xiàng)與學(xué)習(xí)率可變。
增加沖量項(xiàng)(Momentum)
右側(cè)第一項(xiàng)就是權(quán)值更新法則,第二項(xiàng)被稱為沖量項(xiàng)
梯度下降的搜索軌跡就像一個(gè)球沿誤差曲面滾下,沖量使球從一次迭代到下一次迭代時(shí)以同樣的方向滾動(dòng)
沖量有時(shí)會(huì)使這個(gè)球滾過誤差曲面的局部極小值或平坦區(qū)域
沖量也具有在梯度不變的區(qū)域逐漸增大搜索步長(zhǎng)的效果,從而加快收斂。
改變學(xué)習(xí)率
當(dāng)誤差減小趨近目標(biāo)時(shí),說明修正方向是正確的,可以增加學(xué)習(xí)率;當(dāng)誤差增加超過一個(gè)范圍時(shí),說明修改不正確,需要降低學(xué)習(xí)率。
(1)數(shù)據(jù)讀入,這里我們還是使用R的內(nèi)置數(shù)據(jù)——鳶尾花數(shù)據(jù),由于神經(jīng)網(wǎng)絡(luò)本質(zhì)是2分類的,所以我們將鳶尾花數(shù)據(jù)也分為兩類(將前兩類均看做第2類),按照特征:花瓣長(zhǎng)度與寬度做分類。
(2)劃分訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)
(3)初始化BP網(wǎng)絡(luò),采用包含一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò),訓(xùn)練方法使用包含動(dòng)量的最速下降法,傳遞函數(shù)使用sigmoid函數(shù)。
(4)輸入樣本,對(duì)樣本進(jìn)行歸一化,計(jì)算誤差,求解誤差平方和
(5)判斷是否收斂
(6)根據(jù)誤差調(diào)整權(quán)值。權(quán)值根據(jù)以下公式進(jìn)行調(diào)整:
Delta(w)= alpha *s'(a(p,n))*(t(p,n) - y(p,n)) * X(p,n,j)
其中,alpha為學(xué)習(xí)率,s'(a(p,n))*(t(p,n)- y(p,n))為局部梯度。此外,由于使用了有動(dòng)量因子的最速下降法,除第一次外,后續(xù)改變量應(yīng)為:
Delta(w)(n)=-alpha*(1-mc)*Delta(w)(n) mc*Delta(w)(n-1)
(7)測(cè)試,輸出分類正確率。
完整的R代碼:
iris1<-as.matrix(iris[,3:4])
iris1<-cbind(iris1,c(rep(1,100),rep(0,50)))
set.seed(5)
n<-length(iris1[,1])
samp<-sample(1:n,n/5)
traind<-iris1[-samp,c(1,2)]
train1<-iris1[-samp,3]
testd<-iris1[samp,c(1,2)]
test1<-iris1[samp,3]
set.seed(1)
ntrainnum<-120
nsampdim<-2
net.nin<-2
net.nhidden<-3
net.nout<-1
w<-2*matrix(runif(net.nhidden*net.nin)-0.5,net.nhidden,net.nin)
b<-2*(runif(net.nhidden)-0.5)
net.w1<-cbind(w,b)
W<-2*matrix(runif(net.nhidden*net.nout)-0.5,net.nout,net.nhidden)
B<-2*(runif(net.nout)-0.5)
net.w2<-cbind(W,B)
traind_s<-traind
traind_s[,1]<-traind[,1]-mean(traind[,1])
traind_s[,2]<-traind[,2]-mean(traind[,2])
traind_s[,1]<-traind_s[,1]/sd(traind_s[,1])
traind_s[,2]<-traind_s[,2]/sd(traind_s[,2])
sampinex<-rbind(t(traind_s),rep(1,ntrainnum))
expectedout<-train1
eps<-0.01
a<-0.3
mc<-0.8
maxiter<-2000
iter<-0
errrec<-rep(0,maxiter)
outrec<-matrix(rep(0,ntrainnum*maxiter),ntrainnum,maxiter)
sigmoid<-function(x){
y<-1/(1 exp(-x))
return(y)
}
for(i in 1:maxiter){
hid_input<-net.w1%*%sampinex;
hid_out<-sigmoid(hid_input);
out_input1<-rbind(hid_out,rep(1,ntrainnum));
out_input2<-net.w2%*%out_input1;
out_out<-sigmoid(out_input2);
outrec[,i]<-t(out_out);
err<-expectedout-out_out;
sse<-sum(err^2);
errrec[i]<-sse;
iter<-iter 1;
if(sse<=eps)
break
Delta<-err*sigmoid(out_out)*(1-sigmoid(out_out))
delta<-(matrix(net.w2[,1:(length(net.w2[1,])-1)]))%*%Delta*sigmoid(hid_out)*(1-sigmoid(hid_out));
dWex<-Delta%*%t(out_input1)
dwex<-delta%*%t(sampinex)
if(i==1){
net.w2<-net.w2 a*dWex;
net.w1<-net.w1 a*dwex;
}
else{
net.w2<-net.w2 (1-mc)*a*dWex mc*dWexold;
net.w1<-net.w1 (1-mc)*a*dwex mc*dwexold;
}
dWexold<-dWex;
dwexold<-dwex;
}
testd_s<-testd
testd_s[,1]<-testd[,1]-mean(testd[,1])
testd_s[,2]<-testd[,2]-mean(testd[,2])
testd_s[,1]<-testd_s[,1]/sd(testd_s[,1])
testd_s[,2]<-testd_s[,2]/sd(testd_s[,2])
inex<-rbind(t(testd_s),rep(1,150-ntrainnum))
hid_input<-net.w1%*%inex
hid_out<-sigmoid(hid_input)
out_input1<-rbind(hid_out,rep(1,150-ntrainnum))
out_input2<-net.w2%*%out_input1
out_out<-sigmoid(out_input2)
out_out1<-out_out
out_out1[out_out<0.5]<-0
out_out1[out_out>=0.5]<-1
rate<-sum(out_out1==test1)/length(test1)
分類正確率為:0.9333333,是一個(gè)不錯(cuò)的學(xué)習(xí)器。這里需要注意的是動(dòng)量因子mc的選取,mc不能過小,否則容易陷入局部最小而出不去,在本例中,如果mc=0.5,分類正確率僅為:0.5333333,學(xué)習(xí)效果很不理想。
單層的前向神經(jīng)網(wǎng)絡(luò)模型在包nnet中的nnet函數(shù),其調(diào)用格式為:
nnet(formula,data, weights, size, Wts, linout = F, entropy = F,
softmax = F, skip = F, rang = 0.7,decay = 0, maxit = 100,
trace = T)
參數(shù)說明:
size, 隱層結(jié)點(diǎn)數(shù);
decay, 表明權(quán)值是遞減的(可以防止過擬合);
linout, 線性輸出單元開關(guān);
skip,是否允許跳過隱層;
maxit, 最大迭代次數(shù);
Hess, 是否輸出Hessian值
適用于神經(jīng)網(wǎng)絡(luò)的方法有predict,print和summary等,nnetHess函數(shù)用來計(jì)算在考慮了權(quán)重參數(shù)下的Hessian矩陣,并且檢驗(yàn)是否是局部最小。
我們使用nnet函數(shù)分析Vehicle數(shù)據(jù)。隨機(jī)選擇半數(shù)觀測(cè)作為訓(xùn)練集,剩下的作為測(cè)試集,構(gòu)建只有包含3個(gè)節(jié)點(diǎn)的一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)。輸入如下程序:
library(nnet); #安裝nnet軟件包
library(mlbench); #安裝mlbench軟件包
data(Vehicle); #調(diào)入數(shù)據(jù)
n=length(Vehicle[,1]); #樣本量
set.seed(1); #設(shè)隨機(jī)數(shù)種子
samp=sample(1:n,n/2); #隨機(jī)選擇半數(shù)觀測(cè)作為訓(xùn)練集
b=class.ind(Vehicle$Class); #生成類別的示性函數(shù)
test.cl=function(true,pred){true<-max.col(true);cres=max.col(pred);table(true,cres)};
a=nnet(Vehicle[samp,-19],b[samp,],size=3,rang=0.1,decay=5e-4,maxit=200); #利用訓(xùn)練集中前18個(gè)變量作為輸入變量,隱藏層有3個(gè)節(jié)點(diǎn),初始隨機(jī)權(quán)值在[-0.1,0.1],權(quán)值是逐漸衰減的。
test.cl(b[samp,],predict(a,Vehicle[samp,-19]))#給出訓(xùn)練集分類結(jié)果
test.cl(b[-samp,],predict(a,Vehicle[-samp,-19]));#給出測(cè)試集分類結(jié)果
#構(gòu)建隱藏層包含15個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)。接著上面的語句輸入如下程序:
a=nnet(Vehicle[samp,-19],b[samp,],size=15,rang=0.1,decay=5e-4,maxit=10000);
test.cl(b[samp,],predict(a,Vehicle[samp,-19]));
test.cl(b[-samp,],predict(a,Vehicle[-samp,-19]));
最后,我們回到最開始的那個(gè)手寫數(shù)字的案例,我們?cè)囍?a href='/map/zhichixiangliangji/' style='color:#000;font-size:inherit;'>支持向量機(jī)重做這個(gè)案例。(這個(gè)案例的描述與數(shù)據(jù)參見《R語言與機(jī)器學(xué)習(xí)學(xué)習(xí)筆記(分類算法)(1)》)
由于nnet包對(duì)輸入的維數(shù)有一定限制(我也不知道為什么,可能在權(quán)值計(jì)算的時(shí)候出現(xiàn)了一些bug,反正將支持向量機(jī)那一節(jié)的代碼平行的移過來是會(huì)報(bào)錯(cuò)的)。我們這里采用手寫數(shù)字識(shí)別技術(shù)中常用的辦法處理這個(gè)案例:計(jì)算數(shù)字的特征。選擇數(shù)字特征的辦法有許多種,你隨便百度一篇論文都有敘述。我們這里采用結(jié)構(gòu)特征與統(tǒng)計(jì)特征結(jié)合的辦法計(jì)算圖像的特征。
我們這里采用的統(tǒng)計(jì)特征與上圖有一點(diǎn)的不同(結(jié)構(gòu)特征一致),我們是將圖片分為16塊(4*4),統(tǒng)計(jì)每個(gè)小方塊中點(diǎn)的個(gè)數(shù),這樣我們就有25維的特征向量了。為了保證結(jié)果的可比性,我們也報(bào)告支持向量機(jī)的分類結(jié)果。
運(yùn)行下列代碼:
setwd("D:/R/data/digits/trainingDigits")
names<-list.files("D:/R/data/digits/trainingDigits")
data<-paste("train",1:1934,sep="")
for(i in 1:length(names))
assign(data[i],as.matrix(read.fwf(names[i],widths=rep(1,32))))
library(nnet)
label<-factor(rep(0:9,c(189,198,195,199,186,187,195,201,180,204)))
feature<-matrix(rep(0,length(names)*25),length(names),25)
for(i in 1:length(names)){
feature[i,1]<-sum(get(data[i])[,16])
feature[i,2]<-sum(get(data[i])[,8])
feature[i,3]<-sum(get(data[i])[,24])
feature[i,4]<-sum(get(data[i])[16,])
feature[i,5]<-sum(get(data[i])[11,])
feature[i,6]<-sum(get(data[i])[21,])
feature[i,7]<-sum(diag(get(data[i])))
feature[i,8]<-sum(diag(get(data[i])[,32:1]))
feature[i,9]<-sum((get(data[i])[17:32,17:32]))
feature[i,10]<-sum((get(data[i])[1:8,1:8]))
feature[i,11]<-sum((get(data[i])[9:16,1:8]))
feature[i,12]<-sum((get(data[i])[17:24,1:8]))
feature[i,13]<-sum((get(data[i])[25:32,1:8]))
feature[i,14]<-sum((get(data[i])[1:8,9:16]))
feature[i,15]<-sum((get(data[i])[9:16,9:16]))
feature[i,16]<-sum((get(data[i])[17:24,9:16]))
feature[i,17]<-sum((get(data[i])[25:32,9:16]))
feature[i,18]<-sum((get(data[i])[1:8,17:24]))
feature[i,19]<-sum((get(data[i])[9:16,17:24]))
feature[i,20]<-sum((get(data[i])[17:24,17:24]))
feature[i,21]<-sum((get(data[i])[25:32,17:24]))
feature[i,22]<-sum((get(data[i])[1:8,25:32]))
feature[i,23]<-sum((get(data[i])[9:16,25:32]))
feature[i,24]<-sum((get(data[i])[17:24,25:32]))
feature[i,25]<-sum((get(data[i])[25:32,25:32]))
}
data1 <- data.frame(feature,label)
m1<-nnet(label~.,data=data1,size=25,maxit = 2000,decay = 5e-6, rang = 0.1)
pred<-predict(m1,data1,type="class")
table(pred,label)
sum(diag(table(pred,label)))/length(names)
library("e1071")
m <- svm(feature,label,cross=10,type="C-classification")
m
summary(m)
pred<-fitted(m)
table(pred,label)
setwd("D:/R/data/digits/testDigits")
name<-list.files("D:/R/data/digits/testDigits")
data1<-paste("train",1:1934,sep="")
for(i in 1:length(name))
assign(data1[i],as.matrix(read.fwf(name[i],widths=rep(1,32))))
feature<-matrix(rep(0,length(name)*25),length(name),25)
for(i in 1:length(name)){
feature[i,1]<-sum(get(data1[i])[,16])
feature[i,2]<-sum(get(data1[i])[,8])
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03