99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀【案例】R語(yǔ)言與機(jī)器學(xué)習(xí)學(xué)習(xí)筆記(分類算法)
【案例】R語(yǔ)言與機(jī)器學(xué)習(xí)學(xué)習(xí)筆記(分類算法)
2016-09-22
收藏

【案例】R語(yǔ)言機(jī)器學(xué)習(xí)學(xué)習(xí)筆記(分類算法)

人工神經(jīng)網(wǎng)絡(luò)(ANN),簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò),是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型。神經(jīng)網(wǎng)絡(luò)由大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行計(jì)算。大多數(shù)情況下人工神經(jīng)網(wǎng)絡(luò)能在外界信息的基礎(chǔ)上改變內(nèi)部結(jié)構(gòu),是一種自適應(yīng)系統(tǒng)?,F(xiàn)代神經(jīng)網(wǎng)絡(luò)是一種非線性統(tǒng)計(jì)性數(shù)據(jù)建模具,常用來(lái)對(duì)輸入和輸出間復(fù)雜的關(guān)系進(jìn)行建模,或用來(lái)探索數(shù)據(jù)的模式。

人工神經(jīng)網(wǎng)絡(luò)從以下四個(gè)方面去模擬人的智能行為:

  • 物理結(jié)構(gòu):人工神經(jīng)元將模擬生物神經(jīng)元的功能

  • 計(jì)算模擬:人腦的神經(jīng)元有局部計(jì)算和存儲(chǔ)的功能,通過(guò)連接構(gòu)成一個(gè)系統(tǒng)。人工神經(jīng)網(wǎng)絡(luò)中也有大量有局部處理能力的神經(jīng)元,也能夠?qū)⑿畔⑦M(jìn)行大規(guī)模并行處理

  • 存儲(chǔ)與操作:人腦和人工神經(jīng)網(wǎng)絡(luò)都是通過(guò)神經(jīng)元的連接強(qiáng)度來(lái)實(shí)現(xiàn)記憶存儲(chǔ)功能,同時(shí)為概括、類比、推廣提供有力的支持

  • 訓(xùn)練:同人腦一樣,人工神經(jīng)網(wǎng)絡(luò)將根據(jù)自己的結(jié)構(gòu)特性,使用不同的訓(xùn)練、學(xué)習(xí)過(guò)程,自動(dòng)從實(shí)踐中獲得相關(guān)知識(shí)

神經(jīng)網(wǎng)絡(luò)是一種運(yùn)算模型,由大量的節(jié)點(diǎn)(或稱“神經(jīng)元”,或“單元”)和之間相互聯(lián)接構(gòu)成。每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激勵(lì)函數(shù)。每?jī)蓚€(gè)節(jié)點(diǎn)間的連接都代表一個(gè)對(duì)于通過(guò)該連接信號(hào)的加權(quán)值,稱之為權(quán)重,這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式,權(quán)重值和激勵(lì)函數(shù)的不同而不同。而網(wǎng)絡(luò)自身通常都是對(duì)自然界某種算法或者函數(shù)的逼近,也可能是對(duì)一種邏輯策略的表達(dá)。

一、感知器

感知器相當(dāng)于神經(jīng)網(wǎng)絡(luò)的一個(gè)單層,由一個(gè)線性組合器和一個(gè)二值閾值原件構(gòu)成:


構(gòu)成ANN系統(tǒng)的單層感知器:

  • 感知器以一個(gè)實(shí)數(shù)值向量作為輸入,計(jì)算這些輸入的線性組合,如果結(jié)果大于某個(gè)閾值,就輸出1,否則輸出‐1。

  • 感知器函數(shù)可寫為:sign(w*x)有時(shí)可加入偏置b,寫為sign(w*x b)

  • 學(xué)習(xí)一個(gè)感知器意味著選擇權(quán)w0,…,wn的值。所以感知器學(xué)習(xí)要考慮的候選假設(shè)空間H就是所有可能的實(shí)數(shù)值權(quán)向量的集合

算法訓(xùn)練步驟:

1、定義變量與參數(shù)x(輸入向量),w(權(quán)值向量),b(偏置),y(實(shí)際輸出),d(期望輸出),a(學(xué)習(xí)率參數(shù))

2、初始化,n=0,w=0

3、輸入訓(xùn)練樣本,對(duì)每個(gè)訓(xùn)練樣本指定其期望輸出:A類記為1,B類記為-1

4、計(jì)算實(shí)際輸出y=sign(w*x b)

5、更新權(quán)值向量w(n 1)=w(n) a[d-y(n)]*x(n),0

6、判斷,若滿足收斂條件,算法結(jié)束,否則返回3

注意,其中學(xué)習(xí)率a為了權(quán)值的穩(wěn)定性不應(yīng)過(guò)大,為了體現(xiàn)誤差對(duì)權(quán)值的修正不應(yīng)過(guò)小,說(shuō)到底,這是個(gè)經(jīng)驗(yàn)問(wèn)題。

從前面的敘述來(lái)看,感知器對(duì)于線性可分的例子是一定收斂的,對(duì)于不可分問(wèn)題,它沒(méi)法實(shí)現(xiàn)正確分類。這里與我們前面講到的支持向量機(jī)的想法十分的相近,只是確定分類直線的辦法有所不同??梢赃@么說(shuō),對(duì)于線性可分的例子,支持向量機(jī)找到了“最優(yōu)的”那條分類直線,而單層感知器找到了一條可行的直線。

我們以鳶尾花數(shù)據(jù)集為例,由于單層感知器是一個(gè)二分類器,所以我們將鳶尾花數(shù)據(jù)也分為兩類,“setosa”與“versicolor”(將后兩類均看做第2類),那么數(shù)據(jù)按照特征:花瓣長(zhǎng)度與寬度做分類。

運(yùn)行下面的代碼:

[plain]view plaincopyprint?

  1. #感知器訓(xùn)練結(jié)果:

  2. a<-0.2

  3. w<-rep(0,3)

  4. iris1<-t(as.matrix(iris[,3:4]))

  5. d<-c(rep(0,50),rep(1,100))

  6. e<-rep(0,150)

  7. p<-rbind(rep(1,150),iris1)

  8. max<-100000

  9. eps<-rep(0,100000)

  10. i<-0

  11. repeat{

  12. v<-w%*%p;

  13. y<-ifelse(sign(v)>=0,1,0);

  14. e<-d-y;

  15. eps[i 1]<-sum(abs(e))/length(e)

  16. if(eps[i 1]<0.01){

  17. print("finish:");

  18. print(w);

  19. break;

  20. }

  21. w<-w a*(d-y)%*%t(p);

  22. i<-i 1;

  23. if(i>max){

  24. print("max time loop");

  25. print(eps[i])

  26. print(y);

  27. break;

  28. }

  29. }

  30. #繪圖程序

  31. plot(Petal.Length~Petal.Width,xlim=c(0,3),ylim=c(0,8),

  32. data=iris[iris$Species=="virginica",])

  33. data1<-iris[iris$Species=="versicolor",]

  34. points(data1$Petal.Width,data1$Petal.Length,col=2)

  35. data2<-iris[iris$Species=="setosa",]

  36. points(data2$Petal.Width,data2$Petal.Length,col=3)

  37. x<-seq(0,3,0.01)

  38. y<-x*(-w[2]/w[3])-w[1]/w[3]

  39. lines(x,y,col=4)

  40. #繪制每次迭代的平均絕對(duì)誤差

  41. plot(1:i,eps[1:i],type="o")

分類結(jié)果如圖:

這是運(yùn)行了7次得到的結(jié)果。與我們前面的支持向量機(jī)相比,顯然神經(jīng)網(wǎng)絡(luò)的單層感知器分類不是那么的可信,有些弱。

我們可以嘗試來(lái)做交叉驗(yàn)證,可以發(fā)現(xiàn)交叉驗(yàn)證結(jié)果并不理想。

二、線性神經(jīng)網(wǎng)絡(luò)

盡管當(dāng)訓(xùn)練樣例線性可分時(shí),感知器法則可以成功地找到一個(gè)權(quán)向量,但如果樣例不是線性可分時(shí)它將不能收斂。因此,人們?cè)O(shè)計(jì)了另一個(gè)訓(xùn)練法則來(lái)克服這個(gè)不足,稱為delta法則。

如果訓(xùn)練樣本不是線性可分的,那么delta法則會(huì)收斂到目標(biāo)概念的最佳近似。

delta法則的關(guān)鍵思想是使用梯度下降來(lái)搜索可能權(quán)向量的假設(shè)空間,以找到最佳擬合訓(xùn)練樣例的權(quán)向量。

我們將算法描述如下:

1、定義變量與參數(shù)。x(輸入向量),w(權(quán)值向量),b(偏置),y(實(shí)際輸出),d(期望輸出),a(學(xué)習(xí)率參數(shù))(為敘述簡(jiǎn)便,我們可以將偏置并入權(quán)值向量中)

2、初始化w=0

3、輸入樣本,計(jì)算實(shí)際輸出與誤差。e(n)=d-x*w(n)

4、調(diào)整權(quán)值向量w(n 1)=w(n) a*x*e(n)

5、判斷是否收斂,收斂結(jié)束,否則返回3

Hayjin證明,只要學(xué)習(xí)率a<2/maxeign, delta法則按方差收斂。其中maxeigen為x’x的最大特征值。故我們這里使用1/maxeign作為a的值。

我們還是以上面的鳶尾花數(shù)據(jù)為例來(lái)說(shuō)這個(gè)問(wèn)題。運(yùn)行代碼:

[plain]view plaincopyprint?

  1. p<-rbind(rep(1,150),iris1)

  2. d<-c(rep(0,50),rep(1,100))

  3. w<-rep(0,3)

  4. a<-1/max(eigen(t(p)%*%p)$values)

  5. max<-1000

  6. e<-rep(0,150)

  7. eps<-rep(0,1000)

  8. i<-0

  9. for(i in 1:max){

  10. v<-w%*%p;

  11. y<-v;

  12. e<-d-y;

  13. eps[i 1]<-sum(e^2)/length(e)

  14. w<-w a*(d-y)%*%t(p);

  15. if(i==max)

  16. print(w)

  17. }

得到分類直線:

相比感知器分類而言已經(jīng)好了太多了,究其原因不外乎傳遞函數(shù)由二值閾值函數(shù)變?yōu)榱司€性函數(shù),這也就是我們前面提到的delta法則會(huì)收斂到目標(biāo)概念的最佳近似。增量法則漸近收斂到最小誤差假設(shè),可能需要無(wú)限的時(shí)間,但無(wú)論訓(xùn)練樣例是否線性可分都會(huì)收斂。

為了明了這一點(diǎn)我們考慮鳶尾花數(shù)據(jù)后兩類花的分類(這里我們將前兩類看做一類),使用感知器:


使用線性分類器:


但是要解釋的一點(diǎn)是,收斂并不意味著分類效果更好,要解決線性不可分問(wèn)題需要的是添加非線性輸入或者增加神經(jīng)元。我們以Minsky & Papert (1969)提出的異或例子為例說(shuō)明這一點(diǎn)。


使用線性神經(jīng)網(wǎng)絡(luò),代碼與上面完全相同,略。

第一個(gè)神經(jīng)元輸出:

權(quán)值: [,1] [,2] [,3]

[1,] 0.75 0.5 -0.5

測(cè)試: [,1] [,2] [,3] [,4]

[1,] 1 0 1 1

第二個(gè)神經(jīng)元輸出:

權(quán)值: [,1] [,2] [,3]

[1,] 0.75 -0.5 0.5

測(cè)試: [,1] [,2] [,3] [,4]

[1,] 1 1 0 1

求解異或邏輯(相同取0,不同取1)有結(jié)果:(代碼xor(c(1,0,1,1),c(1,1,0,1)))

[1] FALSE TRUE TRUE FALSE

即0,1,1,0,分類正確。

最后再說(shuō)一點(diǎn),Delta規(guī)則只能訓(xùn)練單層網(wǎng)絡(luò),但這不會(huì)對(duì)其功能造成很大的影響。從理論上說(shuō),多層神經(jīng)網(wǎng)絡(luò)并不比單層神經(jīng)網(wǎng)絡(luò)更強(qiáng)大,他們具有同樣的能力。

三、BP神經(jīng)網(wǎng)絡(luò)
1、sigmoid函數(shù)分類

回顧我們前面提到的感知器,它使用示性函數(shù)作為分類的辦法。然而示性函數(shù)作為分類器它的跳點(diǎn)讓人覺(jué)得很難處理,幸好sigmoid函數(shù)y=1/(1 e^-x)有類似的性質(zhì),且有著光滑性這一優(yōu)良性質(zhì)。我們通過(guò)下圖可以看見(jiàn)sigmoid函數(shù)的圖像:


Sigmoid函數(shù)有著計(jì)算代價(jià)不高,易于理解與實(shí)現(xiàn)的優(yōu)點(diǎn)但也有著欠擬合,分類精度不高的特性,我們?cè)?a href='/map/zhichixiangliangji/' style='color:#000;font-size:inherit;'>支持向量機(jī)一章中就可以看到sigmoid函數(shù)差勁的分類結(jié)果。

2、BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

BP (Back Propagation)神經(jīng)網(wǎng)絡(luò),即誤差反傳誤差反向傳播算法的學(xué)習(xí)過(guò)程,由信息的正向傳播和誤差的反向傳播兩個(gè)過(guò)程組成。由下圖可知,BP神經(jīng)網(wǎng)絡(luò)是一個(gè)三層的網(wǎng)絡(luò):

  • 輸入層(input layer):輸入層各神經(jīng)元負(fù)責(zé)接收來(lái)自外界的輸入信息,并傳遞給中間層各神經(jīng)元;

  • 隱藏層(Hidden Layer):中間層是內(nèi)部信息處理層,負(fù)責(zé)信息變換,根據(jù)信息變化能力的需求,中間層可以設(shè)計(jì)為單隱層或者多隱層結(jié)構(gòu);最后一個(gè)隱層傳遞到輸出層各神經(jīng)元的信息,經(jīng)進(jìn)一步處理后,完成一次學(xué)習(xí)的正向傳播處理過(guò)程;

  • 輸出層(Output Layer):顧名思義,輸出層向外界輸出信息處理結(jié)果;

當(dāng)實(shí)際輸出與期望輸出不符時(shí),進(jìn)入誤差的反向傳播階段。誤差通過(guò)輸出層,按誤差梯度下降的方式修正各層權(quán)值,向隱藏層、輸入層逐層反傳。周而復(fù)始的信息正向傳播和誤差反向傳播過(guò)程,是各層權(quán)值不斷調(diào)整的過(guò)程,也是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的過(guò)程,此過(guò)程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可以接受的程度,或者預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。

3、反向傳播算法

反向傳播這一算法把我們前面提到的delta規(guī)則的分析擴(kuò)展到了帶有隱藏節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)。為了理解這個(gè)問(wèn)題,設(shè)想Bob給Alice講了一個(gè)故事,然后Alice又講給了Ted,Ted檢查了這個(gè)事實(shí)真相,發(fā)現(xiàn)這個(gè)故事是錯(cuò)誤的?,F(xiàn)在 Ted 需要找出哪些錯(cuò)誤是Bob造成的而哪些又歸咎于Alice。當(dāng)輸出節(jié)點(diǎn)從隱藏節(jié)點(diǎn)獲得輸入,網(wǎng)絡(luò)發(fā)現(xiàn)出現(xiàn)了誤差,權(quán)系數(shù)的調(diào)整需要一個(gè)算法來(lái)找出整個(gè)誤差是由多少不同的節(jié)點(diǎn)造成的,網(wǎng)絡(luò)需要問(wèn),“是誰(shuí)讓我誤入歧途?到怎樣的程度?如何彌補(bǔ)?”這時(shí),網(wǎng)絡(luò)該怎么做呢?

同樣源于梯度降落原理,在權(quán)系數(shù)調(diào)整分析中的唯一不同是涉及到t(p,n)與y(p,n)的差分。通常來(lái)說(shuō)Wi的改變?cè)谟冢?/span>

alpha * s'(a(p,n)) * d(n) *X(p,i,n)

其中d(n)是隱藏節(jié)點(diǎn)n的函數(shù),讓我們來(lái)看:

  • n 對(duì)任何給出的輸出節(jié)點(diǎn)有多大影響;

  • 輸出節(jié)點(diǎn)本身對(duì)網(wǎng)絡(luò)整體的誤差有多少影響。

一方面,n 影響一個(gè)輸出節(jié)點(diǎn)越多,n 造成網(wǎng)絡(luò)整體的誤差也越多。另一方面,如果輸出節(jié)點(diǎn)影響網(wǎng)絡(luò)整體的誤差越少,n 對(duì)輸出節(jié)點(diǎn)的影響也相應(yīng)減少。這里d(j)是對(duì)網(wǎng)絡(luò)的整體誤差的基值,W(n,j) 是 n 對(duì) j 造成的影響,d(j) * W(n,j) 是這兩種影響的總和。但是 n 幾乎總是影響多個(gè)輸出節(jié)點(diǎn),也許會(huì)影響每一個(gè)輸出結(jié)點(diǎn),這樣,d(n) 可以表示為:SUM(d(j)*W(n,j))

這里j是一個(gè)從n獲得輸入的輸出節(jié)點(diǎn),聯(lián)系起來(lái),我們就得到了一個(gè)培訓(xùn)規(guī)則。

第1部分:在隱藏節(jié)點(diǎn)n和輸出節(jié)點(diǎn)j之間權(quán)系數(shù)改變,如下所示:
alpha *s'(a(p,n))*(t(p,n) - y(p,n)) * X(p,n,j)

第 2 部分:在輸入節(jié)點(diǎn)i和輸出節(jié)點(diǎn)n之間權(quán)系數(shù)改變,如下所示:

alpha *s'(a(p,n)) * sum(d(j) * W(n,j)) * X(p,i,n)

這里每個(gè)從n接收輸入的輸出節(jié)點(diǎn)j都不同。關(guān)于反向傳播算法的基本情況大致如此。

通常把第 1部分稱為正向傳播,把第2部分稱為反向傳播。反向傳播的名字由此而來(lái)。

4、最速下降法與其改進(jìn)

最速下降法的基本思想是:要找到某函數(shù)的最小值,最好的辦法是沿函數(shù)的梯度方向探尋,如果梯度記為d,那么迭代公式可寫為w=w-alpha*d,其中alpha可理解為我們前面提到的學(xué)習(xí)速率。

最速下降法有著收斂速度慢(因?yàn)槊看嗡阉髋c前一次均正交,收斂是鋸齒形的),容易陷入局部最小值等缺點(diǎn),所以他的改進(jìn)辦法也有不少,最常見(jiàn)的是增加動(dòng)量項(xiàng)與學(xué)習(xí)率可變。

增加沖量項(xiàng)(Momentum)

修改權(quán)值更新法則,使第n次迭代時(shí)的權(quán)值的更新部分地依賴于發(fā)生在第n‐1次迭代時(shí)的更新
Delta(w)(n)=-alpha*(1-mc)*Delta(w)(n) mc*Delta(w)(n-1)

右側(cè)第一項(xiàng)就是權(quán)值更新法則,第二項(xiàng)被稱為沖量項(xiàng)

梯度下降的搜索軌跡就像一個(gè)球沿誤差曲面滾下,沖量使球從一次迭代到下一次迭代時(shí)以同樣的方向滾動(dòng)

沖量有時(shí)會(huì)使這個(gè)球滾過(guò)誤差曲面的局部極小值或平坦區(qū)域

沖量也具有在梯度不變的區(qū)域逐漸增大搜索步長(zhǎng)的效果,從而加快收斂。

改變學(xué)習(xí)率

當(dāng)誤差減小趨近目標(biāo)時(shí),說(shuō)明修正方向是正確的,可以增加學(xué)習(xí)率;當(dāng)誤差增加超過(guò)一個(gè)范圍時(shí),說(shuō)明修改不正確,需要降低學(xué)習(xí)率。

5、BP神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)

(1)數(shù)據(jù)讀入,這里我們還是使用R的內(nèi)置數(shù)據(jù)——鳶尾花數(shù)據(jù),由于神經(jīng)網(wǎng)絡(luò)本質(zhì)是2分類的,所以我們將鳶尾花數(shù)據(jù)也分為兩類(將前兩類均看做第2類),按照特征:花瓣長(zhǎng)度與寬度做分類。

(2)劃分訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)

(3)初始化BP網(wǎng)絡(luò),采用包含一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò),訓(xùn)練方法使用包含動(dòng)量的最速下降法,傳遞函數(shù)使用sigmoid函數(shù)。

(4)輸入樣本,對(duì)樣本進(jìn)行歸一化,計(jì)算誤差,求解誤差平方和

(5)判斷是否收斂

(6)根據(jù)誤差調(diào)整權(quán)值。權(quán)值根據(jù)以下公式進(jìn)行調(diào)整:

Delta(w)= alpha *s'(a(p,n))*(t(p,n) - y(p,n)) * X(p,n,j)

其中,alpha為學(xué)習(xí)率,s'(a(p,n))*(t(p,n)- y(p,n))為局部梯度。此外,由于使用了有動(dòng)量因子的最速下降法,除第一次外,后續(xù)改變量應(yīng)為:

Delta(w)(n)=-alpha*(1-mc)*Delta(w)(n) mc*Delta(w)(n-1)

(7)測(cè)試,輸出分類正確率。

完整的R代碼:

[plain]view plaincopyprint?

  1. iris1<-as.matrix(iris[,3:4])

  2. iris1<-cbind(iris1,c(rep(1,100),rep(0,50)))

  3. set.seed(5)

  4. n<-length(iris1[,1])

  5. samp<-sample(1:n,n/5)

  6. traind<-iris1[-samp,c(1,2)]

  7. train1<-iris1[-samp,3]

  8. testd<-iris1[samp,c(1,2)]

  9. test1<-iris1[samp,3]


  10. set.seed(1)

  11. ntrainnum<-120

  12. nsampdim<-2


  13. net.nin<-2

  14. net.nhidden<-3

  15. net.nout<-1

  16. w<-2*matrix(runif(net.nhidden*net.nin)-0.5,net.nhidden,net.nin)

  17. b<-2*(runif(net.nhidden)-0.5)

  18. net.w1<-cbind(w,b)

  19. W<-2*matrix(runif(net.nhidden*net.nout)-0.5,net.nout,net.nhidden)

  20. B<-2*(runif(net.nout)-0.5)

  21. net.w2<-cbind(W,B)


  22. traind_s<-traind

  23. traind_s[,1]<-traind[,1]-mean(traind[,1])

  24. traind_s[,2]<-traind[,2]-mean(traind[,2])

  25. traind_s[,1]<-traind_s[,1]/sd(traind_s[,1])

  26. traind_s[,2]<-traind_s[,2]/sd(traind_s[,2])


  27. sampinex<-rbind(t(traind_s),rep(1,ntrainnum))

  28. expectedout<-train1


  29. eps<-0.01

  30. a<-0.3

  31. mc<-0.8

  32. maxiter<-2000

  33. iter<-0


  34. errrec<-rep(0,maxiter)

  35. outrec<-matrix(rep(0,ntrainnum*maxiter),ntrainnum,maxiter)


  36. sigmoid<-function(x){

  37. y<-1/(1 exp(-x))

  38. return(y)

  39. }


  40. for(i in 1:maxiter){

  41. hid_input<-net.w1%*%sampinex;

  42. hid_out<-sigmoid(hid_input);

  43. out_input1<-rbind(hid_out,rep(1,ntrainnum));

  44. out_input2<-net.w2%*%out_input1;

  45. out_out<-sigmoid(out_input2);

  46. outrec[,i]<-t(out_out);

  47. err<-expectedout-out_out;

  48. sse<-sum(err^2);

  49. errrec[i]<-sse;

  50. iter<-iter 1;

  51. if(sse<=eps)

  52. break


  53. Delta<-err*sigmoid(out_out)*(1-sigmoid(out_out))

  54. delta<-(matrix(net.w2[,1:(length(net.w2[1,])-1)]))%*%Delta*sigmoid(hid_out)*(1-sigmoid(hid_out));


  55. dWex<-Delta%*%t(out_input1)

  56. dwex<-delta%*%t(sampinex)


  57. if(i==1){

  58. net.w2<-net.w2 a*dWex;

  59. net.w1<-net.w1 a*dwex;

  60. }

  61. else{

  62. net.w2<-net.w2 (1-mc)*a*dWex mc*dWexold;

  63. net.w1<-net.w1 (1-mc)*a*dwex mc*dwexold;

  64. }


  65. dWexold<-dWex;

  66. dwexold<-dwex;

  67. }



  68. testd_s<-testd

  69. testd_s[,1]<-testd[,1]-mean(testd[,1])

  70. testd_s[,2]<-testd[,2]-mean(testd[,2])

  71. testd_s[,1]<-testd_s[,1]/sd(testd_s[,1])

  72. testd_s[,2]<-testd_s[,2]/sd(testd_s[,2])


  73. inex<-rbind(t(testd_s),rep(1,150-ntrainnum))

  74. hid_input<-net.w1%*%inex

  75. hid_out<-sigmoid(hid_input)

  76. out_input1<-rbind(hid_out,rep(1,150-ntrainnum))

  77. out_input2<-net.w2%*%out_input1

  78. out_out<-sigmoid(out_input2)

  79. out_out1<-out_out


  80. out_out1[out_out<0.5]<-0

  81. out_out1[out_out>=0.5]<-1


  82. rate<-sum(out_out1==test1)/length(test1)

分類正確率為:0.9333333,是一個(gè)不錯(cuò)的學(xué)習(xí)器。這里需要注意的是動(dòng)量因子mc的選取,mc不能過(guò)小,否則容易陷入局部最小而出不去,在本例中,如果mc=0.5,分類正確率僅為:0.5333333,學(xué)習(xí)效果很不理想。

四、R中的神經(jīng)網(wǎng)絡(luò)函數(shù)

單層的前向神經(jīng)網(wǎng)絡(luò)模型在包nnet中的nnet函數(shù),其調(diào)用格式為:

nnet(formula,data, weights, size, Wts, linout = F, entropy = F,

softmax = F, skip = F, rang = 0.7,decay = 0, maxit = 100,

trace = T)

參數(shù)說(shuō)明:

size, 隱層結(jié)點(diǎn)數(shù);

decay, 表明權(quán)值是遞減的(可以防止過(guò)擬合);

linout, 線性輸出單元開(kāi)關(guān);

skip,是否允許跳過(guò)隱層;

maxit, 最大迭代次數(shù);

Hess, 是否輸出Hessian值

適用于神經(jīng)網(wǎng)絡(luò)的方法有predict,print和summary等,nnetHess函數(shù)用來(lái)計(jì)算在考慮了權(quán)重參數(shù)下的Hessian矩陣,并且檢驗(yàn)是否是局部最小。

我們使用nnet函數(shù)分析Vehicle數(shù)據(jù)。隨機(jī)選擇半數(shù)觀測(cè)作為訓(xùn)練集,剩下的作為測(cè)試集,構(gòu)建只有包含3個(gè)節(jié)點(diǎn)的一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)。輸入如下程序:

[plain]view plaincopyprint?

  1. library(nnet); #安裝nnet軟件包

  2. library(mlbench); #安裝mlbench軟件包

  3. data(Vehicle); #調(diào)入數(shù)據(jù)

  4. n=length(Vehicle[,1]); #樣本量

  5. set.seed(1); #設(shè)隨機(jī)數(shù)種子

  6. samp=sample(1:n,n/2); #隨機(jī)選擇半數(shù)觀測(cè)作為訓(xùn)練集

  7. b=class.ind(Vehicle$Class); #生成類別的示性函數(shù)

  8. test.cl=function(true,pred){true<-max.col(true);cres=max.col(pred);table(true,cres)};

  9. a=nnet(Vehicle[samp,-19],b[samp,],size=3,rang=0.1,decay=5e-4,maxit=200); #利用訓(xùn)練集中前18個(gè)變量作為輸入變量,隱藏層有3個(gè)節(jié)點(diǎn),初始隨機(jī)權(quán)值在[-0.1,0.1],權(quán)值是逐漸衰減的。

  10. test.cl(b[samp,],predict(a,Vehicle[samp,-19]))#給出訓(xùn)練集分類結(jié)果

  11. test.cl(b[-samp,],predict(a,Vehicle[-samp,-19]));#給出測(cè)試集分類結(jié)果

  12. #構(gòu)建隱藏層包含15個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)。接著上面的語(yǔ)句輸入如下程序:

  13. a=nnet(Vehicle[samp,-19],b[samp,],size=15,rang=0.1,decay=5e-4,maxit=10000);

  14. test.cl(b[samp,],predict(a,Vehicle[samp,-19]));

  15. test.cl(b[-samp,],predict(a,Vehicle[-samp,-19]));

再看手寫數(shù)字案例

最后,我們回到最開(kāi)始的那個(gè)手寫數(shù)字的案例,我們?cè)囍?a href='/map/zhichixiangliangji/' style='color:#000;font-size:inherit;'>支持向量機(jī)重做這個(gè)案例。(這個(gè)案例的描述與數(shù)據(jù)參見(jiàn)《R語(yǔ)言機(jī)器學(xué)習(xí)學(xué)習(xí)筆記(分類算法)(1)》)

由于nnet包對(duì)輸入的維數(shù)有一定限制(我也不知道為什么,可能在權(quán)值計(jì)算的時(shí)候出現(xiàn)了一些bug,反正將支持向量機(jī)那一節(jié)的代碼平行的移過(guò)來(lái)是會(huì)報(bào)錯(cuò)的)。我們這里采用手寫數(shù)字識(shí)別技術(shù)中常用的辦法處理這個(gè)案例:計(jì)算數(shù)字的特征。選擇數(shù)字特征的辦法有許多種,你隨便百度一篇論文都有敘述。我們這里采用結(jié)構(gòu)特征與統(tǒng)計(jì)特征結(jié)合的辦法計(jì)算圖像的特征。


我們這里采用的統(tǒng)計(jì)特征與上圖有一點(diǎn)的不同(結(jié)構(gòu)特征一致),我們是將圖片分為16塊(4*4),統(tǒng)計(jì)每個(gè)小方塊中點(diǎn)的個(gè)數(shù),這樣我們就有25維的特征向量了。為了保證結(jié)果的可比性,我們也報(bào)告支持向量機(jī)的分類結(jié)果。

運(yùn)行下列代碼:


[plain]view plaincopyprint?

  1. setwd("D:/R/data/digits/trainingDigits")

  2. names<-list.files("D:/R/data/digits/trainingDigits")

  3. data<-paste("train",1:1934,sep="")

  4. for(i in 1:length(names))

  5. assign(data[i],as.matrix(read.fwf(names[i],widths=rep(1,32))))

  6. library(nnet)

  7. label<-factor(rep(0:9,c(189,198,195,199,186,187,195,201,180,204)))


  8. feature<-matrix(rep(0,length(names)*25),length(names),25)

  9. for(i in 1:length(names)){

  10. feature[i,1]<-sum(get(data[i])[,16])

  11. feature[i,2]<-sum(get(data[i])[,8])

  12. feature[i,3]<-sum(get(data[i])[,24])

  13. feature[i,4]<-sum(get(data[i])[16,])

  14. feature[i,5]<-sum(get(data[i])[11,])

  15. feature[i,6]<-sum(get(data[i])[21,])

  16. feature[i,7]<-sum(diag(get(data[i])))

  17. feature[i,8]<-sum(diag(get(data[i])[,32:1]))

  18. feature[i,9]<-sum((get(data[i])[17:32,17:32]))

  19. feature[i,10]<-sum((get(data[i])[1:8,1:8]))

  20. feature[i,11]<-sum((get(data[i])[9:16,1:8]))

  21. feature[i,12]<-sum((get(data[i])[17:24,1:8]))

  22. feature[i,13]<-sum((get(data[i])[25:32,1:8]))

  23. feature[i,14]<-sum((get(data[i])[1:8,9:16]))

  24. feature[i,15]<-sum((get(data[i])[9:16,9:16]))

  25. feature[i,16]<-sum((get(data[i])[17:24,9:16]))

  26. feature[i,17]<-sum((get(data[i])[25:32,9:16]))

  27. feature[i,18]<-sum((get(data[i])[1:8,17:24]))

  28. feature[i,19]<-sum((get(data[i])[9:16,17:24]))

  29. feature[i,20]<-sum((get(data[i])[17:24,17:24]))

  30. feature[i,21]<-sum((get(data[i])[25:32,17:24]))

  31. feature[i,22]<-sum((get(data[i])[1:8,25:32]))

  32. feature[i,23]<-sum((get(data[i])[9:16,25:32]))

  33. feature[i,24]<-sum((get(data[i])[17:24,25:32]))

  34. feature[i,25]<-sum((get(data[i])[25:32,25:32]))

  35. }

  36. data1 <- data.frame(feature,label)

  37. m1<-nnet(label~.,data=data1,size=25,maxit = 2000,decay = 5e-6, rang = 0.1)

  38. pred<-predict(m1,data1,type="class")

  39. table(pred,label)

  40. sum(diag(table(pred,label)))/length(names)


  41. library("e1071")

  42. m <- svm(feature,label,cross=10,type="C-classification")

  43. m

  44. summary(m)

  45. pred<-fitted(m)

  46. table(pred,label)


  47. setwd("D:/R/data/digits/testDigits")

  48. name<-list.files("D:/R/data/digits/testDigits")

  49. data1<-paste("train",1:1934,sep="")

  50. for(i in 1:length(name))

  51. assign(data1[i],as.matrix(read.fwf(name[i],widths=rep(1,32))))


  52. feature<-matrix(rep(0,length(name)*25),length(name),25)

  53. for(i in 1:length(name)){

  54. feature[i,1]<-sum(get(data1[i])[,16])

  55. feature[i,2]<-sum(get(data1[i])[,8])

  56. feature[i,3]<-sum(get(data1[i])[,24])

  57. feature[i,4]<-sum(get(data1[i])[16,])

  58. feature[i,5]<-sum(get(data1[i])[11,])

  59. feature[i,6]<-sum(get(data1[i])[21,])

  60. feature[i,7]<-sum(diag(get(data1[i])))

  61. feature[i,8]<-sum(diag(get(data1[i])[,32:1]))

  62. feature[i,9]<-sum((get(data1[i])[17:32,17:32]))

  63. feature[i,10]<-sum((get(data1[i])[1:8,1:8]))

  64. feature[i,11]<-sum((get(data1[i])[9:16,1:8]))

  65. feature[i,12]<-sum((get(data1[i])[17:24,1:8]))

  66. feature[i,13]<-sum((get(data1[i])[25:32,1:8]))

  67. feature[i,14]<-sum((get(data1[i])[1:8,9:16]))

  68. feature[i,15]<-sum((get(data1[i])[9:16,9:16]))

  69. feature[i,16]<-sum((get(data1[i])[17:24,9:16]))

  70. feature[i,17]<-sum((get(data1[i])[25:32,9:16]))

  71. feature[i,18]<-sum((get(data1[i])[1:8,17:24]))

  72. feature[i,19]<-sum((get(data1[i])[9:16,17:24]))

  73. feature[i,20]<-sum((get(data1[i])[17:24,17:24]))

  74. feature[i,21]<-sum((get(data1[i])[25:32,17:24]))

  75. feature[i,22]<-sum((get(data1[i])[1:8,25:32]))

  76. feature[i,23]<-sum((get(data1[i])[9:16,25:32]))

  77. feature[i,24]<-sum((get(data1[i])[17:24,25:32]))

  78. feature[i,25]<-sum((get(data1[i])[25:32,25:32]))

  79. }

  80. labeltest<-factor(rep(0:9,c(87,97,92,85,114,108,87,96,91,89)))

  81. data2<-data.frame(feature,labeltest)

  82. pred1<-predict(m1,data2,type="class")

  83. table(pred1,labeltest)

  84. sum(diag(table(pred1,labeltest)))/length(name)


  85. pred<-predict(m,feature)

  86. table(pred,labeltest)

  87. sum(diag(table(pred,labeltest)))/length(name)

經(jīng)整理,我們有如下輸出結(jié)果:


可以看到,神經(jīng)網(wǎng)絡(luò)支持向量機(jī)還是有一定的可比性,但支持向量機(jī)的結(jié)果還是要優(yōu)于神經(jīng)網(wǎng)絡(luò)的。

這里我們神經(jīng)網(wǎng)絡(luò)取25個(gè)節(jié)點(diǎn)(隱藏層)似乎出現(xiàn)了過(guò)擬合的現(xiàn)象(雖然還不算過(guò)于嚴(yán)重)我們應(yīng)該減少節(jié)點(diǎn)個(gè)數(shù)得到更佳的預(yù)測(cè)結(jié)果。

關(guān)于節(jié)點(diǎn)的選擇是個(gè)經(jīng)驗(yàn)活,我們沒(méi)有一定的規(guī)則。可以多試幾次,結(jié)合訓(xùn)練集正確率與測(cè)試集正確率綜合研判,但是構(gòu)造神經(jīng)網(wǎng)絡(luò)的代價(jià)是高昂的,所以有一個(gè)不太壞的結(jié)果也就可以停止了。(其他參數(shù)的選擇同樣如此,但是不如size那么重要)

特征的選取對(duì)于識(shí)別問(wèn)題來(lái)說(shuō)相當(dāng)?shù)闹匾苍S主成分在選擇特征時(shí)作用會(huì)比我們這樣的選擇更好,但是代價(jià)也更高,還有我們應(yīng)該如何選擇主成分,怎么選擇(選擇哪張圖的主成分)都是需要考慮的。

五、神經(jīng)網(wǎng)絡(luò)還是支持向量機(jī)

從上面的敘述可以看出,神經(jīng)網(wǎng)絡(luò)與我們前面說(shuō)的支持向量機(jī)有不少相似的地方,那么我們應(yīng)該選擇誰(shuí)呢?下面是兩種方法的一個(gè)簡(jiǎn)明對(duì)比:


SVM的理論基礎(chǔ)比NN更堅(jiān)實(shí),更像一門嚴(yán)謹(jǐn)?shù)摹翱茖W(xué)”(三要素:?jiǎn)栴}的表示、問(wèn)題的解決、證明)

SVM ——嚴(yán)格的數(shù)學(xué)推理

–ANN ——強(qiáng)烈依賴于工程技巧

–推廣能力取決于“經(jīng)驗(yàn)風(fēng)險(xiǎn)值”和“置信范圍值”,ANN不能控制兩者中的任何一個(gè)。

–ANN設(shè)計(jì)者用高超的工程技巧彌補(bǔ)了數(shù)學(xué)上的缺陷——設(shè)計(jì)特殊的結(jié)構(gòu),利用啟發(fā)式算法,有時(shí)能得到出人意料的好結(jié)果。

正如費(fèi)曼指出的那樣“我們必須從一開(kāi)始就澄清一個(gè)觀點(diǎn),就是如果某事不是科學(xué),它并不一定不好。比如說(shuō),愛(ài)情就不是科學(xué)。因此,如果我們說(shuō)某事不是科學(xué),并不是說(shuō)它有什么不對(duì),而只是說(shuō)它不是科學(xué)?!迸cSVM相比,ANN不像一門科學(xué),更像一門工程技巧,但并不意味著它就一定就不好。

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }