
在利用深度學(xué)習(xí)模型解決有監(jiān)督問(wèn)題時(shí),比如分類(lèi)、回歸、去噪等,我們一般的思路如下:
1、信息流forward propagation,直到輸出端;
2、定義損失函數(shù)L(x, y | theta);
3、誤差信號(hào)back propagation。采用數(shù)學(xué)理論中的“鏈?zhǔn)椒▌t”,求L(x, y | theta)關(guān)于參數(shù)theta的梯度;
4、利用最優(yōu)化方法(比如隨機(jī)梯度下降法),進(jìn)行參數(shù)更新;
5、重復(fù)步驟3、4,直到收斂為止;
在第2步中,我們通常會(huì)見(jiàn)到多種損失函數(shù)的定義方法,常見(jiàn)的有均方誤差(error of mean
square)、最大似然誤差(maximum likelihood estimate)、最大后驗(yàn)概率(maximum posterior
probability)、交叉熵損失函數(shù)(cross entropy
loss),下面我們就來(lái)理清他們的區(qū)別和聯(lián)系。一般地,一個(gè)機(jī)器學(xué)習(xí)模型選擇哪種損失函數(shù),是憑借經(jīng)驗(yàn)而定的,沒(méi)有什么特定的標(biāo)準(zhǔn)。具體來(lái)說(shuō),
(1)均方誤差是一種較早的損失函數(shù)定義方法,它衡量的是兩個(gè)分布對(duì)應(yīng)維度的差異性之和。說(shuō)點(diǎn)題外話,與之非常接近的一種相似性度量標(biāo)準(zhǔn)“余弦角”,則衡量的是兩個(gè)分布整體的相似性,也即把兩個(gè)向量分別作為一個(gè)整體,計(jì)算出的夾角作為其相似性大小的判斷依據(jù),讀者可以認(rèn)真體會(huì)這兩種相似性判斷標(biāo)準(zhǔn)的差異;
(2)最大似然誤差是從概率的角度,求解出能完美擬合訓(xùn)練樣例的模型參數(shù)theta,使得概率p(y | x, theta)最大化;
(3)最大化后驗(yàn)概率,即使得概率p(theta | x,
y)最大化,實(shí)際上也等價(jià)于帶正則化項(xiàng)的最大似然概率(詳細(xì)的數(shù)學(xué)推導(dǎo)可以參見(jiàn)Bishop 的Pattern Recognition And
Machine Learning),它考慮了先驗(yàn)信息,通過(guò)對(duì)參數(shù)值的大小進(jìn)行約束來(lái)防止“過(guò)擬合”;
(4)交叉熵損失函數(shù),衡量的是兩個(gè)分布p、q的相似性。在給定集合上兩個(gè)分布p和q的cross entropy定義如下:
其中,H(p)是p的熵,Dkl(p||q)表示KL-divergence。對(duì)于離散化的分布p和q,
在機(jī)器學(xué)習(xí)應(yīng)用中,p一般表示樣例的標(biāo)簽的真實(shí)分布,為確定值,故最小化交叉熵和最小化KL-devergence是等價(jià)的,只不過(guò)之間相差了一個(gè)常數(shù)。
值得一提的是,在分類(lèi)問(wèn)題中,交叉熵的本質(zhì)就是似然函數(shù)的最大化。證明如下:
記帶標(biāo)簽的樣例為(x, y), 其中x表示輸入特征向量,y=[y1, y2, …, yc]表示真實(shí)標(biāo)簽的one-hot表示,y_=[y1, y2, …, yc]表示模型輸出的分布,c表示樣例輸出的類(lèi)別數(shù),那么。
(1)對(duì)于二分類(lèi)問(wèn)題,p(x)=[1, 0],q(x)=[y1, y2],y1=p(y=1|x)表示模型輸出的真實(shí)概率,交叉熵H(p, q)=-(1*y1+0*y2)=-y1,顯然此時(shí)交叉熵的最小化等價(jià)于似然函數(shù)的最大化;
(2)對(duì)于多分類(lèi)問(wèn)題, 假設(shè)p(x)=[0, 0, 0, …, 1, 0, 0],q(x)=[y1, y2, y3, …, yk, y(k+1), y(k+2)],即表示真實(shí)樣例標(biāo)簽為第k類(lèi),yk=p(y=k|x)表示模型輸出為第k類(lèi)的概率,交叉熵H(p,q)=-(0*y1+0*y2+0*y3+…+1*yk+0*y(k+1)+0*y(k+2)) = -yk, 此時(shí)同上。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03