
作者 | Asifullah Khan & Anabia Sohail
編譯 | 機(jī)器之心
深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種特殊類(lèi)型的神經(jīng)網(wǎng)絡(luò),在各種競(jìng)賽基準(zhǔn)上表現(xiàn)出了當(dāng)前最優(yōu)結(jié)果。深度 CNN 架構(gòu)在挑戰(zhàn)性基準(zhǔn)任務(wù)比賽中實(shí)現(xiàn)的高性能表明,創(chuàng)新的架構(gòu)理念以及參數(shù)優(yōu)化可以提高 CNN 在各種視覺(jué)相關(guān)任務(wù)上的性能。本綜述將最近的 CNN 架構(gòu)創(chuàng)新分為七個(gè)不同的類(lèi)別,分別基于空間利用、深度、多路徑、寬度、特征圖利用、通道提升和注意力。
引言
通過(guò) 1989 年 LeCun 處理網(wǎng)格狀拓?fù)鋽?shù)據(jù)(圖像和時(shí)間系列數(shù)據(jù))的研究,CNN 首次受到關(guān)注。CNN 被視為理解圖像內(nèi)容的最好技術(shù)之一,并且在圖像識(shí)別、分割、檢測(cè)和檢索相關(guān)任務(wù)上表現(xiàn)出了當(dāng)前最佳性能。CNN 的成功引起了學(xué)界外的注意。在產(chǎn)業(yè)界,如谷歌、微軟、AT&T、NEC 和 Facebook 這樣的公司都設(shè)立了研究團(tuán)隊(duì)來(lái)探索 CNN 的新架構(gòu)。目前,圖像處理競(jìng)賽中的大多數(shù)領(lǐng)跑者都會(huì)采用基于深度 CNN 的模型。
自 2012 年以來(lái),關(guān)于 CNN 架構(gòu)的不同創(chuàng)新被提出來(lái)。這些創(chuàng)新可分為參數(shù)優(yōu)化、正則化、結(jié)構(gòu)重組等。但是據(jù)觀察,CNN 網(wǎng)絡(luò)的性能提升應(yīng)主要?dú)w功于處理單元的重構(gòu)和新模塊的設(shè)計(jì)。自 AlexNet 在 ImageNet 數(shù)據(jù)集上展現(xiàn)出了非凡的性能后,基于 CNN 的應(yīng)用變得越來(lái)越普及。類(lèi)似地,Zeiler 和 Fergus 介紹了特征分層可視化的概念,這改變了用深度架構(gòu)(如 VGG)在簡(jiǎn)單的低空間分辨率中提取特征的趨勢(shì)。如今,大多數(shù)新架構(gòu)都是基于 VGG 引入的簡(jiǎn)單原則和同質(zhì)化拓?fù)錁?gòu)建的。
另一方面,谷歌團(tuán)隊(duì)引入了一個(gè)非常著名的關(guān)于拆分、轉(zhuǎn)換和合并的概念,稱(chēng)為 Inception 模塊。初始?jí)K第一次使用了層內(nèi)分支的概念,允許在不同空間尺度上提取特征。2015 年,為了訓(xùn)練深度 CNN,Resnet 引入的殘差連接概念變得很有名,并且,后來(lái)的大多數(shù)網(wǎng)絡(luò)像 Inception-ResNet,WideResNet,ResNext 等都在使用它。與此類(lèi)似,一些像 WideResnet、Pyramidal Nets、Xception 這樣的架構(gòu)都引入了多層轉(zhuǎn)換的概念,通過(guò)額外的基數(shù)和增加的寬度來(lái)實(shí)現(xiàn)。因此,研究的重點(diǎn)從參數(shù)優(yōu)化和連接再次調(diào)整,轉(zhuǎn)向了網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)(層結(jié)構(gòu))。這引發(fā)了許多像通道提升、空間和通道利用、基于注意力的信息處理等新的架構(gòu)概念。
本文結(jié)構(gòu)如下:
圖 1:文章結(jié)構(gòu)
圖 2:典型模式識(shí)別(OR)系統(tǒng)的基本布局。PR 系統(tǒng)分為三個(gè)階段:階段 1 和數(shù)據(jù)挖掘相關(guān),階段 2 執(zhí)行預(yù)處理和特征選擇,而階段 3 基于模型選擇、調(diào)參和分析。CNN 有良好的特征提取能力和強(qiáng)大的鑒別能力,因此在一個(gè) PR 系統(tǒng)中,它可以用于特征提取/生成和模型選擇階段。
CNN 中的架構(gòu)創(chuàng)新
自 189 年至今,CNN 架構(gòu)已經(jīng)有了很多不同的改進(jìn)。CNN 中的所有創(chuàng)新都是通過(guò)深度和空間相結(jié)合實(shí)現(xiàn)的。根據(jù)架構(gòu)修改的類(lèi)型,CNN 可以大致分為 7 類(lèi):基于空間利用、深度、多路徑、寬度、通道提升、特征圖利用和注意力的 CNN。深度 CNN 架構(gòu)的分類(lèi)如圖 3 所示。
圖 3:深度 CNN 架構(gòu)分類(lèi)
基于空間利用的 CNN
CNN 有大量參數(shù),如處理單元數(shù)量(神經(jīng)元)、層數(shù)、濾波器大小、步幅、學(xué)習(xí)率和激活函數(shù)等。由于 CNN 考慮輸入像素的鄰域(局部性),可以使用不同大小的濾波器來(lái)探索不同級(jí)別的相關(guān)性。因此,在 2000 年初,研究人員利用空間變換來(lái)提升性能,此外,還評(píng)估了不同大小的濾波器對(duì)網(wǎng)絡(luò)學(xué)習(xí)率的影響。不同大小的濾波器封裝不同級(jí)別的粒度;通常,較小的濾波器提取細(xì)粒度信息,而較大的濾波器提取粗粒度信息。這樣,通過(guò)調(diào)整濾波器大小,CNN 可以在粗粒度和細(xì)粒度的細(xì)節(jié)上都表現(xiàn)很好。
基于深度的 CNN
深度 CNN 架構(gòu)基于這樣一種假設(shè):隨著深度的增加,網(wǎng)絡(luò)可以通過(guò)大量非線(xiàn)性映射和改進(jìn)的特征表示更好地逼近目標(biāo)函數(shù)。網(wǎng)絡(luò)深度在監(jiān)督學(xué)習(xí)的成功中起了重要作用。理論研究已表明,深度網(wǎng)絡(luò)能夠以指數(shù)方式比淺層網(wǎng)絡(luò)更有效地表示特定的 20 個(gè)函數(shù)類(lèi)型。2001 年,Csáji 表示了通用近似定理,指出單個(gè)隱藏層足夠逼近任何函數(shù),但這需要指數(shù)級(jí)的神經(jīng)元,因而通常導(dǎo)致計(jì)算上行不通。在這方面,Bengio 和 elalleau 認(rèn)為更深的網(wǎng)絡(luò)有潛力在更少的成本下保持網(wǎng)絡(luò)的表現(xiàn)能力。2013 年,Bengio 等人通過(guò) 實(shí)證表明,對(duì)于復(fù)雜的任務(wù),深度網(wǎng)絡(luò)在計(jì)算和統(tǒng)計(jì)上都更有效。在 2014-ILSVR 競(jìng)賽中表現(xiàn)最佳的 Inception 和 VGG 則進(jìn)一步說(shuō)明,深度是調(diào)節(jié)網(wǎng)絡(luò)學(xué)習(xí)能力的重要維度。
一旦特征被提取,只要其相對(duì)于其他位置的近似位置被保留,其提取位置就變得沒(méi)那么重要了。池化或下采樣(如卷積)是一種有趣的局部操作。它總結(jié)了感受野附近的類(lèi)似信息,并輸出了該局部區(qū)域內(nèi)的主要反應(yīng)。作為卷積運(yùn)算的輸出結(jié)果,特征圖案可能會(huì)出現(xiàn)在圖像中的不同位置。
基于多路徑的 CNN
深度網(wǎng)絡(luò)的訓(xùn)練頗具挑戰(zhàn)性,這也是近來(lái)很多深度網(wǎng)絡(luò)研究的主題。深度 CNN 為復(fù)雜任務(wù)提供了高效的計(jì)算和統(tǒng)計(jì)。但是,更深的網(wǎng)絡(luò)可能會(huì)遭遇性能下降或梯度消失/爆炸的問(wèn)題,而這通常是由增加深度而非過(guò)擬合造成的。梯度消失問(wèn)題不僅會(huì)導(dǎo)致更高的測(cè)試誤差,還會(huì)導(dǎo)致更高的訓(xùn)練誤差。為了訓(xùn)練更深的網(wǎng)絡(luò),多路徑或跨層連接的概念被提出。多路徑或捷徑連接可以通過(guò)跳過(guò)一些中間層,系統(tǒng)地將一層連接到另一層,以使特定的信息流跨過(guò)層??鐚舆B接將網(wǎng)絡(luò)劃分為幾塊。這些路徑也嘗試通過(guò)使較低層訪問(wèn)梯度來(lái)解決梯度消失問(wèn)題。為此,使用了不同類(lèi)型的捷徑連接,如零填充、基于投影、dropout 和 1x1 連接等。
激活函數(shù)是一種決策函數(shù),有助于學(xué)習(xí)復(fù)雜的模式。選擇適當(dāng)?shù)募せ詈瘮?shù)可以加速學(xué)習(xí)過(guò)程。卷積特征圖的激活函數(shù)定義為等式(3)。
基于寬度的多連接 CNN
2012 至 2015 年,網(wǎng)絡(luò)架構(gòu)的重點(diǎn)是深度的力量,以及多通道監(jiān)管連接在網(wǎng)絡(luò)正則化中的重要性。然而,網(wǎng)絡(luò)的寬度和深度一樣重要。通過(guò)在一層之內(nèi)并行使用多處理單元,多層感知機(jī)獲得了在感知機(jī)上映射復(fù)雜函數(shù)的優(yōu)勢(shì)。這表明寬度和深度一樣是定義學(xué)習(xí)原則的一個(gè)重要參數(shù)。Lu 等人和 Hanin & Sellke 最近表明,帶有線(xiàn)性整流激活函數(shù)的神經(jīng)網(wǎng)絡(luò)要足夠?qū)挷拍茈S著深度增加保持通用的近似特性。并且,如果網(wǎng)絡(luò)的最大寬度不大于輸入維度,緊致集上的連續(xù)函數(shù)類(lèi)無(wú)法被任意深度的網(wǎng)絡(luò)很好地近似。因此,多層堆疊(增加層)可能不會(huì)增加神經(jīng)網(wǎng)絡(luò)的表征能力。與深度架構(gòu)相關(guān)的一個(gè)重要問(wèn)題是,有些層或處理單元可能無(wú)法學(xué)習(xí)有用的特征。為了解決這一問(wèn)題,研究的重點(diǎn)從深度和較窄的架構(gòu)轉(zhuǎn)移到了較淺和較寬的架構(gòu)上。
CNN 因其分層學(xué)習(xí)和自動(dòng)特征提取能力而聞名于 MV 任務(wù)中。特征選擇在決定分類(lèi)、分割和檢測(cè)模塊的性能上起著重要作用。傳統(tǒng)特征提取技術(shù)中分類(lèi)模塊的性能要受限于特征的單一性。相較于傳統(tǒng)技術(shù),CNN 使用多階段特征提取,根據(jù)分配的輸入來(lái)提取不同類(lèi)型的特征(CNN 中稱(chēng)之為特征圖)。但是,一些特征圖有很少或者幾乎沒(méi)有目標(biāo)鑒別作用。巨大的特征集有噪聲效應(yīng),會(huì)導(dǎo)致網(wǎng)絡(luò)過(guò)擬合。這表明,除了網(wǎng)絡(luò)工程外,特定類(lèi)別特征圖的選取對(duì)改進(jìn)網(wǎng)絡(luò)的泛化性能至關(guān)重要。在這一部分,特征圖和通道會(huì)交替使用,因?yàn)楹芏嘌芯空咭呀?jīng)用通道這個(gè)詞代替了特征圖。
基于通道(輸入通道)利用的 CNN
圖像表征在決定圖像處理算法的性能方面起著重要作用。圖像的良好表征可以定義來(lái)自緊湊代碼的圖像的突出特征。在不同的研究中,不同類(lèi)型的傳統(tǒng)濾波器被用來(lái)提取單一類(lèi)型圖像的不同級(jí)別信息。這些不同的表征被用作模型的輸入,以提高性能。CNN 是一個(gè)很好的特征學(xué)習(xí)器,它能根據(jù)問(wèn)題自動(dòng)提取鑒別特征。但是,CNN 的學(xué)習(xí)依賴(lài)于輸入表征。如果輸入中缺乏多樣性和類(lèi)別定義信息,CNN 作為鑒別器的性能就會(huì)受到影響。為此,輔助學(xué)習(xí)器的概念被引入到 CNN 中來(lái)提升網(wǎng)絡(luò)的輸入表征。
基于注意力的 CNN
不同的抽象級(jí)別在定義神經(jīng)網(wǎng)絡(luò)的鑒別能力方面有著重要的作用。除此之外,選擇與上下文相關(guān)的特征對(duì)于圖像定位和識(shí)別也很重要。在人類(lèi)的視覺(jué)系統(tǒng)中,這種現(xiàn)象叫做注意力。人類(lèi)在一次又一次的匆匆一瞥中觀察場(chǎng)景并注意與上下文相關(guān)的部分。在這個(gè)過(guò)程中,人類(lèi)不僅注意選擇的區(qū)域,而且推理出關(guān)于那個(gè)位置的物體的不同解釋。因此,它有助于人類(lèi)以更好的方式來(lái)抓取視覺(jué)結(jié)構(gòu)。類(lèi)似的解釋能力被添加到像 RNN 和 LSTM 這樣的神經(jīng)網(wǎng)絡(luò)中。上述網(wǎng)絡(luò)利用注意力模塊來(lái)生成序列數(shù)據(jù),并且根據(jù)新樣本在先前迭代中的出現(xiàn)來(lái)對(duì)其加權(quán)。不同的研究者把注意力概念加入到 CNN 中來(lái)改進(jìn)表征和克服數(shù)據(jù)的計(jì)算限制問(wèn)題。注意力概念有助于讓 CNN 變得更加智能,使其在雜亂的背景和復(fù)雜的場(chǎng)景中也能識(shí)別物體。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03