
作者 | Francois Chollet
編譯 | CDA數(shù)據(jù)分析師
The future of deep learning
鑒于我們對深網(wǎng)的工作原理,局限性以及研究現(xiàn)狀的了解,我們能否預測中期的發(fā)展方向?這是一些純粹的個人想法。請注意,我沒有水晶球,所以我預期的很多事情都可能無法實現(xiàn)。這是一個完全投機的職位。我之所以分享這些預測,并不是因為我希望它們將來能被證明是完全正確的,而是因為它們在當前很有趣并且可以付諸實踐。
從高層次來看,我看到希望的主要方向是:
此外,請注意,這些注意事項并非到目前為止一直是深度學習的基礎(chǔ)的那種監(jiān)督學習,而是適用于任何形式的機器學習,包括無監(jiān)督,自我監(jiān)督和強化學習。標記的來源或訓練循環(huán)的樣子從根本上來說并不重要;機器學習的這些不同分支只是同一構(gòu)造的不同方面。
模型作為序列模型
正如我們在前一篇文章中指出的那樣,我們可以期望在機器學習領(lǐng)域進行必要的轉(zhuǎn)型發(fā)展,是從執(zhí)行純模式識別并且只能實現(xiàn)局部概括的模型轉(zhuǎn)向具有抽象和 推理能力的模型,實現(xiàn)極端概括。當前具有基本推理形式的AI程序都由人類程序員進行硬編碼:例如,依賴于搜索算法,圖操作,形式邏輯的軟件。例如,在DeepMind的AlphaGo中,大多數(shù)“智能”都是由專業(yè)程序員設(shè)計和硬編碼的(例如,蒙特卡洛樹搜索);從數(shù)據(jù)中學習僅發(fā)生在專門的子模塊(價值網(wǎng)絡(luò)和政策網(wǎng)絡(luò))中。但是在將來,這樣的AI系統(tǒng)可能會完全被了解,而無需人工參與。
實現(xiàn)這一目標的途徑可能是什么?考慮一種著名的網(wǎng)絡(luò):RNN。重要的是,與前饋網(wǎng)絡(luò)相比,RNN的限制略少。這是因為RNN不僅僅是幾何變換:它們是在for 循環(huán)內(nèi)重復應(yīng)用的幾何變換。暫時的for循環(huán)本身是由開發(fā)人員進行硬編碼的:它是網(wǎng)絡(luò)的內(nèi)置假設(shè)。自然地,RNN的表示能力仍然受到極大限制,主要是因為它們執(zhí)行的每個步驟仍然只是可微的幾何變換,并且它們從一步到一步傳遞信息的方式是通過連續(xù)幾何空間中的點(狀態(tài)向量)進行的?,F(xiàn)在,想象一下以類似的方式通過編程原語(例如for循環(huán))來“增強”神經(jīng)網(wǎng)絡(luò),但不僅僅是for具有硬編碼幾何內(nèi)存的單個硬編碼循環(huán),而是模型所包含的大量編程原語可以隨意操作以擴展其處理功能,例如if分支,while語句,變量創(chuàng)建,用于長期內(nèi)存的磁盤存儲,排序運算符,高級數(shù)據(jù)結(jié)構(gòu)(如列表,圖形和哈希表)等等。這樣的網(wǎng)絡(luò)可以代表的程序空間將比當前深度學習模型所代表的程序要廣闊得多,并且其中一些程序可以實現(xiàn)更高的泛化能力。
一言以蔽之,我們將擺脫一方面擁有“硬編碼算法智能”(手工軟件),另一方面不再具有“學習幾何智能”(深度學習)的能力。我們將混合使用提供推理和抽象功能的形式化算法模塊和提供非正式直覺和模式識別功能的幾何模塊。整個系統(tǒng)將在幾乎沒有人參與的情況下學習。
我認為AI的一個相關(guān)子領(lǐng)域可能會大有作為,它是程序綜合領(lǐng)域,尤其是神經(jīng)程序綜合領(lǐng)域。程序合成包括通過使用搜索算法(可能是遺傳搜索,如遺傳編程)自動生成簡單程序,以探索大量可能的程序。當找到符合所需規(guī)范的程序時,搜索將停止,該程序通常以一組輸入輸出對的形式提供。正如您所看到的,它是否使人聯(lián)想到機器學習:給定輸入和輸出對提供的“訓練數(shù)據(jù)”,我們找到了一個將輸入與輸出匹配并可以歸納為新輸入的“程序”。不同之處在于,我們生成的不是在硬編碼程序(神經(jīng)網(wǎng)絡(luò))中學習參數(shù)值通過離散搜索過程獲取源代碼。
我絕對希望這個子領(lǐng)域在未來幾年內(nèi)會引起新的興趣。特別是,我希望在深度學習和程序合成之間出現(xiàn)一個交叉子域,在該領(lǐng)域中,我們不會以通用語言生成程序,而會在其中生成神經(jīng)網(wǎng)絡(luò)(幾何數(shù)據(jù)處理)。流)增加了一組豐富的算法的圖元,如for循環(huán)等等。與直接生成源代碼相比,這應(yīng)該更容易處理和有用,并且它將大大擴展機器學習可以解決的問題的范圍-在給定適當?shù)挠柧殧?shù)據(jù)的情況下,我們可以自動生成的程序空間。象征性AI和幾何AI的融合。當代的RNN可以看作是這種混合算法-幾何模型的史前祖先。
超越反向傳播和可微層
如果機器學習模型變得更像程序,那么它們將幾乎不再是可區(qū)分的—當然,這些程序仍將利用連續(xù)的幾何層作為子例程,這將是可區(qū)分的,但整個模型則不會。結(jié)果,使用反向傳播來調(diào)整固定的硬編碼網(wǎng)絡(luò)中的權(quán)重值,將不再是將來訓練模型的首選方法,至少,它不可能是全部。我們需要找出有效地訓練不可微系統(tǒng)的方法。當前的方法包括遺傳算法,“進化策略”,某些強化學習方法和ADMM(乘數(shù)的交替方向方法)。自然,梯度下降無處不在-梯度信息對于優(yōu)化可微分參數(shù)函數(shù)總是有用的。
此外,反向傳播是端到端的,這對于學習良好的鏈式轉(zhuǎn)換是一件好事,但由于它沒有充分利用深度網(wǎng)絡(luò)的模塊化,因此計算效率低下。為了提高效率,有一個通用的方法:引入模塊化和層次結(jié)構(gòu)。因此,我們可以通過引入解耦的訓練模塊以及它們之間的某些同步機制(以分層方式組織)來使反向傳播本身更加高效。這種策略在DeepMind最近關(guān)于“合成梯度”的工作中有所體現(xiàn)。我希望在不久的將來,在這些方面還有更多的工作要做。
可以想象到一個未來,其中將使用不會利用梯度的有效搜索過程來訓練(增長)全局不可微(但具有可區(qū)分部分)的模型,而可利用優(yōu)勢來更快地訓練可區(qū)分部分。使用一些更有效的反向傳播版本的梯度。
自動化機器學習
將來,將學習模型架構(gòu),而不是由工匠手工制作。使用更豐富的原語集和類似程序的機器學習模型,學習體系結(jié)構(gòu)會自動并駕齊驅(qū)。
當前,深度學習工程師的大部分工作包括使用Python腳本處理數(shù)據(jù),然后冗長地調(diào)整深度網(wǎng)絡(luò)的體系結(jié)構(gòu)和超參數(shù),以獲得工作模型,甚至達到最新技術(shù)水平模型,如果工程師如此雄心勃勃。不用說,這不是最佳設(shè)置。但是人工智能也可以提供幫助。不幸的是,數(shù)據(jù)處理部分很難自動化,因為它通常需要領(lǐng)域知識以及對工程師想要達到的目標的清晰的高級理解。但是,超參數(shù)調(diào)整是一個簡單的搜索過程,在這種情況下,我們已經(jīng)知道工程師想要實現(xiàn)的目標:它由要調(diào)整的網(wǎng)絡(luò)的損耗函數(shù)來定義。設(shè)置基本的“ AutoML”已經(jīng)是常見的做法 系統(tǒng)將負責大多數(shù)模型旋鈕的調(diào)整。我甚至在幾年前就成立了自己的公司以贏得Kaggle比賽。
在最基本的層次上,這樣的系統(tǒng)將簡單地調(diào)整堆棧中的層數(shù),其順序以及每一層中的單元或過濾器數(shù)。這通常是使用Hyperopt之類的庫完成的。但是,我們也可以野心勃勃,并嘗試從頭開始學習一種盡可能少的約束的適當架構(gòu)。這可以通過例如強化學習或遺傳算法來實現(xiàn)。AutoML的另一個重要方向是與模型權(quán)重一起學習模型體系結(jié)構(gòu)。因為每次我們嘗試稍有不同的體系結(jié)構(gòu)都從頭開始訓練新模型時,效率非常低下,所以真正強大的AutoML系統(tǒng)將能夠在通過對訓練數(shù)據(jù)進行反向調(diào)整來調(diào)整模型的功能的同時,對體系結(jié)構(gòu)進行改進,因此消除所有計算冗余。在我撰寫這些內(nèi)容時,這種方法已經(jīng)開始出現(xiàn)。
當這種情況開始發(fā)生時,機器學習工程師的工作不會消失,而是工程師將在價值創(chuàng)造鏈中向更高的方向發(fā)展。他們將開始投入更多的精力來構(gòu)建能夠真正反映業(yè)務(wù)目標的復雜損失函數(shù),并深刻理解其模型如何影響部署它們的數(shù)字生態(tài)系統(tǒng)(例如,使用模型預測并生成模型訓練數(shù)據(jù)的用戶) -目前只有最大的公司可以負擔的問題。
終身學習和模塊化子例程重用
如果模型變得更加復雜并且建立在更豐富的算法原語之上,那么這種增加的復雜性將要求任務(wù)之間具有更高的重用性,而不是每當我們有新任務(wù)或新數(shù)據(jù)集時從頭開始訓練新模型。實際上,很多數(shù)據(jù)集將包含的信息不足以從頭開始開發(fā)新的復雜模型,因此有必要利用先前遇到的數(shù)據(jù)集的信息。就像您每次打開一本新書都不會從頭開始學習英語一樣,這是不可能的。此外,由于當前任務(wù)與先前遇到的任務(wù)之間存在大量重疊,因此從頭開始對每個新任務(wù)進行訓練的模型效率非常低下。
另外,近年來反復觀察到的一個顯著發(fā)現(xiàn)是,訓練相同的模型以同時執(zhí)行多個松散連接的任務(wù)會得到一個在每個任務(wù)上都更好的模型。例如,訓練相同的神經(jīng)機器翻譯模型以涵蓋英語到德語的翻譯和法語到意大利語的翻譯,將得到一個在每種語言對上都更好的模型。共同訓練圖像分類模型和圖像分割模型,共享相同的卷積基礎(chǔ),得到的模型在兩個任務(wù)上都更好。等等。這很直觀:總有一些 這些看似脫節(jié)的任務(wù)之間的信息重疊,因此與僅針對特定任務(wù)訓練的模型相比,聯(lián)合模型可以訪問有關(guān)每個單獨任務(wù)的更多信息。
我們目前在跨任務(wù)的模型重用過程中所要做的就是利用預訓練的權(quán)重來執(zhí)行執(zhí)行常見功能(如視覺特征提取)的模型。您將在第5章中看到了這一點。在將來,我希望它的通用版本是司空見慣的:我們不僅將利用先前學習的功能(子模型權(quán)重),還將利用模型架構(gòu)和訓練過程。隨著模型變得更像程序,我們將開始重用程序子例程,例如人類編程語言中的函數(shù)和類。
想想當今的軟件開發(fā)過程:一旦工程師解決了特定的問題(例如,Python中的HTTP查詢),他們就會將其打包為一個抽象且可重用的庫。將來面臨類似問題的工程師可以簡單地搜索現(xiàn)有庫,下載一個庫并在自己的項目中使用它。以類似的方式,將來,元學習系統(tǒng)將能夠通過在高級可重用塊的全局庫中篩選來組裝新程序。當系統(tǒng)發(fā)現(xiàn)自己正在為幾種不同的任務(wù)開發(fā)類似的程序子例程時,如果會想出該子例程的“抽象”可重用版本并將其存儲在全局庫中。這樣的過程將實現(xiàn)抽象能力,是實現(xiàn)“極端泛化”的必要組件:可以說子例程在不同的任務(wù)和領(lǐng)域中都有用,可以說它“抽象”了解決問題的某些方面?!俺橄蟆钡亩x類似于軟件工程中的抽象概念。這些子例程可以是幾何的(具有預訓練表示形式的深度學習模塊),也可以是算法的(更接近于當代軟件工程師操作的庫)。
簡而言之,這是我對機器學習的長期愿景:
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03