99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

機器學習之深度學習的未來

2019-12-09

<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學習</a>之<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學習</a>的未來

作者 | Francois Chollet

編譯 | CDA數(shù)據(jù)分析師

The future of deep learning

鑒于我們對深網(wǎng)的工作原理，局限性以及研究現(xiàn)狀的了解，我們能否預測中期的發(fā)展方向？這是一些純粹的個人想法。請注意，我沒有水晶球，所以我預期的很多事情都可能無法實現(xiàn)。這是一個完全投機的職位。我之所以分享這些預測，并不是因為我希望它們將來能被證明是完全正確的，而是因為它們在當前很有趣并且可以付諸實踐。

從高層次來看，我看到希望的主要方向是：

通用計算機程序更接近的模型，是建立在比我們當前的可區(qū)分層更豐富的基元之上的，這就是我們將如何推理和抽象的方法，這是當前模型的基本弱點。
使上述一切成為可能的新型學習形式-允許模型脫離可區(qū)分的變換。
不需要人工參與的模型-不斷調(diào)整旋鈕不是您的工作。
更好地，系統(tǒng)地重用以前學習的功能和體系結(jié)構(gòu)；基于可重用和模塊化程序子例程的元學習系統(tǒng)。

此外，請注意，這些注意事項并非到目前為止一直是深度學習的基礎(chǔ)的那種監(jiān)督學習，而是適用于任何形式的機器學習，包括無監(jiān)督，自我監(jiān)督和強化學習。標記的來源或訓練循環(huán)的樣子從根本上來說并不重要；機器學習的這些不同分支只是同一構(gòu)造的不同方面。

模型作為序列模型

正如我們在前一篇文章中指出的那樣，我們可以期望在機器學習領(lǐng)域進行必要的轉(zhuǎn)型發(fā)展，是從執(zhí)行純模式識別并且只能實現(xiàn)局部概括的模型轉(zhuǎn)向具有抽象和推理能力的模型，實現(xiàn)極端概括。當前具有基本推理形式的AI程序都由人類程序員進行硬編碼：例如，依賴于搜索算法，圖操作，形式邏輯的軟件。例如，在DeepMind的AlphaGo中，大多數(shù)“智能”都是由專業(yè)程序員設(shè)計和硬編碼的（例如，蒙特卡洛樹搜索）；從數(shù)據(jù)中學習僅發(fā)生在專門的子模塊（價值網(wǎng)絡(luò)和政策網(wǎng)絡(luò)）中。但是在將來，這樣的AI系統(tǒng)可能會完全被了解，而無需人工參與。

實現(xiàn)這一目標的途徑可能是什么？考慮一種著名的網(wǎng)絡(luò)：RNN。重要的是，與前饋網(wǎng)絡(luò)相比，RNN的限制略少。這是因為RNN不僅僅是幾何變換：它們是在for 循環(huán)內(nèi)重復應(yīng)用的幾何變換。暫時的for循環(huán)本身是由開發(fā)人員進行硬編碼的：它是網(wǎng)絡(luò)的內(nèi)置假設(shè)。自然地，RNN的表示能力仍然受到極大限制，主要是因為它們執(zhí)行的每個步驟仍然只是可微的幾何變換，并且它們從一步到一步傳遞信息的方式是通過連續(xù)幾何空間中的點（狀態(tài)向量）進行的?，F(xiàn)在，想象一下以類似的方式通過編程原語（例如for循環(huán)）來“增強”神經(jīng)網(wǎng)絡(luò)，但不僅僅是for具有硬編碼幾何內(nèi)存的單個硬編碼循環(huán)，而是模型所包含的大量編程原語可以隨意操作以擴展其處理功能，例如if分支，while語句，變量創(chuàng)建，用于長期內(nèi)存的磁盤存儲，排序運算符，高級數(shù)據(jù)結(jié)構(gòu)（如列表，圖形和哈希表）等等。這樣的網(wǎng)絡(luò)可以代表的程序空間將比當前深度學習模型所代表的程序要廣闊得多，并且其中一些程序可以實現(xiàn)更高的泛化能力。

一言以蔽之，我們將擺脫一方面擁有“硬編碼算法智能”（手工軟件），另一方面不再具有“學習幾何智能”（深度學習）的能力。我們將混合使用提供推理和抽象功能的形式化算法模塊和提供非正式直覺和模式識別功能的幾何模塊。整個系統(tǒng)將在幾乎沒有人參與的情況下學習。

我認為AI的一個相關(guān)子領(lǐng)域可能會大有作為，它是程序綜合領(lǐng)域，尤其是神經(jīng)程序綜合領(lǐng)域。程序合成包括通過使用搜索算法（可能是遺傳搜索，如遺傳編程）自動生成簡單程序，以探索大量可能的程序。當找到符合所需規(guī)范的程序時，搜索將停止，該程序通常以一組輸入輸出對的形式提供。正如您所看到的，它是否使人聯(lián)想到機器學習：給定輸入和輸出對提供的“訓練數(shù)據(jù)”，我們找到了一個將輸入與輸出匹配并可以歸納為新輸入的“程序”。不同之處在于，我們生成的不是在硬編碼程序（神經(jīng)網(wǎng)絡(luò)）中學習參數(shù)值通過離散搜索過程獲取源代碼。

我絕對希望這個子領(lǐng)域在未來幾年內(nèi)會引起新的興趣。特別是，我希望在深度學習和程序合成之間出現(xiàn)一個交叉子域，在該領(lǐng)域中，我們不會以通用語言生成程序，而會在其中生成神經(jīng)網(wǎng)絡(luò)（幾何數(shù)據(jù)處理）。流）增加了一組豐富的算法的圖元，如for循環(huán)等等。與直接生成源代碼相比，這應(yīng)該更容易處理和有用，并且它將大大擴展機器學習可以解決的問題的范圍-在給定適當?shù)挠柧殧?shù)據(jù)的情況下，我們可以自動生成的程序空間。象征性AI和幾何AI的融合。當代的RNN可以看作是這種混合算法-幾何模型的史前祖先。

超越反向傳播和可微層

如果機器學習模型變得更像程序，那么它們將幾乎不再是可區(qū)分的—當然，這些程序仍將利用連續(xù)的幾何層作為子例程，這將是可區(qū)分的，但整個模型則不會。結(jié)果，使用反向傳播來調(diào)整固定的硬編碼網(wǎng)絡(luò)中的權(quán)重值，將不再是將來訓練模型的首選方法，至少，它不可能是全部。我們需要找出有效地訓練不可微系統(tǒng)的方法。當前的方法包括遺傳算法，“進化策略”，某些強化學習方法和ADMM（乘數(shù)的交替方向方法）。自然，梯度下降無處不在-梯度信息對于優(yōu)化可微分參數(shù)函數(shù)總是有用的。

此外，反向傳播是端到端的，這對于學習良好的鏈式轉(zhuǎn)換是一件好事，但由于它沒有充分利用深度網(wǎng)絡(luò)的模塊化，因此計算效率低下。為了提高效率，有一個通用的方法：引入模塊化和層次結(jié)構(gòu)。因此，我們可以通過引入解耦的訓練模塊以及它們之間的某些同步機制（以分層方式組織）來使反向傳播本身更加高效。這種策略在DeepMind最近關(guān)于“合成梯度”的工作中有所體現(xiàn)。我希望在不久的將來，在這些方面還有更多的工作要做。

可以想象到一個未來，其中將使用不會利用梯度的有效搜索過程來訓練（增長）全局不可微（但具有可區(qū)分部分）的模型，而可利用優(yōu)勢來更快地訓練可區(qū)分部分。使用一些更有效的反向傳播版本的梯度。

自動化機器學習

將來，將學習模型架構(gòu)，而不是由工匠手工制作。使用更豐富的原語集和類似程序的機器學習模型，學習體系結(jié)構(gòu)會自動并駕齊驅(qū)。

當前，深度學習工程師的大部分工作包括使用Python腳本處理數(shù)據(jù)，然后冗長地調(diào)整深度網(wǎng)絡(luò)的體系結(jié)構(gòu)和超參數(shù)，以獲得工作模型，甚至達到最新技術(shù)水平模型，如果工程師如此雄心勃勃。不用說，這不是最佳設(shè)置。但是人工智能也可以提供幫助。不幸的是，數(shù)據(jù)處理部分很難自動化，因為它通常需要領(lǐng)域知識以及對工程師想要達到的目標的清晰的高級理解。但是，超參數(shù)調(diào)整是一個簡單的搜索過程，在這種情況下，我們已經(jīng)知道工程師想要實現(xiàn)的目標：它由要調(diào)整的網(wǎng)絡(luò)的損耗函數(shù)來定義。設(shè)置基本的“ AutoML”已經(jīng)是常見的做法系統(tǒng)將負責大多數(shù)模型旋鈕的調(diào)整。我甚至在幾年前就成立了自己的公司以贏得Kaggle比賽。

在最基本的層次上，這樣的系統(tǒng)將簡單地調(diào)整堆棧中的層數(shù)，其順序以及每一層中的單元或過濾器數(shù)。這通常是使用Hyperopt之類的庫完成的。但是，我們也可以野心勃勃，并嘗試從頭開始學習一種盡可能少的約束的適當架構(gòu)。這可以通過例如強化學習或遺傳算法來實現(xiàn)。AutoML的另一個重要方向是與模型權(quán)重一起學習模型體系結(jié)構(gòu)。因為每次我們嘗試稍有不同的體系結(jié)構(gòu)都從頭開始訓練新模型時，效率非常低下，所以真正強大的AutoML系統(tǒng)將能夠在通過對訓練數(shù)據(jù)進行反向調(diào)整來調(diào)整模型的功能的同時，對體系結(jié)構(gòu)進行改進，因此消除所有計算冗余。在我撰寫這些內(nèi)容時，這種方法已經(jīng)開始出現(xiàn)。

當這種情況開始發(fā)生時，機器學習工程師的工作不會消失，而是工程師將在價值創(chuàng)造鏈中向更高的方向發(fā)展。他們將開始投入更多的精力來構(gòu)建能夠真正反映業(yè)務(wù)目標的復雜損失函數(shù)，并深刻理解其模型如何影響部署它們的數(shù)字生態(tài)系統(tǒng)（例如，使用模型預測并生成模型訓練數(shù)據(jù)的用戶） -目前只有最大的公司可以負擔的問題。

終身學習和模塊化子例程重用

如果模型變得更加復雜并且建立在更豐富的算法原語之上，那么這種增加的復雜性將要求任務(wù)之間具有更高的重用性，而不是每當我們有新任務(wù)或新數(shù)據(jù)集時從頭開始訓練新模型。實際上，很多數(shù)據(jù)集將包含的信息不足以從頭開始開發(fā)新的復雜模型，因此有必要利用先前遇到的數(shù)據(jù)集的信息。就像您每次打開一本新書都不會從頭開始學習英語一樣，這是不可能的。此外，由于當前任務(wù)與先前遇到的任務(wù)之間存在大量重疊，因此從頭開始對每個新任務(wù)進行訓練的模型效率非常低下。

另外，近年來反復觀察到的一個顯著發(fā)現(xiàn)是，訓練相同的模型以同時執(zhí)行多個松散連接的任務(wù)會得到一個在每個任務(wù)上都更好的模型。例如，訓練相同的神經(jīng)機器翻譯模型以涵蓋英語到德語的翻譯和法語到意大利語的翻譯，將得到一個在每種語言對上都更好的模型。共同訓練圖像分類模型和圖像分割模型，共享相同的卷積基礎(chǔ)，得到的模型在兩個任務(wù)上都更好。等等。這很直觀：總有一些這些看似脫節(jié)的任務(wù)之間的信息重疊，因此與僅針對特定任務(wù)訓練的模型相比，聯(lián)合模型可以訪問有關(guān)每個單獨任務(wù)的更多信息。

我們目前在跨任務(wù)的模型重用過程中所要做的就是利用預訓練的權(quán)重來執(zhí)行執(zhí)行常見功能（如視覺特征提取）的模型。您將在第5章中看到了這一點。在將來，我希望它的通用版本是司空見慣的：我們不僅將利用先前學習的功能（子模型權(quán)重），還將利用模型架構(gòu)和訓練過程。隨著模型變得更像程序，我們將開始重用程序子例程，例如人類編程語言中的函數(shù)和類。

想想當今的軟件開發(fā)過程：一旦工程師解決了特定的問題（例如，Python中的HTTP查詢），他們就會將其打包為一個抽象且可重用的庫。將來面臨類似問題的工程師可以簡單地搜索現(xiàn)有庫，下載一個庫并在自己的項目中使用它。以類似的方式，將來，元學習系統(tǒng)將能夠通過在高級可重用塊的全局庫中篩選來組裝新程序。當系統(tǒng)發(fā)現(xiàn)自己正在為幾種不同的任務(wù)開發(fā)類似的程序子例程時，如果會想出該子例程的“抽象”可重用版本并將其存儲在全局庫中。這樣的過程將實現(xiàn)抽象能力，是實現(xiàn)“極端泛化”的必要組件：可以說子例程在不同的任務(wù)和領(lǐng)域中都有用，可以說它“抽象”了解決問題的某些方面?！俺橄蟆钡亩x類似于軟件工程中的抽象概念。這些子例程可以是幾何的（具有預訓練表示形式的深度學習模塊），也可以是算法的（更接近于當代軟件工程師操作的庫）。

總結(jié)：長期愿景

簡而言之，這是我對機器學習的長期愿景：

模型將更像程序，并且將具有遠遠超出我們當前使用的輸入數(shù)據(jù)的連續(xù)幾何變換的功能?？梢哉f，這些程序?qū)⒏咏祟悓χ車h(huán)境和自身所維護的抽象心理模型，并且由于其豐富的算法性質(zhì)，它們將具有更強的概括能力。
具體而言，模型將混合提供正式推理，搜索和抽象功能的算法模塊，以及提供非正式直覺和模式識別功能的幾何模塊。AlphaGo（需要大量手動軟件工程和人為設(shè)計決策的系統(tǒng)）提供了一個早期示例，說明了將符號AI與幾何AI融合在一起的樣子。
它們將使用存儲在可重用子例程的全局庫中的模塊化零件自動生長，而不是由人工工程師手工生成，該庫是通過在數(shù)千個以前的任務(wù)和數(shù)據(jù)集上學習高性能模型而演變而來的。當元學習系統(tǒng)識別出常見的問題解決模式時，它們將變成可重用的子例程（很像現(xiàn)代軟件工程中的函數(shù)和類），并添加到全局庫中。這樣就實現(xiàn)了抽象的能力。
這個全局庫和相關(guān)的模型生長系統(tǒng)將能夠?qū)崿F(xiàn)某種形式的類似于人類的“極端概括”：給定新任務(wù)，新情況，系統(tǒng)將能夠使用以下方法組裝適合該任務(wù)的新工作模型少有數(shù)據(jù)，這要歸功于1）可以很好地泛化豐富的類似于程序的原語，以及2）具有類似任務(wù)的豐富經(jīng)驗。就像人類可以花很少的時間學習玩復雜的新視頻游戲一樣，因為他們有很多以前的游戲的經(jīng)驗，并且因為從以前的經(jīng)驗中獲得的模型是抽象的和程序式的，而不是基本的映射在刺激和行動之間。
這樣，這種永生學習的模型生成系統(tǒng)可以解釋為AGI（人工通用智能）。但是不要指望會出現(xiàn)任何奇特的機器人世界末日：這純屬幻想，源于對智能和技術(shù)的長期深刻誤解。但是，這種批評不屬于這里。