美女高潮无套内谢,99精品国产成人一区二区,又色又爽又黄的gif动图

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

深度學(xué)習(xí)之增強(qiáng)遞歸神經(jīng)網(wǎng)絡(luò)來了

2019-10-12

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

作者｜Olah & Carter

編譯｜CDA數(shù)據(jù)分析師

Attention and Augmented Recurrent Neural Networks

循環(huán)神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的主要內(nèi)容之一，允許神經(jīng)網(wǎng)絡(luò)處理文本，音頻和視頻等數(shù)據(jù)序列。它們可用于將序列分解為高級理解，注釋序列，甚至從頭開始生成新序列！

基本的RNN設(shè)計(jì)與較長的序列相悖，但是一種特殊的變體 - “長期短期記憶”網(wǎng)絡(luò) - 甚至可以使用這些。已經(jīng)發(fā)現(xiàn)這樣的模型非常強(qiáng)大，在許多任務(wù)中實(shí)現(xiàn)了顯著的結(jié)果，包括翻譯，語音識別和圖像字幕。結(jié)果，在過去幾年中，遞歸神經(jīng)網(wǎng)絡(luò)變得非常普遍。

在發(fā)生這種情況時(shí)，我們已經(jīng)看到越來越多的嘗試用新屬性來增強(qiáng)RNN。四個(gè)方向特別令人興奮：

單獨(dú)地，這些技術(shù)都是RNN的有力擴(kuò)展，但真正引人注目的是它們可以組合在一起，而且似乎只是在更廣闊的空間中得分。此外，它們都依賴于相同的潛在技巧 - 一種叫做注意力的工作。

我們的猜測是，這些“增強(qiáng)型RNN”將在未來幾年擴(kuò)展深度學(xué)習(xí)能力方面發(fā)揮重要作用。

神經(jīng)圖靈機(jī)

神經(jīng)圖靈機(jī)將RNN與外部存儲器組合在一起。由于向量是神經(jīng)網(wǎng)絡(luò)的自然語言，因此內(nèi)存是向量數(shù)組：

但閱讀和寫作如何運(yùn)作？挑戰(zhàn)在于我們希望使它們具有差異性。特別是，我們希望使它們在我們讀取或?qū)懭氲奈恢梅矫婢哂锌蓞^(qū)分性，以便我們可以了解讀寫的位置。這很棘手，因?yàn)閮?nèi)存地址似乎基本上是離散的。NTM為此采取了一個(gè)非常聰明的解決方案：每一步，它們在任何地方讀寫，只是在不同程度上。

作為一個(gè)例子，讓我們專注于閱讀。RNN不是指定單個(gè)位置，而是輸出“注意力分布”，描述我們?nèi)绾畏稚⑽覀冴P(guān)心不同記憶位置的量。因此，讀取操作的結(jié)果是加權(quán)和。

同樣，我們一次到不同程度地寫到處。同樣，注意力分布描述了我們在每個(gè)位置寫了多少。我們通過使存儲器中的位置的新值成為舊存儲器內(nèi)容和寫入值的凸起組合來實(shí)現(xiàn)這一點(diǎn)，其中兩者之間的位置由注意力量決定。

但是，NTM如何決定將記憶中的哪些位置集中注意力？它們實(shí)際上使用兩種不同方法的組合：基于內(nèi)容的注意力和基于位置的注意力?；趦?nèi)容的關(guān)注允許NTM搜索他們的內(nèi)存并專注于與他們正在尋找的內(nèi)容匹配的位置，而基于位置的注意允許內(nèi)存中的相對移動，使NTM循環(huán)。

這種讀寫功能允許NTM執(zhí)行許多以前超出神經(jīng)網(wǎng)絡(luò)的簡單算法。例如，他們可以學(xué)習(xí)在內(nèi)存中存儲一個(gè)長序列，然后循環(huán)遍歷它，重復(fù)重復(fù)它。當(dāng)他們這樣做時(shí)，我們可以看到他們讀寫的地方，以便更好地了解他們正在做的事情：

他們還可以學(xué)習(xí)模仿查找表，甚至學(xué)習(xí)排序數(shù)字（盡管他們有點(diǎn)欺騙）！另一方面，他們?nèi)匀徊荒茏龊芏嗷镜氖虑?，比如加或加?shù)。

自最初的NTM論文以來，已有許多令人興奮的論文探索類似的方向。神經(jīng)GPU克服了NTM無法增加和增加數(shù)字的問題。 Zaremba和Sutskever 訓(xùn)練NTM使用強(qiáng)化學(xué)習(xí)而不是原始使用的可微分讀/寫。神經(jīng)隨機(jī)存取機(jī)基于指針的工作。一些論文探討了可區(qū)分的數(shù)據(jù)結(jié)構(gòu)，如堆棧和隊(duì)列。和內(nèi)存網(wǎng)絡(luò)是另一種攻擊類似問題的方法。

在某種客觀意義上，這些模型可以執(zhí)行的許多任務(wù) - 例如學(xué)習(xí)如何添加數(shù)字 - 并不客觀地難以實(shí)現(xiàn)。傳統(tǒng)的節(jié)目綜合社區(qū)將在午餐時(shí)吃它們。但是神經(jīng)網(wǎng)絡(luò)還有許多其他功能，像神經(jīng)圖靈機(jī)這樣的模型似乎已經(jīng)對他們的能力產(chǎn)生了極大的限制。

代碼

這些模型有許多開源實(shí)現(xiàn)。神經(jīng)圖靈機(jī)的開源實(shí)現(xiàn)包括Taehoon Kim（TensorFlow），Shawn Tan（Theano），F(xiàn)umin（Go），Kai Sheng Tai（火炬）和Snip（Lasagne）。神經(jīng)GPU出版物的代碼是開源的，并放在TensorFlow模型庫中。Memory Networks的開源實(shí)現(xiàn)包括Facebook（Torch / Matlab），YerevaNN（Theano）和Taehoon Kim（TensorFlow）。

注意接口

當(dāng)我翻譯一個(gè)句子時(shí)，我特別注意我正在翻譯的這個(gè)詞。當(dāng)我正在錄制錄音時(shí)，我會仔細(xì)聆聽我正在積極寫下的片段。如果你讓我描述我正坐在那里的房間，我會瞥一眼我正在描述的物體。

神經(jīng)網(wǎng)絡(luò)可以使用注意力實(shí)現(xiàn)相同的行為，專注于他們給出的信息子集的一部分。例如，RNN可以通過另一個(gè)RNN的輸出參加。在每個(gè)時(shí)間步，它側(cè)重于其他RNN中的不同位置。

我們希望注意力是可以區(qū)分的，這樣我們就可以學(xué)會在哪里集中注意力。要做到這一點(diǎn)，我們使用神經(jīng)圖靈機(jī)使用的相同技巧：我們專注于各處，只是不同程度。

注意力分布通常是基于內(nèi)容的注意力產(chǎn)生的。出席的RNN生成描述其想要關(guān)注的內(nèi)容的查詢。每個(gè)項(xiàng)目都使用查詢進(jìn)行點(diǎn)生成，以生成分?jǐn)?shù)，描述它與查詢的匹配程度。將得分輸入softmax以產(chǎn)生注意力分布。

RNN之間關(guān)注的一個(gè)用途是翻譯。傳統(tǒng)的序列到序列模型必須將整個(gè)輸入分解為單個(gè)向量，然后將其擴(kuò)展回來。注意通過允許RNN處理輸入傳遞關(guān)于它看到的每個(gè)單詞的信息來避免這種情況，然后RNN生成輸出以在它們變得相關(guān)時(shí)關(guān)注單詞。

RNN之間的這種關(guān)注還有許多其他應(yīng)用。它可以用于語音識別，允許一個(gè)RNN處理音頻，然后讓另一個(gè)RNN略過它，在生成成績單時(shí)關(guān)注相關(guān)部分。

這種關(guān)注的其他用途包括解析文本，它允許模型在生成解析樹時(shí)瀏覽單詞，以及進(jìn)行對話建模，它讓模型在生成響應(yīng)時(shí)關(guān)注對話的前面部分。

注意也可以用在卷積神經(jīng)網(wǎng)絡(luò)和RNN之間的接口上。這允許RNN每一步都查看圖像的不同位置。這種關(guān)注的一種流行用途是用于圖像字幕。首先，conv網(wǎng)絡(luò)處理圖像，提取高級特征。然后運(yùn)行RNN，生成圖像的描述。由于它在描述中生成每個(gè)單詞，RNN側(cè)重于conv網(wǎng)對圖像相關(guān)部分的解釋。我們可以明確地想象這個(gè)：

更廣泛地說，只要想要與其輸出中具有重復(fù)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)接口，就可以使用注意界面。

已經(jīng)發(fā)現(xiàn)注意界面是一種非常通用且功能強(qiáng)大的技術(shù)，并且正變得越來越普遍。

自適應(yīng)計(jì)算時(shí)間

標(biāo)準(zhǔn)RNN對每個(gè)時(shí)間步進(jìn)行相同的計(jì)算量。這似乎不直觀。當(dāng)事情艱難時(shí)，人們應(yīng)該多考慮一下嗎？它還限制RNN對長度為n的列表進(jìn)行O（n）運(yùn)算。

自適應(yīng)計(jì)算時(shí)間是RNN每步執(zhí)行不同計(jì)算量的一種方法。全局的想法很簡單：允許RNN為每個(gè)時(shí)間步進(jìn)行多個(gè)計(jì)算步驟。

為了讓網(wǎng)絡(luò)了解要執(zhí)行的步驟數(shù)，我們希望步數(shù)可以區(qū)分。我們使用之前使用的相同技巧實(shí)現(xiàn)了這一點(diǎn)：我們不是決定運(yùn)行一系列離散步驟，而是通過運(yùn)行步驟數(shù)來分配注意力。輸出是每個(gè)步驟的輸出的加權(quán)組合。

還有一些細(xì)節(jié)，在上圖中省略了。這是一個(gè)包含三個(gè)計(jì)算步驟的時(shí)間步驟的完整圖表。

這有點(diǎn)復(fù)雜，所以讓我們一步一步地完成它。在高級別，我們?nèi)栽谶\(yùn)行RNN并輸出狀態(tài)的加權(quán)組合：

每個(gè)步驟的重量由“停止神經(jīng)元”決定。它是一個(gè)S形神經(jīng)元，它看著RNN狀態(tài)并給出一個(gè)停止的重量，我們可以將其視為我們應(yīng)該在該步驟停止的概率。

暫停權(quán)重為1的總預(yù)算，因此我們跟蹤頂部的預(yù)算。當(dāng)它達(dá)到低于epsilon時(shí)，我們停止。

當(dāng)我們停下來時(shí)，可能會有一些剩余的預(yù)算停止，因?yàn)楫?dāng)它達(dá)到低于epsilon時(shí)停止。我們該怎么辦呢？從技術(shù)上講，它將被用于未來的步驟，但我們不想計(jì)算這些步驟，因此我們將其歸因于最后一步。

在訓(xùn)練自適應(yīng)計(jì)算時(shí)間模型時(shí)，可以在成本函數(shù)中添加“思考成本”項(xiàng)。這會使模型對其使用的計(jì)算量進(jìn)行懲罰。你使用這個(gè)術(shù)語越大，就越需要權(quán)衡性能以降低計(jì)算時(shí)間。

自適應(yīng)計(jì)算時(shí)間是一個(gè)非常新的想法，但我們相信它和類似的想法將是非常重要的。

代碼

目前唯一的自適應(yīng)計(jì)算時(shí)間的開源實(shí)現(xiàn)似乎是Mark Neumann（TensorFlow）。

神經(jīng)編輯器

神經(jīng)網(wǎng)絡(luò)在許多任務(wù)中都很出色，但它們也很難做一些基本的事情，比如算法，這在普通的計(jì)算方法中是微不足道的。有一種方法可以將神經(jīng)網(wǎng)絡(luò)與正常編程融合在一起，并獲得兩全其美的效果。

神經(jīng)程序員是一種方法。它學(xué)會創(chuàng)建程序以解決任務(wù)。實(shí)際上，它學(xué)會了生成這樣的程序而不需要正確程序的例子。它發(fā)現(xiàn)如何制作程序作為完成某項(xiàng)任務(wù)的手段。

本文中的實(shí)際模型通過生成類似SQL的程序來查詢表來回答有關(guān)表的問題。然而，這里有許多細(xì)節(jié)使它有點(diǎn)復(fù)雜，所以讓我們首先想象一個(gè)稍微簡單的模型，給出一個(gè)算術(shù)表達(dá)式并生成一個(gè)程序來評估它。

生成的程序是一系列操作。每個(gè)操作都被定義為對過去操作的輸出進(jìn)行操作。因此，操作可能類似于“在前兩步添加操作的輸出和在步驟前添加操作的輸出?！彼袷且粋€(gè)Unix管道，而不是一個(gè)帶有變量分配和讀取的程序。

該程序由控制器RNN一次生成一個(gè)操作。在每個(gè)步驟，控制器RNN輸出下一個(gè)操作應(yīng)該是什么的概率分布。例如，我們可能非常確定我們想要在第一步執(zhí)行添加，然后很難確定我們是否應(yīng)該在第二步增加或分割，依此類推......

現(xiàn)在可以評估由此產(chǎn)生的操作分布。我們不是在每一步都運(yùn)行單個(gè)操作，而是通常運(yùn)行所有這些操作的注意技巧，然后將輸出平均在一起，加權(quán)我們運(yùn)行該操作的概率。

只要我們可以通過操作定義衍生品，程序的輸出就可能性而言是可微的。然后我們可以定義一個(gè)損失，并訓(xùn)練神經(jīng)網(wǎng)絡(luò)以產(chǎn)生能夠給出正確答案的程序。通過這種方式，神經(jīng)程序員學(xué)會了在沒有良好程序?qū)嵗那闆r下編寫程序。唯一的監(jiān)督是該計(jì)劃應(yīng)該產(chǎn)生的答案。

這是神經(jīng)程序員的核心思想，但本文中的版本回答了有關(guān)表格的問題，而不是算術(shù)表達(dá)式。還有一些額外的巧妙技巧：

多種類型：神經(jīng)網(wǎng)絡(luò)編程器中的許多操作都處理標(biāo)量數(shù)以外的類型。某些操作輸出表列的選擇或單元格的選擇。只有相同類型的輸出才能合并在一起。
引用輸入：神經(jīng)程序員需要回答“有多少城市人口超過1,000,000？”這樣的問題，給出一個(gè)有人口列的城市表。為了實(shí)現(xiàn)這一點(diǎn)，一些操作允許網(wǎng)絡(luò)引用他們正在回答的問題中的常量或列的名稱。這種引用以指針網(wǎng)絡(luò)的風(fēng)格引起注意。

神經(jīng)網(wǎng)絡(luò)編程器并不是神經(jīng)網(wǎng)絡(luò)生成程序的唯一方法。另一個(gè)可愛的方法是神經(jīng)程序員 - 解釋器這可以完成許多非常有趣的任務(wù)，但需要以正確程序的形式進(jìn)行監(jiān)督。

我們認(rèn)為，彌合傳統(tǒng)編程和神經(jīng)網(wǎng)絡(luò)之間差距的這個(gè)一般空間非常重要。雖然神經(jīng)網(wǎng)絡(luò)程序員顯然不是最終解決方案，但我們認(rèn)為從中可以學(xué)到很多重要的經(jīng)驗(yàn)教訓(xùn)。

代碼

用于問答的神經(jīng)程序員的最新版本已由作者開源，并以TensorFlow模型的形式提供。Ken Morishita（Keras）還實(shí)現(xiàn)了神經(jīng)程序員 - 解釋器。

總結(jié)

從某種意義上說，擁有一張紙的人比沒有紙的人聰明得多。具有數(shù)學(xué)符號的人可以解決他們本來無法解決的問題。訪問計(jì)算機(jī)使我們能夠獲得令人難以置信的壯舉，否則這些壯舉將遠(yuǎn)遠(yuǎn)超出我們。

一般來說，似乎許多有趣的智力形式是人類的創(chuàng)造性啟發(fā)式直覺與一些更加清晰細(xì)致的媒體（如語言或方程式）之間的相互作用。有時(shí)，媒體是物理存在的東西，為我們存儲信息，防止我們犯錯(cuò)誤，或者計(jì)算繁重。在其他情況下，媒體是我們操縱的頭腦中的模型。無論哪種方式，它似乎對情報(bào)至關(guān)重要。

機(jī)器學(xué)習(xí)的最新成果已經(jīng)開始具有這種風(fēng)格，將神經(jīng)網(wǎng)絡(luò)的直覺與其他東西結(jié)合起來。一種方法是人們稱之為“啟發(fā)式搜索”。例如，AlphaGo有一個(gè)Go如何工作的模型，并探討游戲如何在神經(jīng)網(wǎng)絡(luò)直覺的指導(dǎo)下發(fā)揮作用。同樣，DeepMath使用神經(jīng)網(wǎng)絡(luò)作為操縱數(shù)學(xué)表達(dá)式的直覺。我們在本文中討論的“增強(qiáng)型RNN”是另一種方法，我們將RNN連接到工程媒體，以擴(kuò)展其一般功能。

與媒體互動自然涉及制定一系列行動，觀察和采取更多行動。這帶來了一個(gè)重大挑戰(zhàn)：我們?nèi)绾瘟私獠扇∧男┬袆?？這聽起來像是強(qiáng)化學(xué)習(xí)問題，我們當(dāng)然可以采用這種方法。但強(qiáng)化學(xué)習(xí)文獻(xiàn)實(shí)際上正在攻擊這個(gè)問題的最難版本，其解決方案很難使用。關(guān)注的奇妙之處在于它通過部分地采取不同程度的所有動作，為我們提供了一個(gè)更容易解決這個(gè)問題的方法。這是有效的，因?yàn)槲覀兛梢栽O(shè)計(jì)類似NTM內(nèi)存的媒體 - 允許分?jǐn)?shù)動作并且可以區(qū)分。強(qiáng)化學(xué)習(xí)讓我們走一條路，并嘗試從中學(xué)習(xí)。注意在fork的每個(gè)方向上，然后將路徑合并在一起。

注意力的一個(gè)主要弱點(diǎn)是我們必須在每一步都采取一切“行動”。這會導(dǎo)致計(jì)算成本線性增長，就像增加神經(jīng)圖靈機(jī)中的內(nèi)存量一樣。你能想到的一件事就是讓你的注意力稀少，這樣你只需觸摸一些記憶。然而，它仍然具有挑戰(zhàn)性，因?yàn)槟憧赡芟胍鲆恍┦虑?，比如你的注意力取決于記憶的內(nèi)容，并且天真地強(qiáng)迫你去看每個(gè)記憶。我們已經(jīng)看到了一些初步嘗試來解決這個(gè)問題，例如，但似乎還有很多工作要做。如果我們真的可以讓這種亞線性時(shí)間注意力發(fā)揮作用，那將是非常強(qiáng)大的！

增強(qiáng)型復(fù)現(xiàn)神經(jīng)網(wǎng)絡(luò)以及潛在的注意力技術(shù)令人難以置信。我們期待看到接下來會發(fā)生什么！

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；