99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀深度學(xué)習(xí)之增強(qiáng)遞歸神經(jīng)網(wǎng)絡(luò)來了
深度學(xué)習(xí)之增強(qiáng)遞歸神經(jīng)網(wǎng)絡(luò)來了
2019-10-12
收藏
<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

作者|Olah & Carter

編譯|CDA數(shù)據(jù)分析師

Attention and Augmented Recurrent Neural Networks

循環(huán)神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的主要內(nèi)容之一,允許神經(jīng)網(wǎng)絡(luò)處理文本,音頻和視頻等數(shù)據(jù)序列。它們可用于將序列分解為高級(jí)理解,注釋序列,甚至從頭開始生成新序列!

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

基本的RNN設(shè)計(jì)與較長(zhǎng)的序列相悖,但是一種特殊的變體 - “長(zhǎng)期短期記憶”網(wǎng)絡(luò) - 甚至可以使用這些。已經(jīng)發(fā)現(xiàn)這樣的模型非常強(qiáng)大,在許多任務(wù)中實(shí)現(xiàn)了顯著的結(jié)果,包括翻譯,語(yǔ)音識(shí)別和圖像字幕。結(jié)果,在過去幾年中,遞歸神經(jīng)網(wǎng)絡(luò)變得非常普遍。

在發(fā)生這種情況時(shí),我們已經(jīng)看到越來越多的嘗試用新屬性來增強(qiáng)RNN。四個(gè)方向特別令人興奮:

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

單獨(dú)地,這些技術(shù)都是RNN的有力擴(kuò)展,但真正引人注目的是它們可以組合在一起,而且似乎只是在更廣闊的空間中得分。此外,它們都依賴于相同的潛在技巧 - 一種叫做注意力的工作。

我們的猜測(cè)是,這些“增強(qiáng)型RNN”將在未來幾年擴(kuò)展深度學(xué)習(xí)能力方面發(fā)揮重要作用。

神經(jīng)圖靈機(jī)

神經(jīng)圖靈機(jī)將RNN與外部存儲(chǔ)器組合在一起。由于向量是神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言,因此內(nèi)存是向量數(shù)組:

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

但閱讀和寫作如何運(yùn)作?挑戰(zhàn)在于我們希望使它們具有差異性。特別是,我們希望使它們?cè)谖覀冏x取或?qū)懭氲奈恢梅矫婢哂锌蓞^(qū)分性,以便我們可以了解讀寫的位置。這很棘手,因?yàn)閮?nèi)存地址似乎基本上是離散的。NTM為此采取了一個(gè)非常聰明的解決方案:每一步,它們?cè)谌魏蔚胤阶x寫,只是在不同程度上。

作為一個(gè)例子,讓我們專注于閱讀。RNN不是指定單個(gè)位置,而是輸出“注意力分布”,描述我們?nèi)绾畏稚⑽覀冴P(guān)心不同記憶位置的量。因此,讀取操作的結(jié)果是加權(quán)和。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

同樣,我們一次到不同程度地寫到處。同樣,注意力分布描述了我們?cè)诿總€(gè)位置寫了多少。我們通過使存儲(chǔ)器中的位置的新值成為舊存儲(chǔ)器內(nèi)容和寫入值的凸起組合來實(shí)現(xiàn)這一點(diǎn),其中兩者之間的位置由注意力量決定。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

但是,NTM如何決定將記憶中的哪些位置集中注意力?它們實(shí)際上使用兩種不同方法的組合:基于內(nèi)容的注意力和基于位置的注意力?;趦?nèi)容的關(guān)注允許NTM搜索他們的內(nèi)存并專注于與他們正在尋找的內(nèi)容匹配的位置,而基于位置的注意允許內(nèi)存中的相對(duì)移動(dòng),使NTM循環(huán)。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

這種讀寫功能允許NTM執(zhí)行許多以前超出神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單算法。例如,他們可以學(xué)習(xí)在內(nèi)存中存儲(chǔ)一個(gè)長(zhǎng)序列,然后循環(huán)遍歷它,重復(fù)重復(fù)它。當(dāng)他們這樣做時(shí),我們可以看到他們讀寫的地方,以便更好地了解他們正在做的事情:

他們還可以學(xué)習(xí)模仿查找表,甚至學(xué)習(xí)排序數(shù)字(盡管他們有點(diǎn)欺騙)!另一方面,他們?nèi)匀徊荒茏龊芏嗷镜氖虑?,比如加或加?shù)。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

自最初的NTM論文以來,已有許多令人興奮的論文探索類似的方向。神經(jīng)GPU克服了NTM無(wú)法增加和增加數(shù)字的問題。 Zaremba和Sutskever 訓(xùn)練NTM使用強(qiáng)化學(xué)習(xí)而不是原始使用的可微分讀/寫。神經(jīng)隨機(jī)存取機(jī)基于指針的工作。一些論文探討了可區(qū)分的數(shù)據(jù)結(jié)構(gòu),如堆棧和隊(duì)列。和內(nèi)存網(wǎng)絡(luò)是另一種攻擊類似問題的方法。

在某種客觀意義上,這些模型可以執(zhí)行的許多任務(wù) - 例如學(xué)習(xí)如何添加數(shù)字 - 并不客觀地難以實(shí)現(xiàn)。傳統(tǒng)的節(jié)目綜合社區(qū)將在午餐時(shí)吃它們。但是神經(jīng)網(wǎng)絡(luò)還有許多其他功能,像神經(jīng)圖靈機(jī)這樣的模型似乎已經(jīng)對(duì)他們的能力產(chǎn)生了極大的限制。

代碼

這些模型有許多開源實(shí)現(xiàn)。神經(jīng)圖靈機(jī)的開源實(shí)現(xiàn)包括Taehoon Kim(TensorFlow),Shawn Tan(Theano),F(xiàn)umin(Go),Kai Sheng Tai(火炬)和Snip(Lasagne)。神經(jīng)GPU出版物的代碼是開源的,并放在TensorFlow模型庫(kù)中。Memory Networks的開源實(shí)現(xiàn)包括Facebook(Torch / Matlab),YerevaNN(Theano)和Taehoon Kim(TensorFlow)。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

注意接口

當(dāng)我翻譯一個(gè)句子時(shí),我特別注意我正在翻譯的這個(gè)詞。當(dāng)我正在錄制錄音時(shí),我會(huì)仔細(xì)聆聽我正在積極寫下的片段。如果你讓我描述我正坐在那里的房間,我會(huì)瞥一眼我正在描述的物體。

神經(jīng)網(wǎng)絡(luò)可以使用注意力實(shí)現(xiàn)相同的行為,專注于他們給出的信息子集的一部分。例如,RNN可以通過另一個(gè)RNN的輸出參加。在每個(gè)時(shí)間步,它側(cè)重于其他RNN中的不同位置。

我們希望注意力是可以區(qū)分的,這樣我們就可以學(xué)會(huì)在哪里集中注意力。要做到這一點(diǎn),我們使用神經(jīng)圖靈機(jī)使用的相同技巧:我們專注于各處,只是不同程度。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

注意力分布通常是基于內(nèi)容的注意力產(chǎn)生的。出席的RNN生成描述其想要關(guān)注的內(nèi)容的查詢。每個(gè)項(xiàng)目都使用查詢進(jìn)行點(diǎn)生成,以生成分?jǐn)?shù),描述它與查詢的匹配程度。將得分輸入softmax以產(chǎn)生注意力分布。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

RNN之間關(guān)注的一個(gè)用途是翻譯 。傳統(tǒng)的序列到序列模型必須將整個(gè)輸入分解為單個(gè)向量,然后將其擴(kuò)展回來。注意通過允許RNN處理輸入傳遞關(guān)于它看到的每個(gè)單詞的信息來避免這種情況,然后RNN生成輸出以在它們變得相關(guān)時(shí)關(guān)注單詞。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

RNN之間的這種關(guān)注還有許多其他應(yīng)用。它可以用于語(yǔ)音識(shí)別,允許一個(gè)RNN處理音頻,然后讓另一個(gè)RNN略過它,在生成成績(jī)單時(shí)關(guān)注相關(guān)部分。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

這種關(guān)注的其他用途包括解析文本 ,它允許模型在生成解析樹時(shí)瀏覽單詞,以及進(jìn)行對(duì)話建模 ,它讓模型在生成響應(yīng)時(shí)關(guān)注對(duì)話的前面部分。

注意也可以用在卷積神經(jīng)網(wǎng)絡(luò)RNN之間的接口上。這允許RNN每一步都查看圖像的不同位置。這種關(guān)注的一種流行用途是用于圖像字幕。首先,conv網(wǎng)絡(luò)處理圖像,提取高級(jí)特征。然后運(yùn)行RNN,生成圖像的描述。由于它在描述中生成每個(gè)單詞,RNN側(cè)重于conv網(wǎng)對(duì)圖像相關(guān)部分的解釋。我們可以明確地想象這個(gè):

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

更廣泛地說,只要想要與其輸出中具有重復(fù)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)接口,就可以使用注意界面。

已經(jīng)發(fā)現(xiàn)注意界面是一種非常通用且功能強(qiáng)大的技術(shù),并且正變得越來越普遍。

自適應(yīng)計(jì)算時(shí)間

標(biāo)準(zhǔn)RNN對(duì)每個(gè)時(shí)間步進(jìn)行相同的計(jì)算量。這似乎不直觀。當(dāng)事情艱難時(shí),人們應(yīng)該多考慮一下嗎?它還限制RNN對(duì)長(zhǎng)度為n的列表進(jìn)行O(n)運(yùn)算。

自適應(yīng)計(jì)算時(shí)間是RNN每步執(zhí)行不同計(jì)算量的一種方法。全局的想法很簡(jiǎn)單:允許RNN為每個(gè)時(shí)間步進(jìn)行多個(gè)計(jì)算步驟。

為了讓網(wǎng)絡(luò)了解要執(zhí)行的步驟數(shù),我們希望步數(shù)可以區(qū)分。我們使用之前使用的相同技巧實(shí)現(xiàn)了這一點(diǎn):我們不是決定運(yùn)行一系列離散步驟,而是通過運(yùn)行步驟數(shù)來分配注意力。輸出是每個(gè)步驟的輸出的加權(quán)組合。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

還有一些細(xì)節(jié),在上圖中省略了。這是一個(gè)包含三個(gè)計(jì)算步驟的時(shí)間步驟的完整圖表。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

這有點(diǎn)復(fù)雜,所以讓我們一步一步地完成它。在高級(jí)別,我們?nèi)栽谶\(yùn)行RNN并輸出狀態(tài)的加權(quán)組合:

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

每個(gè)步驟的重量由“停止神經(jīng)元”決定。它是一個(gè)S形神經(jīng)元,它看著RNN狀態(tài)并給出一個(gè)停止的重量,我們可以將其視為我們應(yīng)該在該步驟停止的概率。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

暫停權(quán)重為1的總預(yù)算,因此我們跟蹤頂部的預(yù)算。當(dāng)它達(dá)到低于epsilon時(shí),我們停止。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

當(dāng)我們停下來時(shí),可能會(huì)有一些剩余的預(yù)算停止,因?yàn)楫?dāng)它達(dá)到低于epsilon時(shí)停止。我們?cè)撛趺崔k呢?從技術(shù)上講,它將被用于未來的步驟,但我們不想計(jì)算這些步驟,因此我們將其歸因于最后一步。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

在訓(xùn)練自適應(yīng)計(jì)算時(shí)間模型時(shí),可以在成本函數(shù)中添加“思考成本”項(xiàng)。這會(huì)使模型對(duì)其使用的計(jì)算量進(jìn)行懲罰。你使用這個(gè)術(shù)語(yǔ)越大,就越需要權(quán)衡性能以降低計(jì)算時(shí)間。

自適應(yīng)計(jì)算時(shí)間是一個(gè)非常新的想法,但我們相信它和類似的想法將是非常重要的。

代碼

目前唯一的自適應(yīng)計(jì)算時(shí)間的開源實(shí)現(xiàn)似乎是Mark Neumann(TensorFlow)。

神經(jīng)編輯器

神經(jīng)網(wǎng)絡(luò)在許多任務(wù)中都很出色,但它們也很難做一些基本的事情,比如算法,這在普通的計(jì)算方法中是微不足道的。有一種方法可以將神經(jīng)網(wǎng)絡(luò)與正常編程融合在一起,并獲得兩全其美的效果。

神經(jīng)程序員是一種方法。它學(xué)會(huì)創(chuàng)建程序以解決任務(wù)。實(shí)際上,它學(xué)會(huì)了生成這樣的程序而不需要正確程序的例子。它發(fā)現(xiàn)如何制作程序作為完成某項(xiàng)任務(wù)的手段。

本文中的實(shí)際模型通過生成類似SQL的程序來查詢表來回答有關(guān)表的問題。然而,這里有許多細(xì)節(jié)使它有點(diǎn)復(fù)雜,所以讓我們首先想象一個(gè)稍微簡(jiǎn)單的模型,給出一個(gè)算術(shù)表達(dá)式并生成一個(gè)程序來評(píng)估它。

生成的程序是一系列操作。每個(gè)操作都被定義為對(duì)過去操作的輸出進(jìn)行操作。因此,操作可能類似于“在前兩步添加操作的輸出和在步驟前添加操作的輸出?!彼袷且粋€(gè)Unix管道,而不是一個(gè)帶有變量分配和讀取的程序。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

該程序由控制器RNN一次生成一個(gè)操作。在每個(gè)步驟,控制器RNN輸出下一個(gè)操作應(yīng)該是什么的概率分布。例如,我們可能非常確定我們想要在第一步執(zhí)行添加,然后很難確定我們是否應(yīng)該在第二步增加或分割,依此類推......

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

現(xiàn)在可以評(píng)估由此產(chǎn)生的操作分布。我們不是在每一步都運(yùn)行單個(gè)操作,而是通常運(yùn)行所有這些操作的注意技巧,然后將輸出平均在一起,加權(quán)我們運(yùn)行該操作的概率。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

只要我們可以通過操作定義衍生品,程序的輸出就可能性而言是可微的。然后我們可以定義一個(gè)損失,并訓(xùn)練神經(jīng)網(wǎng)絡(luò)以產(chǎn)生能夠給出正確答案的程序。通過這種方式,神經(jīng)程序員學(xué)會(huì)了在沒有良好程序?qū)嵗那闆r下編寫程序。唯一的監(jiān)督是該計(jì)劃應(yīng)該產(chǎn)生的答案。

這是神經(jīng)程序員的核心思想,但本文中的版本回答了有關(guān)表格的問題,而不是算術(shù)表達(dá)式。還有一些額外的巧妙技巧:

  • 多種類型:神經(jīng)網(wǎng)絡(luò)編程器中的許多操作都處理標(biāo)量數(shù)以外的類型。某些操作輸出表列的選擇或單元格的選擇。只有相同類型的輸出才能合并在一起。
  • 引用輸入:神經(jīng)程序員需要回答“有多少城市人口超過1,000,000?”這樣的問題,給出一個(gè)有人口列的城市表。為了實(shí)現(xiàn)這一點(diǎn),一些操作允許網(wǎng)絡(luò)引用他們正在回答的問題中的常量或列的名稱。這種引用以指針網(wǎng)絡(luò)的風(fēng)格引起注意。

神經(jīng)網(wǎng)絡(luò)編程器并不是神經(jīng)網(wǎng)絡(luò)生成程序的唯一方法。另一個(gè)可愛的方法是神經(jīng)程序員 - 解釋器這可以完成許多非常有趣的任務(wù),但需要以正確程序的形式進(jìn)行監(jiān)督。

我們認(rèn)為,彌合傳統(tǒng)編程和神經(jīng)網(wǎng)絡(luò)之間差距的這個(gè)一般空間非常重要。雖然神經(jīng)網(wǎng)絡(luò)程序員顯然不是最終解決方案,但我們認(rèn)為從中可以學(xué)到很多重要的經(jīng)驗(yàn)教訓(xùn)。

代碼

用于問答的神經(jīng)程序員的最新版本已由作者開源,并以TensorFlow模型的形式提供。Ken Morishita(Keras)還實(shí)現(xiàn)了神經(jīng)程序員 - 解釋器。

<a href='/map/shenduxuexi/' style='color:#000;font-size:inherit;'>深度學(xué)習(xí)</a>之增強(qiáng)遞歸<a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)</a>來了

總結(jié)

從某種意義上說,擁有一張紙的人比沒有紙的人聰明得多。具有數(shù)學(xué)符號(hào)的人可以解決他們本來無(wú)法解決的問題。訪問計(jì)算機(jī)使我們能夠獲得令人難以置信的壯舉,否則這些壯舉將遠(yuǎn)遠(yuǎn)超出我們。

一般來說,似乎許多有趣的智力形式是人類的創(chuàng)造性啟發(fā)式直覺與一些更加清晰細(xì)致的媒體(如語(yǔ)言或方程式)之間的相互作用。有時(shí),媒體是物理存在的東西,為我們存儲(chǔ)信息,防止我們犯錯(cuò)誤,或者計(jì)算繁重。在其他情況下,媒體是我們操縱的頭腦中的模型。無(wú)論哪種方式,它似乎對(duì)情報(bào)至關(guān)重要。

機(jī)器學(xué)習(xí)的最新成果已經(jīng)開始具有這種風(fēng)格,將神經(jīng)網(wǎng)絡(luò)的直覺與其他東西結(jié)合起來。一種方法是人們稱之為“啟發(fā)式搜索”。例如,AlphaGo有一個(gè)Go如何工作的模型,并探討游戲如何在神經(jīng)網(wǎng)絡(luò)直覺的指導(dǎo)下發(fā)揮作用。同樣,DeepMath使用神經(jīng)網(wǎng)絡(luò)作為操縱數(shù)學(xué)表達(dá)式的直覺。我們?cè)诒疚闹杏懻摰摹霸鰪?qiáng)型RNN”是另一種方法,我們將RNN連接到工程媒體,以擴(kuò)展其一般功能。

與媒體互動(dòng)自然涉及制定一系列行動(dòng),觀察和采取更多行動(dòng)。這帶來了一個(gè)重大挑戰(zhàn):我們?nèi)绾瘟私獠扇∧男┬袆?dòng)?這聽起來像是強(qiáng)化學(xué)習(xí)問題,我們當(dāng)然可以采用這種方法。但強(qiáng)化學(xué)習(xí)文獻(xiàn)實(shí)際上正在攻擊這個(gè)問題的最難版本,其解決方案很難使用。關(guān)注的奇妙之處在于它通過部分地采取不同程度的所有動(dòng)作,為我們提供了一個(gè)更容易解決這個(gè)問題的方法。這是有效的,因?yàn)槲覀兛梢栽O(shè)計(jì)類似NTM內(nèi)存的媒體 - 允許分?jǐn)?shù)動(dòng)作并且可以區(qū)分。強(qiáng)化學(xué)習(xí)讓我們走一條路,并嘗試從中學(xué)習(xí)。注意在fork的每個(gè)方向上,然后將路徑合并在一起。

注意力的一個(gè)主要弱點(diǎn)是我們必須在每一步都采取一切“行動(dòng)”。這會(huì)導(dǎo)致計(jì)算成本線性增長(zhǎng),就像增加神經(jīng)圖靈機(jī)中的內(nèi)存量一樣。你能想到的一件事就是讓你的注意力稀少,這樣你只需觸摸一些記憶。然而,它仍然具有挑戰(zhàn)性,因?yàn)槟憧赡芟胍鲆恍┦虑?,比如你的注意力取決于記憶的內(nèi)容,并且天真地強(qiáng)迫你去看每個(gè)記憶。我們已經(jīng)看到了一些初步嘗試來解決這個(gè)問題,例如,但似乎還有很多工作要做。如果我們真的可以讓這種亞線性時(shí)間注意力發(fā)揮作用,那將是非常強(qiáng)大的!

增強(qiáng)型復(fù)現(xiàn)神經(jīng)網(wǎng)絡(luò)以及潛在的注意力技術(shù)令人難以置信。我們期待看到接下來會(huì)發(fā)生什么!

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }