中国精品18videosex性中国,bt√天堂资源在线官网

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

Cerebras首席執(zhí)行官談公司大芯片對(duì)機(jī)器學(xué)習(xí)的重大影響

2019-11-14

Cerebras首席執(zhí)行官談公司大芯片對(duì)<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>的重大影響

作者 | Tiernan Ray

編譯 | CDA數(shù)據(jù)分析師

硅谷創(chuàng)業(yè)公司Cerebras Systems周一推出了世界上最大的專為AI設(shè)計(jì)的芯片。Cerebras首席執(zhí)行官兼聯(lián)合創(chuàng)始人Andrew Feldman與ZDNet討論了深度學(xué)習(xí)網(wǎng)絡(luò)培訓(xùn)的一些含義。

你可能聽(tīng)說(shuō)過(guò)，周一，硅谷創(chuàng)業(yè)公司Cerebras Systems 推出了世界上最大的芯片，稱為WSE，或稱為“晶圓級(jí)發(fā)動(dòng)機(jī)”，發(fā)音為“明智的”。它將被構(gòu)建到Cerebras銷售的完整計(jì)算系統(tǒng)中。

您可能不知道的是，WSE及其制作的系統(tǒng)對(duì)AI的深度學(xué)習(xí)形式有一些有趣的含義，而不僅僅是加速計(jì)算。 Cerebras的聯(lián)合創(chuàng)始人兼首席執(zhí)行官安德魯·費(fèi)爾德曼（Andrew Feldman）與ZDNet討論了深度學(xué)習(xí)中可能發(fā)生的變化。

到目前為止，我們對(duì)WSE的了解有三個(gè)直接影響。首先，深度網(wǎng)絡(luò)的一個(gè)重要方面，即“規(guī)范化”，可能會(huì)得到徹底改革。其次，處理個(gè)別數(shù)據(jù)點(diǎn)而不是群體或“批量”的“稀疏性”概念可能在深度學(xué)習(xí)中扮演更重要的角色。第三，隨著人們開(kāi)始考慮WSE系統(tǒng)的發(fā)展，更多有趣的并行處理形式可能成為迄今為止的情況。

所有這些都代表了費(fèi)爾德曼所說(shuō)的硬件解放設(shè)計(jì)選擇和深度學(xué)習(xí)實(shí)驗(yàn)。

Cerebras的“晶圓級(jí)引擎”與Nvidia的頂級(jí)圖形處理單元相比，“V100”在深度學(xué)習(xí)培訓(xùn)中很

“我們很自豪能夠大大加速現(xiàn)有的，開(kāi)拓性的Hinton，Bengio和LeCun模式，”Feldman說(shuō)，他指的是三位深度學(xué)習(xí)先鋒，他們因深度學(xué)習(xí)而獲得ACM圖靈獎(jiǎng)，Geoffrey Hinton，Yoshua Bengio和Yann LeCun。

“但最有趣的是尚未開(kāi)發(fā)的新車型，”他補(bǔ)充道。

“可以訓(xùn)練的模型世界的大小非常大，”費(fèi)爾德曼觀察到，“但在GPU上運(yùn)行良好的子集非常小，而且到目前為止，事情一直是關(guān)注的地方，”指的是Nvidia的圖形處理芯片是深度學(xué)習(xí)培訓(xùn)的主要計(jì)算設(shè)備。

第一個(gè)跡象表明，Cerebras發(fā)生了一些非常有趣的事情，5月份由Vitaliy Chiley和Cerebras的同事在arXiv預(yù)打印服務(wù)器上發(fā)布了一篇文章，名為“培訓(xùn)神經(jīng)網(wǎng)絡(luò)的在線規(guī)范化”。在那篇論文中，作者提出了對(duì)機(jī)器學(xué)習(xí)網(wǎng)絡(luò)建立方式的改變，稱為規(guī)范化。

歸一化是一種處理所有統(tǒng)計(jì)系統(tǒng)面臨的問(wèn)題的技術(shù)：協(xié)變量變換。用于訓(xùn)練統(tǒng)計(jì)程序的數(shù)據(jù)被假定為與訓(xùn)練有素的統(tǒng)計(jì)模型將遇到的現(xiàn)實(shí)世界中的數(shù)據(jù)基本相似。分類器在野外遇到的貓和狗的圖片應(yīng)該與訓(xùn)練數(shù)據(jù)中遇到的圖片類似。但是，訓(xùn)練中的自變量，“協(xié)變量”和野外實(shí)際數(shù)據(jù)中的自變量之間存在差異。這構(gòu)成了分配的轉(zhuǎn)變。

谷歌科學(xué)家Sergey Ioffe和Christian Szegedy 在2015年的一篇論文中指出協(xié)變量轉(zhuǎn)移也發(fā)生在網(wǎng)絡(luò)內(nèi)部。當(dāng)每個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)退出網(wǎng)絡(luò)的一層中的激活單元時(shí)，網(wǎng)絡(luò)參數(shù)已經(jīng)從該數(shù)據(jù)點(diǎn)進(jìn)入網(wǎng)絡(luò)時(shí)轉(zhuǎn)換了該數(shù)據(jù)點(diǎn)。結(jié)果，數(shù)據(jù)的分布由網(wǎng)絡(luò)的連續(xù)層轉(zhuǎn)換 - 以至于它變得與訓(xùn)練數(shù)據(jù)的原始統(tǒng)計(jì)數(shù)據(jù)不同。這可能導(dǎo)致網(wǎng)絡(luò)培訓(xùn)不良。

Ioffe和Szegedy稱這種變化是“內(nèi)部協(xié)變量轉(zhuǎn)變”。為了解決這個(gè)問(wèn)題，他們提出了所謂的“批量標(biāo)準(zhǔn)化”。在批量規(guī)范中，如已知的那樣，將新的處理層插入到網(wǎng)絡(luò)中。它使用的事實(shí)是，數(shù)據(jù)樣本在所謂的“小批量”處理，同時(shí)由芯片處理的幾個(gè)數(shù)據(jù)樣本的分組。芯片統(tǒng)計(jì)批次，均值和方差，尤其是整個(gè)數(shù)據(jù)集中統(tǒng)計(jì)數(shù)據(jù)的近似值。然后，它將單個(gè)數(shù)據(jù)點(diǎn)的值調(diào)整為更符合這些批次統(tǒng)計(jì)數(shù)據(jù)，作為一種方法，將樣本輕推回與人口的“真實(shí)”分布一致。

批量規(guī)范在加快培訓(xùn)時(shí)間方面具有優(yōu)勢(shì)，但存在問(wèn)題。首先，它可以顯著增加計(jì)算系統(tǒng)中使用的內(nèi)存。另一方面，它可能會(huì)在數(shù)據(jù)中引入偏差，因?yàn)橛糜谟?jì)算均值和方差的小批量樣本不一定是整個(gè)群體中數(shù)據(jù)分布的很大近似值。當(dāng)受過(guò)訓(xùn)練的網(wǎng)絡(luò)遇到真實(shí)世界數(shù)據(jù)時(shí)，這可能意味著問(wèn)題，另一個(gè)協(xié)變量變化。多年來(lái)提出了許多后續(xù)方法來(lái)改進(jìn)，例如“層規(guī)范化”，“組規(guī)范化”，“權(quán)重規(guī)范化”，甚至“重新規(guī)范化”。

現(xiàn)在，Cerebras的團(tuán)隊(duì)決定提出替代方案。Cerebras科學(xué)家不是使用批次，而是建議跟蹤單個(gè)樣本，并“將整個(gè)數(shù)據(jù)集上的算術(shù)平均值替換為在線樣本的指數(shù)衰減平均值?！?該過(guò)程在下圖中的網(wǎng)絡(luò)圖中說(shuō)明。在對(duì)ImageNet等的測(cè)試中，作者認(rèn)為在線規(guī)范化“與大規(guī)模網(wǎng)絡(luò)的最佳規(guī)范化器競(jìng)爭(zhēng)性地發(fā)揮作用”。（ZDNet向Google的Ioffe發(fā)表了評(píng)論，但他拒絕發(fā)表評(píng)論。）

Vitaliy Chiley及其同事在Cerebras提出的“在線標(biāo)準(zhǔn)化”圖表，作為批量標(biāo)準(zhǔn)化的替代

WSE不會(huì)自動(dòng)關(guān)閉批量規(guī)范; 它是一個(gè)可以在處理器中設(shè)置的標(biāo)志。WSE旨在運(yùn)行在TensorFlow或PyTorch和其他框架中創(chuàng)建的任何現(xiàn)有神經(jīng)網(wǎng)絡(luò)，并且它將適應(yīng)批處理規(guī)范。

雖然僅僅是WSE芯片的一個(gè)選項(xiàng)，但在線標(biāo)準(zhǔn)化指出了一種可能的方式，即遠(yuǎn)離費(fèi)爾德曼多年來(lái)用神奇網(wǎng)絡(luò)來(lái)哄騙神經(jīng)網(wǎng)絡(luò)以取悅Nvidia等圖形處理器。

費(fèi)爾德曼說(shuō)：“問(wèn)題一直受到攻擊的方式已經(jīng)聚集在他們周圍，一整套密封蠟和繩子以及糾正弱點(diǎn)的方法很少?！?“他們似乎幾乎要求你按照GPU讓你工作的方式工作?！?/span>

Feldman指出批量是GPU的并行處理形式的工件?！跋胂霝槭裁创笈砍霈F(xiàn)在一開(kāi)始，”他說(shuō)?！?a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)中的基本數(shù)學(xué)是一個(gè)向量乘以矩陣?！?但是，“如果你這樣做，它會(huì)使GPU的利用率非常低，比如幾個(gè)百分點(diǎn)的利用，這真的很糟糕?！?/span>

因此，建議使用批處理來(lái)填充GPU的操作流程?！八麄兯龅氖撬麄儗⑹噶刊B加在一起，形成一個(gè)矩陣逐個(gè)矩陣，這些矢量的疊加就是所謂的小批量。”

所有這些意味著批處理“不是由機(jī)器學(xué)習(xí)理論驅(qū)動(dòng)的，它們是由實(shí)現(xiàn)GPU的一些利用的需要驅(qū)動(dòng)的;我們將神經(jīng)網(wǎng)絡(luò)思維彎曲到非常特定的硬件架構(gòu)的需求，但是那是落后的。“

“我們最興奮的事情之一是，WSE允許你深入學(xué)習(xí)深度學(xué)習(xí)的方式，而不是在特定的架構(gòu)中進(jìn)行深入學(xué)習(xí)，”費(fèi)爾德曼說(shuō)。

WSE適用于所謂的小批量，或者實(shí)際上是“批量大小”。WSE沒(méi)有通過(guò)每個(gè)可用電路干擾大量樣本，而是具有硬連線電路，該電路僅在檢測(cè)到具有非零值的單個(gè)樣本時(shí)才開(kāi)始計(jì)算。

Cerebras Systems聯(lián)合創(chuàng)始人兼首席執(zhí)行官Andrew Feldman,蒂爾南雷

費(fèi)爾德曼認(rèn)為，對(duì)稀疏信號(hào)的關(guān)注是對(duì)運(yùn)行多個(gè)樣本的“數(shù)據(jù)并行性”的譴責(zé)，這再次是GPU的時(shí)代錯(cuò)誤。“數(shù)據(jù)并行意味著您的個(gè)人指令將同時(shí)應(yīng)用于多個(gè)數(shù)據(jù)，包括它們是否為0，如果它們永遠(yuǎn)不是零，則是完美的，如圖形中所示。 “但是當(dāng)高達(dá)80％為零時(shí)，就像神經(jīng)網(wǎng)絡(luò)一樣，它根本不聰明 - 這并不明智?！?他指出，在普通神經(jīng)網(wǎng)絡(luò)中，人工神經(jīng)元最常見(jiàn)的激活單元“ReLU”具有“80％零作為輸出”。

能夠處理稀疏信號(hào)似乎是深度學(xué)習(xí)的重要方向。在2月舉行的籌碼會(huì)議上，F(xiàn)acebook負(fù)責(zé)人工智能研究的負(fù)責(zé)人Yann LeCun指出，“隨著DL系統(tǒng)規(guī)模的擴(kuò)大，模塊的激活可能會(huì)變得越來(lái)越稀疏，只有任何一次激活的模塊子集的變量子集。“

LeCun認(rèn)為，這更接近大腦的運(yùn)作方式?！安恍业氖?，使用當(dāng)前的硬件，批處理使我們能夠?qū)⒋蠖鄶?shù)低級(jí)神經(jīng)網(wǎng)絡(luò)操作減少到矩陣產(chǎn)品，從而降低內(nèi)存訪問(wèn)計(jì)算比率，”他說(shuō)，與Feldman呼應(yīng)。

“因此，我們需要新的硬件架構(gòu)，這些架構(gòu)可以在批量大小為1的情況下高效運(yùn)行。”

如果GPU的傳統(tǒng)數(shù)據(jù)并行性不是最優(yōu)的，F(xiàn)eldman認(rèn)為WSE使得并行處理的復(fù)興成為可能。特別是，可以探索另一種并行性，稱為“模型并行性”，其中深度學(xué)習(xí)的網(wǎng)絡(luò)圖的單獨(dú)部分被分配到芯片的不同區(qū)域并且并行運(yùn)行。

“更有趣的是分割工作，以便你的400,000個(gè)核心中的一些在一個(gè)層上工作，一些在下一層上工作，一些在第三層上工作，依此類推，以便所有層都在工作中平行，“他沉思道。他說(shuō)，其中一個(gè)影響就是大大增加了神經(jīng)網(wǎng)絡(luò)可以處理的參數(shù)狀態(tài)的大小。根據(jù)GPU的數(shù)據(jù)并行性，任何一個(gè)GPU都可能能夠處理一百萬(wàn)個(gè)參數(shù)?！叭绻惆褍蓚€(gè)GPU放在一起[在多處理系統(tǒng)中]，你會(huì)得到兩臺(tái)可以處理一百萬(wàn)個(gè)參數(shù)的機(jī)器，”他解釋說(shuō)，“但是沒(méi)有一臺(tái)可以處理200萬(wàn)個(gè)參數(shù)的機(jī)器 - 你沒(méi)有得到一個(gè)雙?！?/span>

使用單個(gè)WSE，可以支持40億個(gè)參數(shù)模型。他建議將機(jī)器集中在一起，“你現(xiàn)在可以解決80億或160億參數(shù)網(wǎng)絡(luò)，因此它可以讓你通過(guò)增加資源來(lái)解決更大的問(wèn)題?！?/span>

費(fèi)爾德曼認(rèn)為像稀疏性和模型并行性這樣的東西采用的神經(jīng)網(wǎng)絡(luò)“超出了創(chuàng)始人20或30年前給我們的意義”，意思是，Hinton，Bengio和Lecun?，F(xiàn)代網(wǎng)絡(luò)，如谷歌的“變形金剛”，他說(shuō)，已經(jīng)“在他們的TPU集群中考慮大量計(jì)算”，指的是谷歌開(kāi)發(fā)的“Tensor Processing Unit”芯片。

“硬件正在扭曲我們行業(yè)的進(jìn)步，”他是如何總結(jié)最先進(jìn)的?！爱?dāng)硬件的局限性使我們無(wú)法探索肥沃的區(qū)域時(shí)，這就是我們想要改變的東西;硬件不應(yīng)該妨礙你的探索，它不應(yīng)該驅(qū)使你采用一些技術(shù)，如大批量。

“硬件應(yīng)該成為你的思維能夠形成的平臺(tái)?！?/span>

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；