
作者 | Tiernan Ray
編譯 | CDA數(shù)據(jù)分析師
硅谷創(chuàng)業(yè)公司Cerebras Systems周一推出了世界上最大的專為AI設(shè)計(jì)的芯片。Cerebras首席執(zhí)行官兼聯(lián)合創(chuàng)始人Andrew Feldman與ZDNet討論了深度學(xué)習(xí)網(wǎng)絡(luò)培訓(xùn)的一些含義。
你可能聽(tīng)說(shuō)過(guò),周一,硅谷創(chuàng)業(yè)公司Cerebras Systems 推出了世界上最大的芯片,稱為WSE,或稱為“晶圓級(jí)發(fā)動(dòng)機(jī)”,發(fā)音為“明智的”。它將被構(gòu)建到Cerebras銷售的完整計(jì)算系統(tǒng)中。
您可能不知道的是,WSE及其制作的系統(tǒng)對(duì)AI的深度學(xué)習(xí)形式有一些有趣的含義,而不僅僅是加速計(jì)算。 Cerebras的聯(lián)合創(chuàng)始人兼首席執(zhí)行官安德魯·費(fèi)爾德曼(Andrew Feldman)與ZDNet討論了深度學(xué)習(xí)中可能發(fā)生的變化。
到目前為止,我們對(duì)WSE的了解有三個(gè)直接影響。首先,深度網(wǎng)絡(luò)的一個(gè)重要方面,即“規(guī)范化”,可能會(huì)得到徹底改革。其次,處理個(gè)別數(shù)據(jù)點(diǎn)而不是群體或“批量”的“稀疏性”概念可能在深度學(xué)習(xí)中扮演更重要的角色。第三,隨著人們開(kāi)始考慮WSE系統(tǒng)的發(fā)展,更多有趣的并行處理形式可能成為迄今為止的情況。
所有這些都代表了費(fèi)爾德曼所說(shuō)的硬件解放設(shè)計(jì)選擇和深度學(xué)習(xí)實(shí)驗(yàn)。
Cerebras的“晶圓級(jí)引擎”與Nvidia的頂級(jí)圖形處理單元相比,“V100”在深度學(xué)習(xí)培訓(xùn)中很
“我們很自豪能夠大大加速現(xiàn)有的,開(kāi)拓性的Hinton,Bengio和LeCun模式,”Feldman說(shuō),他指的是三位深度學(xué)習(xí)先鋒,他們因深度學(xué)習(xí)而獲得ACM圖靈獎(jiǎng),Geoffrey Hinton,Yoshua Bengio和Yann LeCun。
“但最有趣的是尚未開(kāi)發(fā)的新車型,”他補(bǔ)充道。
“可以訓(xùn)練的模型世界的大小非常大,”費(fèi)爾德曼觀察到,“但在GPU上運(yùn)行良好的子集非常小,而且到目前為止,事情一直是關(guān)注的地方,”指的是Nvidia的圖形處理芯片是深度學(xué)習(xí)培訓(xùn)的主要計(jì)算設(shè)備。
第一個(gè)跡象表明,Cerebras發(fā)生了一些非常有趣的事情,5月份由Vitaliy Chiley和Cerebras的同事在arXiv預(yù)打印服務(wù)器上發(fā)布了一篇文章,名為“培訓(xùn)神經(jīng)網(wǎng)絡(luò)的在線規(guī)范化”。在那篇論文中,作者提出了對(duì)機(jī)器學(xué)習(xí)網(wǎng)絡(luò)建立方式的改變,稱為規(guī)范化。
歸一化是一種處理所有統(tǒng)計(jì)系統(tǒng)面臨的問(wèn)題的技術(shù):協(xié)變量變換。用于訓(xùn)練統(tǒng)計(jì)程序的數(shù)據(jù)被假定為與訓(xùn)練有素的統(tǒng)計(jì)模型將遇到的現(xiàn)實(shí)世界中的數(shù)據(jù)基本相似。分類器在野外遇到的貓和狗的圖片應(yīng)該與訓(xùn)練數(shù)據(jù)中遇到的圖片類似。但是,訓(xùn)練中的自變量,“協(xié)變量”和野外實(shí)際數(shù)據(jù)中的自變量之間存在差異。這構(gòu)成了分配的轉(zhuǎn)變。
谷歌科學(xué)家Sergey Ioffe和Christian Szegedy 在2015年的一篇論文中指出協(xié)變量轉(zhuǎn)移也發(fā)生在網(wǎng)絡(luò)內(nèi)部。當(dāng)每個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)退出網(wǎng)絡(luò)的一層中的激活單元時(shí),網(wǎng)絡(luò)參數(shù)已經(jīng)從該數(shù)據(jù)點(diǎn)進(jìn)入網(wǎng)絡(luò)時(shí)轉(zhuǎn)換了該數(shù)據(jù)點(diǎn)。結(jié)果,數(shù)據(jù)的分布由網(wǎng)絡(luò)的連續(xù)層轉(zhuǎn)換 - 以至于它變得與訓(xùn)練數(shù)據(jù)的原始統(tǒng)計(jì)數(shù)據(jù)不同。這可能導(dǎo)致網(wǎng)絡(luò)培訓(xùn)不良。
Ioffe和Szegedy稱這種變化是“內(nèi)部協(xié)變量轉(zhuǎn)變”。為了解決這個(gè)問(wèn)題,他們提出了所謂的“批量標(biāo)準(zhǔn)化”。在批量規(guī)范中,如已知的那樣,將新的處理層插入到網(wǎng)絡(luò)中。它使用的事實(shí)是,數(shù)據(jù)樣本在所謂的“小批量”處理,同時(shí)由芯片處理的幾個(gè)數(shù)據(jù)樣本的分組。芯片統(tǒng)計(jì)批次,均值和方差,尤其是整個(gè)數(shù)據(jù)集中統(tǒng)計(jì)數(shù)據(jù)的近似值。然后,它將單個(gè)數(shù)據(jù)點(diǎn)的值調(diào)整為更符合這些批次統(tǒng)計(jì)數(shù)據(jù),作為一種方法,將樣本輕推回與人口的“真實(shí)”分布一致。
批量規(guī)范在加快培訓(xùn)時(shí)間方面具有優(yōu)勢(shì),但存在問(wèn)題。首先,它可以顯著增加計(jì)算系統(tǒng)中使用的內(nèi)存。另一方面,它可能會(huì)在數(shù)據(jù)中引入偏差,因?yàn)橛糜谟?jì)算均值和方差的小批量樣本不一定是整個(gè)群體中數(shù)據(jù)分布的很大近似值。當(dāng)受過(guò)訓(xùn)練的網(wǎng)絡(luò)遇到真實(shí)世界數(shù)據(jù)時(shí),這可能意味著問(wèn)題,另一個(gè)協(xié)變量變化。多年來(lái)提出了許多后續(xù)方法來(lái)改進(jìn),例如“層規(guī)范化”,“組規(guī)范化”,“權(quán)重規(guī)范化”,甚至“重新規(guī)范化”。
現(xiàn)在,Cerebras的團(tuán)隊(duì)決定提出替代方案。Cerebras科學(xué)家不是使用批次,而是建議跟蹤單個(gè)樣本,并“將整個(gè)數(shù)據(jù)集上的算術(shù)平均值替換為在線樣本的指數(shù)衰減平均值?!?該過(guò)程在下圖中的網(wǎng)絡(luò)圖中說(shuō)明。在對(duì)ImageNet等的測(cè)試中,作者認(rèn)為在線規(guī)范化“與大規(guī)模網(wǎng)絡(luò)的最佳規(guī)范化器競(jìng)爭(zhēng)性地發(fā)揮作用”。(ZDNet向Google的Ioffe發(fā)表了評(píng)論,但他拒絕發(fā)表評(píng)論。)
Vitaliy Chiley及其同事在Cerebras提出的“在線標(biāo)準(zhǔn)化”圖表,作為批量標(biāo)準(zhǔn)化的替代
WSE不會(huì)自動(dòng)關(guān)閉批量規(guī)范; 它是一個(gè)可以在處理器中設(shè)置的標(biāo)志。WSE旨在運(yùn)行在TensorFlow或PyTorch和其他框架中創(chuàng)建的任何現(xiàn)有神經(jīng)網(wǎng)絡(luò),并且它將適應(yīng)批處理規(guī)范。
雖然僅僅是WSE芯片的一個(gè)選項(xiàng),但在線標(biāo)準(zhǔn)化指出了一種可能的方式,即遠(yuǎn)離費(fèi)爾德曼多年來(lái)用神奇網(wǎng)絡(luò)來(lái)哄騙神經(jīng)網(wǎng)絡(luò)以取悅Nvidia等圖形處理器。
費(fèi)爾德曼說(shuō):“問(wèn)題一直受到攻擊的方式已經(jīng)聚集在他們周圍,一整套密封蠟和繩子以及糾正弱點(diǎn)的方法很少?!?“他們似乎幾乎要求你按照GPU讓你工作的方式工作?!?/span>
Feldman指出批量是GPU的并行處理形式的工件?!跋胂霝槭裁创笈砍霈F(xiàn)在一開(kāi)始,”他說(shuō)?!?a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡(luò)中的基本數(shù)學(xué)是一個(gè)向量乘以矩陣?!?但是,“如果你這樣做,它會(huì)使GPU的利用率非常低,比如幾個(gè)百分點(diǎn)的利用,這真的很糟糕?!?/span>
因此,建議使用批處理來(lái)填充GPU的操作流程?!八麄兯龅氖撬麄儗⑹噶刊B加在一起,形成一個(gè)矩陣逐個(gè)矩陣,這些矢量的疊加就是所謂的小批量。”
所有這些意味著批處理“不是由機(jī)器學(xué)習(xí)理論驅(qū)動(dòng)的,它們是由實(shí)現(xiàn)GPU的一些利用的需要驅(qū)動(dòng)的;我們將神經(jīng)網(wǎng)絡(luò)思維彎曲到非常特定的硬件架構(gòu)的需求,但是那是落后的。“
“我們最興奮的事情之一是,WSE允許你深入學(xué)習(xí)深度學(xué)習(xí)的方式,而不是在特定的架構(gòu)中進(jìn)行深入學(xué)習(xí),”費(fèi)爾德曼說(shuō)。
WSE適用于所謂的小批量,或者實(shí)際上是“批量大小”。WSE沒(méi)有通過(guò)每個(gè)可用電路干擾大量樣本,而是具有硬連線電路,該電路僅在檢測(cè)到具有非零值的單個(gè)樣本時(shí)才開(kāi)始計(jì)算。
Cerebras Systems聯(lián)合創(chuàng)始人兼首席執(zhí)行官Andrew Feldman,蒂爾南雷
費(fèi)爾德曼認(rèn)為,對(duì)稀疏信號(hào)的關(guān)注是對(duì)運(yùn)行多個(gè)樣本的“數(shù)據(jù)并行性”的譴責(zé),這再次是GPU的時(shí)代錯(cuò)誤。“數(shù)據(jù)并行意味著您的個(gè)人指令將同時(shí)應(yīng)用于多個(gè)數(shù)據(jù),包括它們是否為0,如果它們永遠(yuǎn)不是零,則是完美的,如圖形中所示。 “但是當(dāng)高達(dá)80%為零時(shí),就像神經(jīng)網(wǎng)絡(luò)一樣,它根本不聰明 - 這并不明智?!?他指出,在普通神經(jīng)網(wǎng)絡(luò)中,人工神經(jīng)元最常見(jiàn)的激活單元“ReLU”具有“80%零作為輸出”。
能夠處理稀疏信號(hào)似乎是深度學(xué)習(xí)的重要方向。在2月舉行的籌碼會(huì)議上,F(xiàn)acebook負(fù)責(zé)人工智能研究的負(fù)責(zé)人Yann LeCun指出,“隨著DL系統(tǒng)規(guī)模的擴(kuò)大,模塊的激活可能會(huì)變得越來(lái)越稀疏,只有任何一次激活的模塊子集的變量子集。“
LeCun認(rèn)為,這更接近大腦的運(yùn)作方式?!安恍业氖?,使用當(dāng)前的硬件,批處理使我們能夠?qū)⒋蠖鄶?shù)低級(jí)神經(jīng)網(wǎng)絡(luò)操作減少到矩陣產(chǎn)品,從而降低內(nèi)存訪問(wèn)計(jì)算比率,”他說(shuō),與Feldman呼應(yīng)。
“因此,我們需要新的硬件架構(gòu),這些架構(gòu)可以在批量大小為1的情況下高效運(yùn)行。”
如果GPU的傳統(tǒng)數(shù)據(jù)并行性不是最優(yōu)的,F(xiàn)eldman認(rèn)為WSE使得并行處理的復(fù)興成為可能。特別是,可以探索另一種并行性,稱為“模型并行性”,其中深度學(xué)習(xí)的網(wǎng)絡(luò)圖的單獨(dú)部分被分配到芯片的不同區(qū)域并且并行運(yùn)行。
“更有趣的是分割工作,以便你的400,000個(gè)核心中的一些在一個(gè)層上工作,一些在下一層上工作,一些在第三層上工作,依此類推,以便所有層都在工作中平行,“他沉思道。他說(shuō),其中一個(gè)影響就是大大增加了神經(jīng)網(wǎng)絡(luò)可以處理的參數(shù)狀態(tài)的大小。根據(jù)GPU的數(shù)據(jù)并行性,任何一個(gè)GPU都可能能夠處理一百萬(wàn)個(gè)參數(shù)?!叭绻惆褍蓚€(gè)GPU放在一起[在多處理系統(tǒng)中],你會(huì)得到兩臺(tái)可以處理一百萬(wàn)個(gè)參數(shù)的機(jī)器,”他解釋說(shuō),“但是沒(méi)有一臺(tái)可以處理200萬(wàn)個(gè)參數(shù)的機(jī)器 - 你沒(méi)有得到一個(gè)雙?!?/span>
使用單個(gè)WSE,可以支持40億個(gè)參數(shù)模型。他建議將機(jī)器集中在一起,“你現(xiàn)在可以解決80億或160億參數(shù)網(wǎng)絡(luò),因此它可以讓你通過(guò)增加資源來(lái)解決更大的問(wèn)題?!?/span>
費(fèi)爾德曼認(rèn)為像稀疏性和模型并行性這樣的東西采用的神經(jīng)網(wǎng)絡(luò)“超出了創(chuàng)始人20或30年前給我們的意義”,意思是,Hinton,Bengio和Lecun?,F(xiàn)代網(wǎng)絡(luò),如谷歌的“變形金剛”,他說(shuō),已經(jīng)“在他們的TPU集群中考慮大量計(jì)算”,指的是谷歌開(kāi)發(fā)的“Tensor Processing Unit”芯片。
“硬件正在扭曲我們行業(yè)的進(jìn)步,”他是如何總結(jié)最先進(jìn)的?!爱?dāng)硬件的局限性使我們無(wú)法探索肥沃的區(qū)域時(shí),這就是我們想要改變的東西;硬件不應(yīng)該妨礙你的探索,它不應(yīng)該驅(qū)使你采用一些技術(shù),如大批量。
“硬件應(yīng)該成為你的思維能夠形成的平臺(tái)?!?/span>
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10