
作者 | Tiernan Ray
編譯 | CDA數(shù)據(jù)分析師
硅谷創(chuàng)業(yè)公司Cerebras Systems周一推出了世界上最大的專為AI設計的芯片。Cerebras首席執(zhí)行官兼聯(lián)合創(chuàng)始人Andrew Feldman與ZDNet討論了深度學習網(wǎng)絡培訓的一些含義。
你可能聽說過,周一,硅谷創(chuàng)業(yè)公司Cerebras Systems 推出了世界上最大的芯片,稱為WSE,或稱為“晶圓級發(fā)動機”,發(fā)音為“明智的”。它將被構建到Cerebras銷售的完整計算系統(tǒng)中。
您可能不知道的是,WSE及其制作的系統(tǒng)對AI的深度學習形式有一些有趣的含義,而不僅僅是加速計算。 Cerebras的聯(lián)合創(chuàng)始人兼首席執(zhí)行官安德魯·費爾德曼(Andrew Feldman)與ZDNet討論了深度學習中可能發(fā)生的變化。
到目前為止,我們對WSE的了解有三個直接影響。首先,深度網(wǎng)絡的一個重要方面,即“規(guī)范化”,可能會得到徹底改革。其次,處理個別數(shù)據(jù)點而不是群體或“批量”的“稀疏性”概念可能在深度學習中扮演更重要的角色。第三,隨著人們開始考慮WSE系統(tǒng)的發(fā)展,更多有趣的并行處理形式可能成為迄今為止的情況。
所有這些都代表了費爾德曼所說的硬件解放設計選擇和深度學習實驗。
Cerebras的“晶圓級引擎”與Nvidia的頂級圖形處理單元相比,“V100”在深度學習培訓中很
“我們很自豪能夠大大加速現(xiàn)有的,開拓性的Hinton,Bengio和LeCun模式,”Feldman說,他指的是三位深度學習先鋒,他們因深度學習而獲得ACM圖靈獎,Geoffrey Hinton,Yoshua Bengio和Yann LeCun。
“但最有趣的是尚未開發(fā)的新車型,”他補充道。
“可以訓練的模型世界的大小非常大,”費爾德曼觀察到,“但在GPU上運行良好的子集非常小,而且到目前為止,事情一直是關注的地方,”指的是Nvidia的圖形處理芯片是深度學習培訓的主要計算設備。
第一個跡象表明,Cerebras發(fā)生了一些非常有趣的事情,5月份由Vitaliy Chiley和Cerebras的同事在arXiv預打印服務器上發(fā)布了一篇文章,名為“培訓神經(jīng)網(wǎng)絡的在線規(guī)范化”。在那篇論文中,作者提出了對機器學習網(wǎng)絡建立方式的改變,稱為規(guī)范化。
歸一化是一種處理所有統(tǒng)計系統(tǒng)面臨的問題的技術:協(xié)變量變換。用于訓練統(tǒng)計程序的數(shù)據(jù)被假定為與訓練有素的統(tǒng)計模型將遇到的現(xiàn)實世界中的數(shù)據(jù)基本相似。分類器在野外遇到的貓和狗的圖片應該與訓練數(shù)據(jù)中遇到的圖片類似。但是,訓練中的自變量,“協(xié)變量”和野外實際數(shù)據(jù)中的自變量之間存在差異。這構成了分配的轉變。
谷歌科學家Sergey Ioffe和Christian Szegedy 在2015年的一篇論文中指出協(xié)變量轉移也發(fā)生在網(wǎng)絡內(nèi)部。當每個訓練數(shù)據(jù)點退出網(wǎng)絡的一層中的激活單元時,網(wǎng)絡參數(shù)已經(jīng)從該數(shù)據(jù)點進入網(wǎng)絡時轉換了該數(shù)據(jù)點。結果,數(shù)據(jù)的分布由網(wǎng)絡的連續(xù)層轉換 - 以至于它變得與訓練數(shù)據(jù)的原始統(tǒng)計數(shù)據(jù)不同。這可能導致網(wǎng)絡培訓不良。
Ioffe和Szegedy稱這種變化是“內(nèi)部協(xié)變量轉變”。為了解決這個問題,他們提出了所謂的“批量標準化”。在批量規(guī)范中,如已知的那樣,將新的處理層插入到網(wǎng)絡中。它使用的事實是,數(shù)據(jù)樣本在所謂的“小批量”處理,同時由芯片處理的幾個數(shù)據(jù)樣本的分組。芯片統(tǒng)計批次,均值和方差,尤其是整個數(shù)據(jù)集中統(tǒng)計數(shù)據(jù)的近似值。然后,它將單個數(shù)據(jù)點的值調(diào)整為更符合這些批次統(tǒng)計數(shù)據(jù),作為一種方法,將樣本輕推回與人口的“真實”分布一致。
批量規(guī)范在加快培訓時間方面具有優(yōu)勢,但存在問題。首先,它可以顯著增加計算系統(tǒng)中使用的內(nèi)存。另一方面,它可能會在數(shù)據(jù)中引入偏差,因為用于計算均值和方差的小批量樣本不一定是整個群體中數(shù)據(jù)分布的很大近似值。當受過訓練的網(wǎng)絡遇到真實世界數(shù)據(jù)時,這可能意味著問題,另一個協(xié)變量變化。多年來提出了許多后續(xù)方法來改進,例如“層規(guī)范化”,“組規(guī)范化”,“權重規(guī)范化”,甚至“重新規(guī)范化”。
現(xiàn)在,Cerebras的團隊決定提出替代方案。Cerebras科學家不是使用批次,而是建議跟蹤單個樣本,并“將整個數(shù)據(jù)集上的算術平均值替換為在線樣本的指數(shù)衰減平均值。” 該過程在下圖中的網(wǎng)絡圖中說明。在對ImageNet等的測試中,作者認為在線規(guī)范化“與大規(guī)模網(wǎng)絡的最佳規(guī)范化器競爭性地發(fā)揮作用”。(ZDNet向Google的Ioffe發(fā)表了評論,但他拒絕發(fā)表評論。)
Vitaliy Chiley及其同事在Cerebras提出的“在線標準化”圖表,作為批量標準化的替代
WSE不會自動關閉批量規(guī)范; 它是一個可以在處理器中設置的標志。WSE旨在運行在TensorFlow或PyTorch和其他框架中創(chuàng)建的任何現(xiàn)有神經(jīng)網(wǎng)絡,并且它將適應批處理規(guī)范。
雖然僅僅是WSE芯片的一個選項,但在線標準化指出了一種可能的方式,即遠離費爾德曼多年來用神奇網(wǎng)絡來哄騙神經(jīng)網(wǎng)絡以取悅Nvidia等圖形處理器。
費爾德曼說:“問題一直受到攻擊的方式已經(jīng)聚集在他們周圍,一整套密封蠟和繩子以及糾正弱點的方法很少?!?“他們似乎幾乎要求你按照GPU讓你工作的方式工作?!?/span>
Feldman指出批量是GPU的并行處理形式的工件?!跋胂霝槭裁创笈砍霈F(xiàn)在一開始,”他說?!?a href='/map/shenjingwangluo/' style='color:#000;font-size:inherit;'>神經(jīng)網(wǎng)絡中的基本數(shù)學是一個向量乘以矩陣?!?但是,“如果你這樣做,它會使GPU的利用率非常低,比如幾個百分點的利用,這真的很糟糕?!?/span>
因此,建議使用批處理來填充GPU的操作流程?!八麄兯龅氖撬麄儗⑹噶刊B加在一起,形成一個矩陣逐個矩陣,這些矢量的疊加就是所謂的小批量。”
所有這些意味著批處理“不是由機器學習理論驅動的,它們是由實現(xiàn)GPU的一些利用的需要驅動的;我們將神經(jīng)網(wǎng)絡思維彎曲到非常特定的硬件架構的需求,但是那是落后的。“
“我們最興奮的事情之一是,WSE允許你深入學習深度學習的方式,而不是在特定的架構中進行深入學習,”費爾德曼說。
WSE適用于所謂的小批量,或者實際上是“批量大小”。WSE沒有通過每個可用電路干擾大量樣本,而是具有硬連線電路,該電路僅在檢測到具有非零值的單個樣本時才開始計算。
Cerebras Systems聯(lián)合創(chuàng)始人兼首席執(zhí)行官Andrew Feldman,蒂爾南雷
費爾德曼認為,對稀疏信號的關注是對運行多個樣本的“數(shù)據(jù)并行性”的譴責,這再次是GPU的時代錯誤。“數(shù)據(jù)并行意味著您的個人指令將同時應用于多個數(shù)據(jù),包括它們是否為0,如果它們永遠不是零,則是完美的,如圖形中所示。 “但是當高達80%為零時,就像神經(jīng)網(wǎng)絡一樣,它根本不聰明 - 這并不明智。” 他指出,在普通神經(jīng)網(wǎng)絡中,人工神經(jīng)元最常見的激活單元“ReLU”具有“80%零作為輸出”。
能夠處理稀疏信號似乎是深度學習的重要方向。在2月舉行的籌碼會議上,F(xiàn)acebook負責人工智能研究的負責人Yann LeCun指出,“隨著DL系統(tǒng)規(guī)模的擴大,模塊的激活可能會變得越來越稀疏,只有任何一次激活的模塊子集的變量子集?!?/span>
LeCun認為,這更接近大腦的運作方式。“不幸的是,使用當前的硬件,批處理使我們能夠將大多數(shù)低級神經(jīng)網(wǎng)絡操作減少到矩陣產(chǎn)品,從而降低內(nèi)存訪問計算比率,”他說,與Feldman呼應。
“因此,我們需要新的硬件架構,這些架構可以在批量大小為1的情況下高效運行。”
如果GPU的傳統(tǒng)數(shù)據(jù)并行性不是最優(yōu)的,F(xiàn)eldman認為WSE使得并行處理的復興成為可能。特別是,可以探索另一種并行性,稱為“模型并行性”,其中深度學習的網(wǎng)絡圖的單獨部分被分配到芯片的不同區(qū)域并且并行運行。
“更有趣的是分割工作,以便你的400,000個核心中的一些在一個層上工作,一些在下一層上工作,一些在第三層上工作,依此類推,以便所有層都在工作中平行,“他沉思道。他說,其中一個影響就是大大增加了神經(jīng)網(wǎng)絡可以處理的參數(shù)狀態(tài)的大小。根據(jù)GPU的數(shù)據(jù)并行性,任何一個GPU都可能能夠處理一百萬個參數(shù)?!叭绻惆褍蓚€GPU放在一起[在多處理系統(tǒng)中],你會得到兩臺可以處理一百萬個參數(shù)的機器,”他解釋說,“但是沒有一臺可以處理200萬個參數(shù)的機器 - 你沒有得到一個雙?!?/span>
使用單個WSE,可以支持40億個參數(shù)模型。他建議將機器集中在一起,“你現(xiàn)在可以解決80億或160億參數(shù)網(wǎng)絡,因此它可以讓你通過增加資源來解決更大的問題?!?/span>
費爾德曼認為像稀疏性和模型并行性這樣的東西采用的神經(jīng)網(wǎng)絡“超出了創(chuàng)始人20或30年前給我們的意義”,意思是,Hinton,Bengio和Lecun?,F(xiàn)代網(wǎng)絡,如谷歌的“變形金剛”,他說,已經(jīng)“在他們的TPU集群中考慮大量計算”,指的是谷歌開發(fā)的“Tensor Processing Unit”芯片。
“硬件正在扭曲我們行業(yè)的進步,”他是如何總結最先進的?!爱斢布木窒扌允刮覀儫o法探索肥沃的區(qū)域時,這就是我們想要改變的東西;硬件不應該妨礙你的探索,它不應該驅使你采用一些技術,如大批量。
“硬件應該成為你的思維能夠形成的平臺。”
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03