
機器學習,特別是深度學習,迫使重新評估芯片和系統(tǒng)的設(shè)計方式,這將改變未來幾十年的行業(yè)方向。
從芯片到軟件再到系統(tǒng),計算領(lǐng)域?qū)⒃谖磥韼啄陜?nèi)因機器學習的普及而發(fā)生巨大變化。我們可能仍然將這些計算機稱為“通用圖靈機”,正如我們已有八十年或更長時間。但在實踐中,它們將與迄今為止構(gòu)建和使用的方式不同。
任何關(guān)心計算機工作的人以及對所有形式的機器學習感興趣的人都會感興趣。
今年2月,F(xiàn)acebook負責人工智能研究的負責人Yann LeCun在舊金山舉行的國際固態(tài)電路會議上發(fā)表了演講,該會議是世界上運行時間最長的計算機芯片會議之一。在ISSCC,LeCun明確了計算機技術(shù)對人工智能研究的重要性。 LeCun說:“硬件功能和軟件工具既激勵又限制了AI研究人員想象并將允許自己追求的想法類型,我們所掌握的工具比我們承認的更能影響我們的想法”。
不難看出情況是怎樣的。從2006年開始,深度學習的興起不僅是因為大量數(shù)據(jù)和機器學習中的新技術(shù),例如“輟學”,而且還因為計算能力越來越強。特別是,越來越多地使用來自Nvidia的圖形處理單元或“GPU”,導致計算的更大并行化。這使得對比以往更大的網(wǎng)絡(luò)的培訓成為可能。20世紀80年代提出的“并行分布式處理”的前提,即人工網(wǎng)絡(luò)的節(jié)點同時被訓練,最終成為現(xiàn)實。
一些人認為,機器學習現(xiàn)在有望接管世界上大部分的計算活動。在2月份的ISSCC期間,LeCun 向ZDNet講述了計算方向的變化。LeCun說:“如果你走了五年,未來十年,你會看到計算機花費時間做些什么,大多數(shù)情況下,我認為他們會做一些像深度學習這樣的事情 - 就計算量而言”。他還指出,深度學習可能無法通過收入占據(jù)計算機銷售的大部分,但是,“就我們?nèi)绾蚊棵牖ㄙM我們的毫瓦或我們的運營而言,他們將花在神經(jīng)網(wǎng)絡(luò)上。
深度學習成倍增長
隨著深度學習成為計算的焦點,它正在推動當今計算機能夠做到的界限,在某種程度上推動神經(jīng)網(wǎng)絡(luò)進行預(yù)測的“推理任務(wù)”,但對于訓練神經(jīng)網(wǎng)絡(luò)更是如此,計算密集型功能。
注:據(jù)OpenAI稱,自2012年以來,深度學習網(wǎng)絡(luò)對計算的需求每3.5個月翻一番。
諸如OpenAI的GPT-2之類的現(xiàn)代神經(jīng)網(wǎng)絡(luò)需要并行訓練超過十億個參數(shù)或網(wǎng)絡(luò)權(quán)重。作為Facebook的熱門機器學習培訓庫PyTorch的產(chǎn)品經(jīng)理,5月份告訴ZDNet,“模型越來越大,它們真的非常大,而且培訓成本非常高。” 如今最大的模型通常不能完全存儲在GPU附帶的存儲器電路中。
此外:谷歌表示人工智能的“指數(shù)”增長正在改變計算的本質(zhì)
計算周期的需求速度越來越快。根據(jù)OpenAI提供的數(shù)據(jù),早在2012年創(chuàng)建的令人尊敬的AlexNet圖像識別系統(tǒng)在總培訓時間內(nèi)耗費了相當于每秒1000萬次浮點運算的“千萬億次浮點運算”,總時間達到一天。但AlphaZero是由谷歌的DeepMind在2016年建立的神經(jīng)網(wǎng)絡(luò),它擊敗了世界上的國際象棋冠軍,并且每秒消耗超過一千天的千萬億次飛越。AlexNet和AlphaZero之間計算周期的增加使得每3.5個月的計算消耗量翻了一番。這是2016年收集的數(shù)據(jù)。到目前為止,步伐無疑會增加。
計算機芯片危機
世界甚至沒有佩戴千萬億次籌碼,用于深度學習培訓的頂級芯片,如Nvidia的Tesla V100,每秒運行112萬億次。因此,你必須運行其中的八天1000天,否則將許多人聚集成一個耗費越來越多能量的系統(tǒng)。
更糟糕的是,近年來芯片改進的步伐已經(jīng)觸底。正如加州大學伯克利分校教授大衛(wèi)帕特森和英國航空公司董事長約翰軒尼詩在今年早些時候的一篇文章中所指出的那樣,摩爾定律即每十二至十八個月芯片功率增加一倍的經(jīng)驗法則,已經(jīng)耗盡了氣體。英特爾長期以來一直否認這一點,但數(shù)據(jù)是帕特森和軒尼詩的一面。正如他們在報告中提到的那樣,芯片性能現(xiàn)在每年僅增長3%。
這兩位作者都認為,這意味著芯片的設(shè)計,眾所周知,它們的架構(gòu)必須徹底改變,以便從不會產(chǎn)生性能優(yōu)勢的晶體管中獲得更高的性能。(帕特森幫助谷歌創(chuàng)建了“Tensor Processing Unit”芯片,因此他對硬件如何影響機器學習非常了解,反之亦然。)
由于處理器的改進停滯不前,但機器學習需求每隔幾個月翻一番,就必須付出代價。令人高興的是,如果以正確的方式看待,機器學習本身可以成為芯片設(shè)計的福音。因為機器學習需要很少的遺留代碼支持 - 它不必運行Excel或Word或Oracle DB - 并且正如他們所說的,對于芯片設(shè)計師,由于其最基本計算的高度重復性,機器學習是一種綠地機會。
建造一臺新機器
卷積神經(jīng)網(wǎng)絡(luò)和長期短期記憶網(wǎng)絡(luò)的核心,深度學習的兩個主要支柱,甚至在像谷歌的變形金剛這樣的更現(xiàn)代的網(wǎng)絡(luò)中,大多數(shù)計算都是線性代數(shù)計算,稱為張量數(shù)學。最常見的是,將一些輸入數(shù)據(jù)轉(zhuǎn)換為矢量,然后將該矢量乘以神經(jīng)網(wǎng)絡(luò)權(quán)重矩陣的列,并將所有這些乘法的乘積相加。稱為乘法相加,這些計算使用所謂的“乘法 - 累加”電路或“MAC”在計算機中呈現(xiàn)。因此,只需改進MAC并在芯片上創(chuàng)建更多的MAC來增加并行化,就可以立即改善機器學習。
主導AI培訓的Nvidia和其CPU主導機器學習推理的英特爾都試圖調(diào)整他們的產(chǎn)品以利用那些原子線性代數(shù)函數(shù)。Nvidia為其Tesla GPU添加了“張量核心”,以優(yōu)化矩陣乘法。英特爾已花費300億美元收購那些從事機器學習的公司,包括Mobileye,Movidius和Nervana Systems,其中最后一個應(yīng)該在某個時候?qū)е隆癗ervana神經(jīng)網(wǎng)絡(luò)處理器”,盡管有延遲。
到目前為止,這些舉措并不能滿足機器學習的需求,例如Facebook的LeCun。在2月與ZDNet聊天期間,LeCun認為,“我們需要的是競爭對手,現(xiàn)在,你知道,主導供應(yīng)商Nvidia”。 他還指出,這不是因為Nvidia沒有做出好的籌碼。這是“因為他們做出了假設(shè),并且擁有一套不同的硬件可以用來做當前GPUS擅長的補充事物,這樣做會很不錯。
另外:為什么人工智能報告如此糟糕?
他說,其中一個有缺陷的假設(shè)是假設(shè)訓練神經(jīng)網(wǎng)絡(luò)將是一個可以操作的“整齊陣列”的問題。相反,未來的網(wǎng)絡(luò)可能會使用大量的網(wǎng)絡(luò)圖,其中神經(jīng)網(wǎng)絡(luò)的計算圖的元素作為指針流式傳輸?shù)教幚砥?。LeCun表示,芯片必須進行大量的乘法增加,但對于如何將這些乘法增加呈現(xiàn)給處理器的期望不同。
作為TPU芯片貢獻者之一的谷歌軟件工程師Cliff Young,去年10月在硅谷舉行的芯片活動上發(fā)表了主題演講時更直言不諱。Young說:“很長一段時間,我們都拒絕了,并說英特爾和Nvidia非常擅長構(gòu)建高性能系統(tǒng),”“五年前我們超越了這個門檻”。
創(chuàng)業(yè)公司的崛起
在這個漏洞中,新的芯片來自谷歌等人工智能巨頭,還有一大批風險投資支持的創(chuàng)業(yè)公司。
除了谷歌的TPU,現(xiàn)在已經(jīng)進行了第三次迭代,微軟還有一個可編程處理器,一個名為Project Brainwave的“FPGA”,客戶可以通過其Azure云服務(wù)租用它。亞馬遜表示,它將在今年晚些時候推出自己的定制芯片,名為“Inferentia”。當LeCun在2月份與ZDNet談話時,他提到Facebook有自己的籌碼。
他指出,像谷歌和Facebook這樣擁有大量產(chǎn)品的公司,對你自己的引擎工作是有道理的,這方面有內(nèi)部活動。
創(chuàng)業(yè)公司包括Graphcore,一家位于布里斯托爾的五年創(chuàng)業(yè)公司,一個位于倫敦西南一個半小時的港口城市; Cornami,Effinix和Flex Logix,所有這些都是由ZDNet描述的和硅谷的洛斯阿爾托斯的s系統(tǒng)公司仍然處于秘密模式。
許多這些初創(chuàng)公司都有一個共同點,那就是大大增加用于矩陣乘法的計算機芯片區(qū)域的數(shù)量,即MAC單元,以便在每個時鐘周期內(nèi)擠出最多的并行化。Graphcore是所有初創(chuàng)公司中最遠的,是第一個真正向客戶發(fā)送生產(chǎn)芯片的公司。關(guān)于它的第一個芯片最引人注目的事情之一是大量的內(nèi)存。為了紀念世界上第一臺數(shù)字計算機,Colossus 被稱為芯片,面積巨大,面積為806平方毫米。首席技術(shù)官Simon Knowles稱其為“迄今為止最復雜的處理器芯片”。
Colossus由1,024個被稱為“智能處理單元”的獨立核心組成,每個核心都可以獨立處理矩陣數(shù)學。眾所周知,每個IPU都有自己的專用內(nèi)存,256千字節(jié)的快速SRAM內(nèi)存??偣灿?04兆字節(jié)的內(nèi)存是芯片中最常用的內(nèi)存。
沒有人知道芯片上存在如此多的內(nèi)存會如何改變構(gòu)建的神經(jīng)網(wǎng)絡(luò)的種類??赡苁峭ㄟ^訪問越來越多的內(nèi)存,訪問速度非常低,更多的神經(jīng)網(wǎng)絡(luò)將專注于以新的和有趣的方式重用存儲在內(nèi)存中的值。
軟件難題
對于所有這些芯片的努力,問題當然是由于該公司的“CUDA”編程技術(shù),他們沒有為Nvidia建立多年的軟件。Graphcore和其他人的答案將是雙重的。一個是用于機器學習的各種編程框架,例如TensorFlow和Pytorch,提供了一種避免芯片本身細節(jié)并專注于程序結(jié)構(gòu)的方法。所有進入市場的芯片都支持這些框架,他們的創(chuàng)造者認為這些框架與Nvidia的競爭環(huán)境。
第二點是Graphcore和其他人正在構(gòu)建自己的編程技術(shù)。他們可以證明他們的專有軟件既可以轉(zhuǎn)換框架,也可以智能地將并行計算分配給芯片上的眾多MAC單元和向量單元。這就是Graphcore為其“Poplar”軟件所做的論證。Poplar將神經(jīng)網(wǎng)絡(luò)的計算圖分解為“codelets”,并將每個codelet分配到Colossus的不同核心,以優(yōu)化并行處理。
在過去的二十年中,大數(shù)據(jù)和快速并行計算成為常態(tài),推動了機器學習,帶來了深度學習。下一波計算機硬件和軟件可能是關(guān)于大量的內(nèi)存和神經(jīng)網(wǎng)絡(luò),它們是動態(tài)構(gòu)建的,以利用高度并行的芯片架構(gòu)。未來看起來很有趣。
本文翻譯自:AI is changing the entire nature of compute(Machine learning, especially deep learning, is forcing a re-evaluation of how chips and systems are designed that will change the direction of the industry for decades to come.)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10