
因應(yīng)大數(shù)據(jù)時(shí)代,電腦架構(gòu)也要大改造
幾乎所有的人對(duì)沃森電腦的印象,都停留在「危險(xiǎn)邊緣」節(jié)目上看到的畫面:冷冰冰、深紫色系的電腦螢?zāi)?,豎立在另外兩位人類參賽者中間,會(huì)發(fā)出詭異的電腦語音。
完整的沃森電腦,當(dāng)然不只是電視螢?zāi)簧峡吹降哪菢?,如果有機(jī)會(huì)前往紐約參觀IBM全球研發(fā)中心位於約克城高地的實(shí)驗(yàn)室,你就會(huì)看到原汁原味的沃森電腦,不但能夠理解為什麼沃森電腦能在「危險(xiǎn)邊緣」中勝出,也會(huì)同意為什麼非得用顛覆傳統(tǒng)的方式,才能設(shè)計(jì)出新世代的認(rèn)知運(yùn)算電腦了。
沃森電腦放置在約克城高地實(shí)驗(yàn)室二樓的數(shù)據(jù)中心,由九十二臺(tái)伺服器組成,堆滿整整兩排冰箱大小的金屬框架。這兩排金屬框架之間的走道盡頭,有一道門,形同把沃森電腦所在的房間,再隔出一個(gè)小房間。走進(jìn)這個(gè)小房間,你會(huì)聽到室內(nèi)空調(diào)的風(fēng)扇跟伺服器本身的小風(fēng)扇一起嗡嗡作響,震耳欲聾,可見沃森電腦微處理器散發(fā)的熱量非常可觀。這可不是一件好消息。
固然,在「危險(xiǎn)邊緣」比賽的時(shí)候,沃森電腦微處理器運(yùn)作的速度,比世上第二快的一般電腦的運(yùn)作速度,還要再快上以數(shù)據(jù)為中心的電腦一倍;但是代價(jià)就是,沃森電腦會(huì)散發(fā)龐大的熱量、以及散熱風(fēng)扇會(huì)發(fā)出不小的噪音。這顯示了耗能問題非常嚴(yán)重:沃森電腦全速運(yùn)轉(zhuǎn)時(shí)的耗電量,高達(dá)八萬五千瓦,足以提供一座小鎮(zhèn)的照明所需;相較之下,人腦只需要消耗二十瓦的能量而已。
除非我們可以用連跳好幾個(gè)數(shù)量級(jí)的方式,來提升電腦的運(yùn)作效率,否則未來認(rèn)知運(yùn)算電腦的成本,將高到很難成為我們廣泛運(yùn)用的好幫手。IBM全球研發(fā)中心的科學(xué)家認(rèn)為,如果要在大數(shù)據(jù)時(shí)代設(shè)計(jì)出符合環(huán)境永續(xù)概念的電腦,我們一定要能設(shè)計(jì)出新型態(tài)的電腦──以數(shù)據(jù)為中心的電腦。
新電腦必須大幅減少傳輸數(shù)據(jù)的動(dòng)作
傳統(tǒng)電腦以處理器為核心,由微處理器扮演馮諾伊曼架構(gòu)里中央處理器的角色,這自然也是電腦執(zhí)行最多動(dòng)作的地方。微處理器搭載作業(yè)系統(tǒng)後,會(huì)向電腦的其他組件發(fā)出指令,像是要求記憶體、硬碟傳輸數(shù)據(jù)等。而如果是大型網(wǎng)路中的一臺(tái)電腦,則有可能需要用遠(yuǎn)端傳輸?shù)姆绞剑庞修k法取得其他電腦儲(chǔ)存的數(shù)據(jù)。
新世代的電腦一定要能大幅減少傳輸數(shù)據(jù)的動(dòng)作,也就是以數(shù)據(jù)、而不是處理器做為運(yùn)作核心。按照IBM先進(jìn)系統(tǒng)設(shè)計(jì)部門主管達(dá)華里(Bijan Davari)的說法,新的設(shè)計(jì)架構(gòu)將可以把許多任務(wù)畢其功於一役,不但可以增加電腦運(yùn)作的速度,大幅提升省電效果,更重要的是促成充分利用大數(shù)據(jù)的可能性。
電腦的運(yùn)算能力自從1970年代,工程師開始在單晶片里塞進(jìn)愈來愈多的電晶體後,獲得了迅速提升,專業(yè)術(shù)語叫做堆棧(scaling),意指在相同面積上堆放更多資源的能力,好比說是更緊密的電路布局、或是更多的記憶容量。而在單晶片完成更多堆棧的過程,就叫做微縮(scaling down)。
不論是企業(yè)界或是政府單位的電腦,經(jīng)過多年使用之後,都需要更優(yōu)秀的運(yùn)算能力,因此電腦業(yè)者開始推出伺服器,專門處理大量、復(fù)雜的工作,主要的做法有兩種,其中一種是在一臺(tái)伺服器內(nèi),裝上運(yùn)算能力更強(qiáng)的零組件與其他資源,通稱為升級(jí)(scaling up),IBM的大型主機(jī)即采取這種做法;另一種做法是擴(kuò)充(scaling out),是把多臺(tái)伺服器串連、視同一臺(tái)大型伺服器般使用,這也是超級(jí)電腦跟Google數(shù)據(jù)中心伺服器大軍的做法。
IBM的科學(xué)家相信,未來以數(shù)據(jù)為中心的電腦將具備一種基本特徵:電腦工程師會(huì)設(shè)法把記憶體跟邏輯線路,整合在一以數(shù)據(jù)為中心的電腦顆緊致的立體晶片中,采用斂合(scaling in)的新堆棧方法。
新玩意:混合記憶體模塊
現(xiàn)今的記憶體只是把一層矽晶跟數(shù)不清的數(shù)據(jù)存取線路,整合成一顆電子元件,主要做為數(shù)據(jù)暫存區(qū)之用,并依照微處理器的需求傳輸數(shù)據(jù)。
記憶體在電腦內(nèi)占有一定空間,數(shù)據(jù)傳送也是個(gè)負(fù)擔(dān)沉重的工作;如果把記憶體晶片像一層層烤餅堆疊在一起呢?那不但可以大幅縮減體積,同時(shí)也能減少數(shù)據(jù)傳送的負(fù)擔(dān)。這種新概念的產(chǎn)物,就是IBM與其他電腦大廠正在研發(fā)的混合記憶體模塊(hybrid memory cube)。
混合記憶體模塊是個(gè)奇特的小玩意兒,可以在一個(gè)立方體內(nèi)把好幾層記憶體堆疊在一起,在垂直貫穿模塊的一個(gè)小通道內(nèi)配置線路,用銅線把所有物件串連在一起,讓最底層的邏輯線路可以直接連結(jié)到其他各層的記憶體,只把萃取過的減量數(shù)據(jù)傳送給微處理器統(tǒng)合使用。這種新設(shè)計(jì)可以縮減現(xiàn)有記憶體百分之九十的體積,減少百分之七十的耗能。
未來,記憶體模塊渴望再內(nèi)建微處理器,逐步走向記憶體與處理器合而為一的境地,打破馮諾伊曼瓶頸的限制。
這項(xiàng)新科技會(huì)對(duì)未來的電腦帶來重大影響,譬如用於原油探鉆、汽車撞擊測(cè)試的大型超級(jí)電腦,體積會(huì)變得更小、更省電,下一代使用混合記憶體模塊的伺服器數(shù)據(jù)中心,也不再需要在龐大的室內(nèi)空間耗掉可觀的散熱電力。這項(xiàng)技術(shù)繼續(xù)發(fā)展的話,未來即便是智慧型手機(jī)、平板電腦、或是其他行動(dòng)裝置,也都可以將運(yùn)算能力提升到一個(gè)難以想像的境界。
新概念:微處理器分散架構(gòu)
以數(shù)據(jù)為中心的電腦具備的第二種基本特徵是:電腦內(nèi)部的分散式配置方式。
今日的電腦,有微處理器擔(dān)任神經(jīng)中樞的角色,負(fù)責(zé)處理所有或大部分的運(yùn)算工作,因此運(yùn)算時(shí)派得上用場的數(shù)據(jù),都要在原本存放的位置與微處理器之間不斷往返傳遞,用跑馬拉松來形容也不為過。未來以數(shù)據(jù)為中心的電腦,會(huì)把微處理器分散在系統(tǒng)的不同位置,大大降低數(shù)據(jù)搬動(dòng)的必要性。
微處理器分散架構(gòu)的概念,已經(jīng)在某些專門用於分析龐大數(shù)據(jù)數(shù)據(jù)的特用電腦上進(jìn)行測(cè)試。紐約州立大學(xué)水牛城分校神經(jīng)科學(xué)教授拉曼納森,即參與了其中某一項(xiàng)測(cè)試計(jì)畫。
多發(fā)性硬化癥會(huì)讓人痛苦異常,患者的免疫系統(tǒng)會(huì)主動(dòng)攻擊自身的大腦與脊髓,導(dǎo)致病患失去行動(dòng)能力,并造成認(rèn)知失調(diào)問題。這種疾病多半會(huì)在年輕成年人的身上發(fā)病,目前病因成謎,也無法醫(yī)治。拉曼納森的研究主題,是找出基因和環(huán)境因素與多發(fā)性硬化癥的相關(guān)性,進(jìn)而找到醫(yī)治的方法,或是起碼找到能夠預(yù)先防治的方法。拉曼納森研究工作最大的挑戰(zhàn),在於人類基因可能導(dǎo)致多發(fā)性硬化癥的組合方式實(shí)在太多了,如果再加上飲食作息、抽菸喝酒等環(huán)境因素的影響,則多發(fā)性硬化癥潛在病因的可能組合,將呈現(xiàn)指數(shù)般的爆炸性成長。
換句話說,拉曼納森的研究重點(diǎn)在於克服龐大數(shù)據(jù)帶來的技術(shù)障礙,而傳統(tǒng)超級(jí)電腦欠缺大量平行運(yùn)算的能力,因此也沒辦法有效處理拉曼納森所面對(duì)的問題──亦即所謂數(shù)據(jù)密集(data-intensive)的問題。拉曼納森需要一臺(tái)可以把研究主題切割成許多分段、送交好幾千顆微處理器進(jìn)行平行運(yùn)算後,再從平行運(yùn)算的結(jié)果推導(dǎo)出最後答案的電腦。如果要有效解決拉曼納森面臨的難題,勢(shì)必要采用平行運(yùn)算搭配以數(shù)據(jù)為中心的微處理器架構(gòu)。
於是,拉曼納森的研究團(tuán)隊(duì)設(shè)計(jì)一臺(tái)專門用於數(shù)據(jù)密集分析的電腦,這臺(tái)冰箱大小的專用電腦采用特制的微處理器「現(xiàn)場可程式閘陣列」(field programmable gate array, FPGA),在數(shù)據(jù)儲(chǔ)存區(qū)先行過濾數(shù)據(jù),之後再把有用的部分傳給中央處理器,進(jìn)行後續(xù)的數(shù)據(jù)分析。這套微處理器可以程式化設(shè)定需要搜尋的數(shù)據(jù),因此可以有效過濾高達(dá)九成的數(shù)據(jù)量,讓中央處理器僅針對(duì)篩選過的數(shù)據(jù)進(jìn)行分析即可,不用照單全收;就形式上而言,如同傳統(tǒng)電腦只在記憶體進(jìn)行存取,省去讀取硬碟的步驟。如此一來,這臺(tái)專用電腦可以減少數(shù)據(jù)搬動(dòng),連帶達(dá)到省電效果,并提升電腦中樞的運(yùn)算速度與效率。
接下來,我們用拉曼納森研究數(shù)據(jù)分析團(tuán)隊(duì)實(shí)際取得的績效,說明這臺(tái)新電腦的效率高到什麼程度。研究團(tuán)隊(duì)完成安裝後不久,把十萬種基因組合與包含各種環(huán)境因素在內(nèi)的數(shù)據(jù),統(tǒng)統(tǒng)輸入電腦進(jìn)行運(yùn)算──相當(dāng)於有五十億種「雙變數(shù)」的組合、或是一百兆種「三變數(shù)」的組合需要進(jìn)行推算。
結(jié)果,新電腦只花了十一分鐘,就把傳統(tǒng)電腦需要花二十七小時(shí)計(jì)算的答案,給算出來了。坐在紐約州立大學(xué)辦公桌前的拉曼納森,收到一封運(yùn)算結(jié)果摘要報(bào)告的電子郵件,他說:「這個(gè)結(jié)果讓我感到興奮莫名,有如在眼前開啟了一扇機(jī)會(huì)之窗。我們,終於有機(jī)會(huì)解決以往難以處理的問題了?!?/span>
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03