
大數(shù)據(jù)時(shí)代的“最強(qiáng)大腦” _數(shù)據(jù)分析師
是否想過(guò)這樣的情景:某一天,當(dāng)你打開電視看天氣預(yù)報(bào),發(fā)現(xiàn)它能精確地預(yù)報(bào)明天早上8時(shí)你家門口的天氣情況。
或者某天你要買房,你再也不用飽受奔波看房之苦,足不出戶,只要打開電腦,在一個(gè)數(shù)字地圖上敲入幾個(gè)關(guān)鍵詞,就可以看到房子周邊的景色、房子的內(nèi)在結(jié)構(gòu)、甚至能夠體驗(yàn)自己置身陽(yáng)臺(tái)所能觀看到的景色。
甚至當(dāng)你走進(jìn)電影院,看到好萊塢科幻大片《盜夢(mèng)空間》,你也想像電影里那樣,在夢(mèng)境里輕易模擬出一個(gè)現(xiàn)實(shí)空間,其逼真程度可以蒙騙那些被拐到夢(mèng)境里來(lái)的人,讓他們誤以為身處現(xiàn)實(shí)
也許你會(huì)說(shuō),這只在盜夢(mèng)空間里才會(huì)有。的確,在現(xiàn)實(shí)生活中,如果要模擬一個(gè)現(xiàn)實(shí)空間,特別是要達(dá)到以假亂真的程度,所需要的計(jì)算量和渲染工程,別說(shuō)人腦,一臺(tái)普通的電腦都有可能被燒爆。
但是在大數(shù)據(jù)時(shí)代即將來(lái)臨之際,借助一臺(tái)擁有最強(qiáng)大腦的超級(jí)計(jì)算機(jī),這一切都將不是夢(mèng)。
1.海量計(jì)算
如果普通電腦的運(yùn)算速度像成人走路,那么超級(jí)計(jì)算機(jī)就是火箭速度。在極高的運(yùn)算速度下,人們可以通過(guò)數(shù)值模擬來(lái)預(yù)測(cè)和解釋以前無(wú)法實(shí)驗(yàn)的自然現(xiàn)象。
對(duì)于很多人而言,電腦已經(jīng)成為生活中密不可分的一部分。是不是覺(jué)得你家中的四核PC就已經(jīng)性能很強(qiáng)大了?在廣州中山大學(xué)的國(guó)家超級(jí)計(jì)算機(jī)中心里,有一臺(tái)擁有312萬(wàn)核心、浮點(diǎn)運(yùn)算速度達(dá)到每秒33.86千萬(wàn)億次的超級(jí)計(jì)算機(jī),這就是由國(guó)防科學(xué)技術(shù)大學(xué)所研發(fā)的天河二號(hào)。
走進(jìn)廣州超算中心,記者看到了目前世界最快的超級(jí)計(jì)算機(jī)天河二號(hào)。一排排狹長(zhǎng)的黑色機(jī)柜整齊地?cái)[放在接近三個(gè)籃球場(chǎng)那么大的實(shí)驗(yàn)室中。雖然每排機(jī)柜彼此分開,但是工作人員告訴我們,它們工作時(shí)是彼此相連的,其實(shí)是一臺(tái)計(jì)算機(jī)。
計(jì)算速度快,存儲(chǔ)量大,體積也非常大,這是記者看到超級(jí)計(jì)算機(jī)時(shí)最直觀的感受。
為了更好地理解超級(jí)計(jì)算機(jī)這個(gè)大塊頭,我們不妨把時(shí)鐘往回?fù)芤粋€(gè)甲子。
1946年2月14日,這是人類歷史上劃時(shí)代的一天。世界上第一臺(tái)電子計(jì)算機(jī)埃尼阿克在美國(guó)賓夕法尼亞大學(xué)的實(shí)驗(yàn)室里誕生。埃尼阿克著實(shí)是個(gè)龐然大物,它由17468個(gè)電子管、6萬(wàn)個(gè)電阻器、1萬(wàn)個(gè)電容器和6000個(gè)開關(guān)組成,重達(dá)30噸,占地160平方米,耗電174千瓦/時(shí),耗資45萬(wàn)美元,每秒能運(yùn)行5000次加法運(yùn)算。
在此后的60多年中,以電子計(jì)算機(jī)為代表的科技廣泛應(yīng)用到社會(huì)和人們的生活中。然而,當(dāng)人類越來(lái)越深地涉足高科技領(lǐng)域時(shí),遇到的是更為海量、超越一般電腦運(yùn)算能力的計(jì)算難題。
這時(shí),超級(jí)計(jì)算機(jī)適時(shí)出現(xiàn)了。超級(jí)計(jì)算機(jī)(supercomputer),通常是指由數(shù)百數(shù)千甚至更多的處理器(機(jī))組成的,能夠執(zhí)行一般個(gè)人電腦和服務(wù)器無(wú)法處理的大資料量高速運(yùn)算的計(jì)算機(jī)。如果把普通計(jì)算機(jī)的運(yùn)算速度比做成人走路,那么超級(jí)計(jì)算機(jī)就達(dá)到了火箭的速度。在極高的運(yùn)算速度下,人們可以通過(guò)數(shù)值模擬來(lái)預(yù)測(cè)和解釋以前無(wú)法實(shí)驗(yàn)的自然現(xiàn)象。就拿天河二號(hào)來(lái)說(shuō),13億人用計(jì)算器算1000年才能達(dá)到天河二號(hào)1小時(shí)的計(jì)算量。
由于超級(jí)計(jì)算機(jī)的基本組成組件與個(gè)人電腦的概念無(wú)太大差異,所以很多人會(huì)誤以為超級(jí)計(jì)算機(jī)就是簡(jiǎn)單的cpu疊加。但這是一個(gè)認(rèn)識(shí)誤區(qū)。
浪潮集團(tuán)高效能服務(wù)器和存儲(chǔ)技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室副主任胡雷鈞打了個(gè)比方:你用1000臺(tái)PC,用普通的網(wǎng)線把它們連接在一起,你可能花了1萬(wàn)度電,算了10天,但是你用真正的超級(jí)計(jì)算機(jī),可能只用5000度電,花了兩天就算出來(lái)了。
超級(jí)計(jì)算機(jī)做的所有工作都是在提高性能和效率。在信息爆炸和科學(xué)不斷進(jìn)步的時(shí)代里,要推動(dòng)一個(gè)領(lǐng)域繼續(xù)向前發(fā)展,超級(jí)計(jì)算機(jī)的存在必不可少。如今,超級(jí)計(jì)算機(jī)也成為衡量一國(guó)科技實(shí)力的標(biāo)志,在諸如天氣預(yù)報(bào)、基因工程、核工業(yè)、軍事、天體物理模擬、航空航天等高科技領(lǐng)域大展身手。
2.超級(jí)應(yīng)用
隨著超級(jí)計(jì)算機(jī)的不斷發(fā)展,它所延伸的領(lǐng)域大多已與民生息息相關(guān),例如與人們生活密切相關(guān)的天氣預(yù)報(bào)和氣候模擬、地震預(yù)報(bào)、三維地圖以及大數(shù)據(jù)等應(yīng)用
作為現(xiàn)代科學(xué)技術(shù)的大腦,超級(jí)計(jì)算機(jī)廣泛應(yīng)用于地球氣候模擬、宇宙天體研究、基因研究、石油勘探、自然災(zāi)害預(yù)報(bào)等高、精、尖的前沿領(lǐng)域,已成為世界各國(guó)競(jìng)相爭(zhēng)奪的科技戰(zhàn)略制高點(diǎn)。
而即將到來(lái)的大數(shù)據(jù)時(shí)代,更是對(duì)人類的數(shù)據(jù)駕馭能力提出了全新的挑戰(zhàn),運(yùn)用超級(jí)計(jì)算機(jī)解決大數(shù)據(jù)時(shí)代的重大問(wèn)題迫在眉睫。
我國(guó)走在世界前沿的石油勘探超算應(yīng)用,其發(fā)展經(jīng)歷過(guò)一段艱苦的時(shí)期。中國(guó)石油集團(tuán)東方地球物理公司研發(fā)中心首席工程師趙長(zhǎng)海對(duì)此感受頗深,所謂上天容易入地難,說(shuō)的就是石油勘探。
在青海柴達(dá)木盆地,海拔4000米的英雄嶺地區(qū)地質(zhì)條件惡劣,地震地質(zhì)條件使得該地區(qū)地震勘探久攻不克。
趙長(zhǎng)海說(shuō):石油勘探,我們看不見油,最直接的方式就是打孔,但打孔成本太高,要靠人工地震波進(jìn)行探測(cè),再進(jìn)行數(shù)據(jù)分析。這種計(jì)算,不管是硬件還是軟件,負(fù)荷都是非常龐大的。
所謂的人工地震波探測(cè),也叫地震勘探,就是向地下發(fā)射一個(gè)地震波,地震波發(fā)射之后地面有接收器,接收完這些地震波之后再進(jìn)行分析,從而確定石油的位置。但是要接收并分析這些地震波,不僅要有瞬時(shí)獲取大量數(shù)據(jù)的能力,還涉及到許多復(fù)雜的計(jì)算。
最后,借助超級(jí)計(jì)算機(jī)的不斷發(fā)展,龐大的石油勘探地震數(shù)據(jù)計(jì)算才成為可能。
除了石油勘探,超級(jí)計(jì)算機(jī)在智慧城市、個(gè)性化醫(yī)療、天體物理等方面也有著廣泛的應(yīng)用前景。有專家大膽預(yù)言,借助于超級(jí)計(jì)算機(jī)強(qiáng)大而快速的運(yùn)算能力,在實(shí)驗(yàn)室就能實(shí)施亞臨界核試驗(yàn),其與真正核試爆的效果是相同的,這意味著超級(jí)計(jì)算完全可以取代核試驗(yàn)。
盡管如此,由于早期的超級(jí)計(jì)算機(jī)大量應(yīng)用于國(guó)家級(jí)的科研項(xiàng)目,讓公眾對(duì)超級(jí)計(jì)算機(jī)還十分陌生,造成一個(gè)超級(jí)計(jì)算機(jī)跟自己的生活關(guān)系不大的印象。但實(shí)際上,隨著超級(jí)計(jì)算機(jī)的不斷發(fā)展,它所延伸的領(lǐng)域大多已與民生息息相關(guān)。
數(shù)據(jù)顯示,天河一號(hào)為汽車裝備、石油物探、動(dòng)漫渲染、生物醫(yī)藥等相關(guān)企業(yè)帶來(lái)上億元效益,輻射區(qū)域和行業(yè)經(jīng)濟(jì)規(guī)模近百億元。
就拿天氣預(yù)報(bào)來(lái)說(shuō),人們都關(guān)心第二天出行的天氣狀況,但是天氣情況的預(yù)測(cè)為什么需要超級(jí)計(jì)算機(jī)呢?
氣象局專家介紹,目前的中短期天氣預(yù)報(bào)主要是根據(jù)氣象衛(wèi)星等觀測(cè)的大氣實(shí)況資料,通過(guò)求解描述天氣演變過(guò)程的動(dòng)力學(xué)方程組實(shí)現(xiàn)的。這種運(yùn)算涉及數(shù)據(jù)量龐大,運(yùn)算過(guò)程復(fù)雜,一般的計(jì)算機(jī)要計(jì)算出第二天的天氣情況可能需要幾個(gè)月的時(shí)間,這種預(yù)報(bào)就失去了意義。
也就是說(shuō),超級(jí)計(jì)算機(jī)可以幫助我們實(shí)時(shí)地掌握自己附近地區(qū)的天氣情況,不再感嘆六月的天,孩子的臉或者東邊日出西邊雨了。
3.超級(jí)算法
超級(jí)計(jì)算機(jī)就好比算盤,如果沒(méi)有口訣,它就毫無(wú)用處。要讓超級(jí)計(jì)算機(jī)真正運(yùn)行起來(lái),需要各種龐大、復(fù)雜的口訣和算法,這個(gè)被稱作超級(jí)算法理論
中國(guó)是算盤的故鄉(xiāng)。借助老祖宗們留下來(lái)的許多計(jì)算口訣,在即便已經(jīng)進(jìn)入電子計(jì)算機(jī)時(shí)代的今天,用算盤進(jìn)行10以內(nèi)的加減乘除,速度甚至比計(jì)算器還快。
超級(jí)計(jì)算機(jī)就好比算盤,如果沒(méi)有口訣,它就毫無(wú)用處。中山大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院教授、廣東省計(jì)算科學(xué)重點(diǎn)實(shí)驗(yàn)室主任許躍生形象地說(shuō)。對(duì)于超級(jí)計(jì)算機(jī)而言,要讓它真正運(yùn)行起來(lái),也需要各種口訣,但這些口訣更龐大、更復(fù)雜。目前科學(xué)界把這個(gè)算法稱為超級(jí)算法理論。
許躍生介紹,超級(jí)算法理論是研究如何設(shè)計(jì)高性能的并行計(jì)算系統(tǒng),如何發(fā)揮超級(jí)計(jì)算機(jī)的性能,為超級(jí)計(jì)算科學(xué)服務(wù)。
盡管超級(jí)計(jì)算機(jī)的運(yùn)行速度越來(lái)越快,但它也面臨著瓶頸:體積越來(lái)越大,產(chǎn)生更多的熱量,耗電量也越來(lái)越大。
如果僅僅是算得更快,但耗電量更大、成本更高,就失去了應(yīng)用意義。浪潮集團(tuán)高性能計(jì)算總經(jīng)理劉軍說(shuō),現(xiàn)在超級(jí)計(jì)算機(jī)的研究方向是不斷提升性價(jià)比,在額定功耗下盡可能提升運(yùn)算速度。
這時(shí),超算算法的意義就不言而喻。通俗地說(shuō),超算算法的意義在于,找出更高效率的計(jì)算方法,最大限度地充分利用超級(jí)計(jì)算機(jī)的計(jì)算能力,這是對(duì)人們體力、腦力和基礎(chǔ)知識(shí)的考驗(yàn)。
一則2010年初轟動(dòng)世界的新聞,剛好可以驗(yàn)證算法的威力。法國(guó)一名程序員用一臺(tái)價(jià)值2000歐元的普通臺(tái)式機(jī),打破當(dāng)時(shí)世界排名第42位的T2K Open超級(jí)計(jì)算機(jī)保持的世界紀(jì)錄。
因此,相比超級(jí)計(jì)算機(jī)硬件的快速發(fā)展,目前全世界更看重超算應(yīng)用領(lǐng)域的研究。
劉軍介紹,雖然中國(guó)擁有世界最快的超級(jí)計(jì)算機(jī)天河二號(hào),但我國(guó)在超算應(yīng)用領(lǐng)域還十分薄弱,九成以上的超算軟件都依賴國(guó)外進(jìn)口。這也導(dǎo)致我國(guó)雖然擁有性能很強(qiáng)的大型超算系統(tǒng),卻缺乏相匹配的大規(guī)模并行軟件,很多大型超級(jí)計(jì)算機(jī)不得不拆分成小規(guī)模的集群來(lái)跑應(yīng)用,大系統(tǒng)并沒(méi)有發(fā)揮出應(yīng)有的價(jià)值,這實(shí)在是一種很大的浪費(fèi)。
目前,我國(guó)在應(yīng)用軟件上能跑到萬(wàn)億次以上的不是非常多,也就是說(shuō)超級(jí)計(jì)算機(jī)的利用率并不高。超級(jí)計(jì)算機(jī)的使用要非常謹(jǐn)慎,用不好就是燒錢的。高效能服務(wù)器和存儲(chǔ)技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室主任、浪潮集團(tuán)執(zhí)行總裁王恩東也告訴南方日?qǐng)?bào)記者,如何把超算用好是全球性問(wèn)題,要想讓超級(jí)計(jì)算機(jī)真正成為推動(dòng)科學(xué)技術(shù)創(chuàng)新和社會(huì)經(jīng)濟(jì)發(fā)展的發(fā)動(dòng)機(jī),必須要從應(yīng)用創(chuàng)新和人才培養(yǎng)入手,充分發(fā)揮硬件的計(jì)算潛力。
鏈接
全球500強(qiáng)超級(jí)計(jì)算機(jī)美國(guó)擁有一半
從1983年我國(guó)第一臺(tái)被命名為銀河的億次巨型電子計(jì)算機(jī)誕生,到2013年天河二號(hào)以峰值計(jì)算速度每秒5.49億億次再度奪冠,可以說(shuō),中國(guó)人用30年實(shí)現(xiàn)了超算趕超的大跨越。
不過(guò),雖然天河二號(hào)成功突圍,但在整體實(shí)力上,中國(guó)與超級(jí)計(jì)算機(jī)第一大國(guó)美國(guó)相比還有不小的差距。
《人民日?qǐng)?bào)》2014年1月統(tǒng)計(jì)數(shù)據(jù)顯示,單論超級(jí)計(jì)算機(jī)的數(shù)量,美國(guó)擁有全球500強(qiáng)超級(jí)計(jì)算機(jī)中的253個(gè),總數(shù)較其他國(guó)家和地區(qū)的總和還要多,優(yōu)勢(shì)明顯。中國(guó)大陸共有65個(gè)超級(jí)計(jì)算機(jī)進(jìn)入500強(qiáng)榜單,位居第二。日本以30個(gè)位列第三。英、法、德國(guó)分別以29個(gè)、23個(gè)和19個(gè)位列第四至第六位。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11