
大數據時代的“最強大腦” _數據分析師
是否想過這樣的情景:某一天,當你打開電視看天氣預報,發(fā)現(xiàn)它能精確地預報明天早上8時你家門口的天氣情況。
或者某天你要買房,你再也不用飽受奔波看房之苦,足不出戶,只要打開電腦,在一個數字地圖上敲入幾個關鍵詞,就可以看到房子周邊的景色、房子的內在結構、甚至能夠體驗自己置身陽臺所能觀看到的景色。
甚至當你走進電影院,看到好萊塢科幻大片《盜夢空間》,你也想像電影里那樣,在夢境里輕易模擬出一個現(xiàn)實空間,其逼真程度可以蒙騙那些被拐到夢境里來的人,讓他們誤以為身處現(xiàn)實
也許你會說,這只在盜夢空間里才會有。的確,在現(xiàn)實生活中,如果要模擬一個現(xiàn)實空間,特別是要達到以假亂真的程度,所需要的計算量和渲染工程,別說人腦,一臺普通的電腦都有可能被燒爆。
但是在大數據時代即將來臨之際,借助一臺擁有最強大腦的超級計算機,這一切都將不是夢。
1.海量計算
如果普通電腦的運算速度像成人走路,那么超級計算機就是火箭速度。在極高的運算速度下,人們可以通過數值模擬來預測和解釋以前無法實驗的自然現(xiàn)象。
對于很多人而言,電腦已經成為生活中密不可分的一部分。是不是覺得你家中的四核PC就已經性能很強大了?在廣州中山大學的國家超級計算機中心里,有一臺擁有312萬核心、浮點運算速度達到每秒33.86千萬億次的超級計算機,這就是由國防科學技術大學所研發(fā)的天河二號。
走進廣州超算中心,記者看到了目前世界最快的超級計算機天河二號。一排排狹長的黑色機柜整齊地擺放在接近三個籃球場那么大的實驗室中。雖然每排機柜彼此分開,但是工作人員告訴我們,它們工作時是彼此相連的,其實是一臺計算機。
計算速度快,存儲量大,體積也非常大,這是記者看到超級計算機時最直觀的感受。
為了更好地理解超級計算機這個大塊頭,我們不妨把時鐘往回撥一個甲子。
1946年2月14日,這是人類歷史上劃時代的一天。世界上第一臺電子計算機埃尼阿克在美國賓夕法尼亞大學的實驗室里誕生。埃尼阿克著實是個龐然大物,它由17468個電子管、6萬個電阻器、1萬個電容器和6000個開關組成,重達30噸,占地160平方米,耗電174千瓦/時,耗資45萬美元,每秒能運行5000次加法運算。
在此后的60多年中,以電子計算機為代表的科技廣泛應用到社會和人們的生活中。然而,當人類越來越深地涉足高科技領域時,遇到的是更為海量、超越一般電腦運算能力的計算難題。
這時,超級計算機適時出現(xiàn)了。超級計算機(supercomputer),通常是指由數百數千甚至更多的處理器(機)組成的,能夠執(zhí)行一般個人電腦和服務器無法處理的大資料量高速運算的計算機。如果把普通計算機的運算速度比做成人走路,那么超級計算機就達到了火箭的速度。在極高的運算速度下,人們可以通過數值模擬來預測和解釋以前無法實驗的自然現(xiàn)象。就拿天河二號來說,13億人用計算器算1000年才能達到天河二號1小時的計算量。
由于超級計算機的基本組成組件與個人電腦的概念無太大差異,所以很多人會誤以為超級計算機就是簡單的cpu疊加。但這是一個認識誤區(qū)。
浪潮集團高效能服務器和存儲技術國家重點實驗室副主任胡雷鈞打了個比方:你用1000臺PC,用普通的網線把它們連接在一起,你可能花了1萬度電,算了10天,但是你用真正的超級計算機,可能只用5000度電,花了兩天就算出來了。
超級計算機做的所有工作都是在提高性能和效率。在信息爆炸和科學不斷進步的時代里,要推動一個領域繼續(xù)向前發(fā)展,超級計算機的存在必不可少。如今,超級計算機也成為衡量一國科技實力的標志,在諸如天氣預報、基因工程、核工業(yè)、軍事、天體物理模擬、航空航天等高科技領域大展身手。
2.超級應用
隨著超級計算機的不斷發(fā)展,它所延伸的領域大多已與民生息息相關,例如與人們生活密切相關的天氣預報和氣候模擬、地震預報、三維地圖以及大數據等應用
作為現(xiàn)代科學技術的大腦,超級計算機廣泛應用于地球氣候模擬、宇宙天體研究、基因研究、石油勘探、自然災害預報等高、精、尖的前沿領域,已成為世界各國競相爭奪的科技戰(zhàn)略制高點。
而即將到來的大數據時代,更是對人類的數據駕馭能力提出了全新的挑戰(zhàn),運用超級計算機解決大數據時代的重大問題迫在眉睫。
我國走在世界前沿的石油勘探超算應用,其發(fā)展經歷過一段艱苦的時期。中國石油集團東方地球物理公司研發(fā)中心首席工程師趙長海對此感受頗深,所謂上天容易入地難,說的就是石油勘探。
在青海柴達木盆地,海拔4000米的英雄嶺地區(qū)地質條件惡劣,地震地質條件使得該地區(qū)地震勘探久攻不克。
趙長海說:石油勘探,我們看不見油,最直接的方式就是打孔,但打孔成本太高,要靠人工地震波進行探測,再進行數據分析。這種計算,不管是硬件還是軟件,負荷都是非常龐大的。
所謂的人工地震波探測,也叫地震勘探,就是向地下發(fā)射一個地震波,地震波發(fā)射之后地面有接收器,接收完這些地震波之后再進行分析,從而確定石油的位置。但是要接收并分析這些地震波,不僅要有瞬時獲取大量數據的能力,還涉及到許多復雜的計算。
最后,借助超級計算機的不斷發(fā)展,龐大的石油勘探地震數據計算才成為可能。
除了石油勘探,超級計算機在智慧城市、個性化醫(yī)療、天體物理等方面也有著廣泛的應用前景。有專家大膽預言,借助于超級計算機強大而快速的運算能力,在實驗室就能實施亞臨界核試驗,其與真正核試爆的效果是相同的,這意味著超級計算完全可以取代核試驗。
盡管如此,由于早期的超級計算機大量應用于國家級的科研項目,讓公眾對超級計算機還十分陌生,造成一個超級計算機跟自己的生活關系不大的印象。但實際上,隨著超級計算機的不斷發(fā)展,它所延伸的領域大多已與民生息息相關。
數據顯示,天河一號為汽車裝備、石油物探、動漫渲染、生物醫(yī)藥等相關企業(yè)帶來上億元效益,輻射區(qū)域和行業(yè)經濟規(guī)模近百億元。
就拿天氣預報來說,人們都關心第二天出行的天氣狀況,但是天氣情況的預測為什么需要超級計算機呢?
氣象局專家介紹,目前的中短期天氣預報主要是根據氣象衛(wèi)星等觀測的大氣實況資料,通過求解描述天氣演變過程的動力學方程組實現(xiàn)的。這種運算涉及數據量龐大,運算過程復雜,一般的計算機要計算出第二天的天氣情況可能需要幾個月的時間,這種預報就失去了意義。
也就是說,超級計算機可以幫助我們實時地掌握自己附近地區(qū)的天氣情況,不再感嘆六月的天,孩子的臉或者東邊日出西邊雨了。
3.超級算法
超級計算機就好比算盤,如果沒有口訣,它就毫無用處。要讓超級計算機真正運行起來,需要各種龐大、復雜的口訣和算法,這個被稱作超級算法理論
中國是算盤的故鄉(xiāng)。借助老祖宗們留下來的許多計算口訣,在即便已經進入電子計算機時代的今天,用算盤進行10以內的加減乘除,速度甚至比計算器還快。
超級計算機就好比算盤,如果沒有口訣,它就毫無用處。中山大學數學與計算科學學院教授、廣東省計算科學重點實驗室主任許躍生形象地說。對于超級計算機而言,要讓它真正運行起來,也需要各種口訣,但這些口訣更龐大、更復雜。目前科學界把這個算法稱為超級算法理論。
許躍生介紹,超級算法理論是研究如何設計高性能的并行計算系統(tǒng),如何發(fā)揮超級計算機的性能,為超級計算科學服務。
盡管超級計算機的運行速度越來越快,但它也面臨著瓶頸:體積越來越大,產生更多的熱量,耗電量也越來越大。
如果僅僅是算得更快,但耗電量更大、成本更高,就失去了應用意義。浪潮集團高性能計算總經理劉軍說,現(xiàn)在超級計算機的研究方向是不斷提升性價比,在額定功耗下盡可能提升運算速度。
這時,超算算法的意義就不言而喻。通俗地說,超算算法的意義在于,找出更高效率的計算方法,最大限度地充分利用超級計算機的計算能力,這是對人們體力、腦力和基礎知識的考驗。
一則2010年初轟動世界的新聞,剛好可以驗證算法的威力。法國一名程序員用一臺價值2000歐元的普通臺式機,打破當時世界排名第42位的T2K Open超級計算機保持的世界紀錄。
因此,相比超級計算機硬件的快速發(fā)展,目前全世界更看重超算應用領域的研究。
劉軍介紹,雖然中國擁有世界最快的超級計算機天河二號,但我國在超算應用領域還十分薄弱,九成以上的超算軟件都依賴國外進口。這也導致我國雖然擁有性能很強的大型超算系統(tǒng),卻缺乏相匹配的大規(guī)模并行軟件,很多大型超級計算機不得不拆分成小規(guī)模的集群來跑應用,大系統(tǒng)并沒有發(fā)揮出應有的價值,這實在是一種很大的浪費。
目前,我國在應用軟件上能跑到萬億次以上的不是非常多,也就是說超級計算機的利用率并不高。超級計算機的使用要非常謹慎,用不好就是燒錢的。高效能服務器和存儲技術國家重點實驗室主任、浪潮集團執(zhí)行總裁王恩東也告訴南方日報記者,如何把超算用好是全球性問題,要想讓超級計算機真正成為推動科學技術創(chuàng)新和社會經濟發(fā)展的發(fā)動機,必須要從應用創(chuàng)新和人才培養(yǎng)入手,充分發(fā)揮硬件的計算潛力。
鏈接
全球500強超級計算機美國擁有一半
從1983年我國第一臺被命名為銀河的億次巨型電子計算機誕生,到2013年天河二號以峰值計算速度每秒5.49億億次再度奪冠,可以說,中國人用30年實現(xiàn)了超算趕超的大跨越。
不過,雖然天河二號成功突圍,但在整體實力上,中國與超級計算機第一大國美國相比還有不小的差距。
《人民日報》2014年1月統(tǒng)計數據顯示,單論超級計算機的數量,美國擁有全球500強超級計算機中的253個,總數較其他國家和地區(qū)的總和還要多,優(yōu)勢明顯。中國大陸共有65個超級計算機進入500強榜單,位居第二。日本以30個位列第三。英、法、德國分別以29個、23個和19個位列第四至第六位。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03