
大數(shù)據(jù)與大科學(xué)_數(shù)據(jù)分析師
最近去武漢參加第八屆全國測試學(xué)術(shù)會議,包括硬件測試、軟件測試,碰到許多老朋友和新朋友,大家議論了許多。我和大家交流了在CACM上看到的Big data meets big science,也頗有感觸。
在斯坦福的國家加速器實(shí)驗(yàn)室,大氣觀測望遠(yuǎn)鏡到2020年要安裝一個32億像素(3.2GP)的照相機(jī),10年以后每晚每隔15秒攝取極高分辨率的天空圖像。該系統(tǒng)需要存儲10億億字節(jié)(100PB)的數(shù)據(jù),相當(dāng)于2000萬個DVD。當(dāng)然,通過這個照相機(jī)獲得的原始數(shù)據(jù)比這還要多得多。這個照相機(jī)的視野里面有400億~500億天文目標(biāo)。長久存儲這些像素幾乎是不可能的,只能實(shí)時處理和提取關(guān)鍵數(shù)據(jù)。大型科學(xué)儀器,從大型強(qiáng)子碰撞型加速裝置到高級光束處理器和分子成像工具產(chǎn)生大量數(shù)據(jù),是目前的并行超級計(jì)算機(jī)所無法處理的。
可目前看到的現(xiàn)實(shí)是:1.摩爾定律已經(jīng)失效,因?yàn)榫w管尺寸已經(jīng)達(dá)到物理極限。2.超級計(jì)算機(jī)已經(jīng)不能再這樣用CPU堆下去了。成千上萬,甚至幾十萬的CPU、GPU堆起來的超級計(jì)算機(jī),耗電驚人,而并行計(jì)算實(shí)際上很難實(shí)現(xiàn)。大部分時間,CPU閑著,而Memory忙得要命。3.馮諾伊曼計(jì)算機(jī)體系結(jié)構(gòu)非改不可了。存儲計(jì)算的方式已經(jīng)不適用新情況。對于許多應(yīng)用來說,實(shí)際的瓶頸不是處理時間,而是需要不斷地存取存儲器。
一個明顯的事實(shí)是,雖然我國的天河超級計(jì)算機(jī)幾次排名世界第一,但美國最近基本不參與這個排名的競爭,排第幾也不關(guān)心了。
對于大數(shù)據(jù)的問題,怎么解決?科學(xué)家們主要采取三個途徑:一個是從觀測開始各環(huán)節(jié)設(shè)法減小數(shù)據(jù)集;一個是從私人企業(yè)學(xué)習(xí)基于云計(jì)算的經(jīng)驗(yàn);另一個是探索新技術(shù),譬如量子計(jì)算。
量子計(jì)算對于破解密碼、因子分解、量子物理模擬可能很有效,但是,對組合優(yōu)化、航空調(diào)度、絕熱算法是否有效,還很難說。所以,大科學(xué)產(chǎn)生大數(shù)據(jù),大數(shù)據(jù)技術(shù)要靠大科學(xué)。物理學(xué)、光學(xué)、生物學(xué)、計(jì)算科學(xué)一起來,研究這些數(shù)據(jù)的收集、分發(fā)、存儲、處理。不能單靠計(jì)算機(jī)。我曾撰文說:大數(shù)據(jù)技術(shù)靠計(jì)算機(jī),大數(shù)據(jù)分析要靠各領(lǐng)域的專家,現(xiàn)在看來,大數(shù)據(jù)技術(shù)也要靠大科學(xué)的專家。
在這樣一個創(chuàng)新的關(guān)鍵時刻,中國人應(yīng)該有所作為。不要天天想著發(fā) SCI、投CNS、提職稱、發(fā)牢騷,想想這些大問題吧!但是,我跟與會的朋友們說,不管計(jì)算機(jī)怎么變,容錯計(jì)算是一個永恒的主題,在量子計(jì)算中,人們也在密切關(guān)注容錯計(jì)算。高端容錯計(jì)算機(jī)的實(shí)用價(jià)值就更不用說了,大家都懂得。
我想補(bǔ)充幾句話:微納電子產(chǎn)業(yè)現(xiàn)在還很興旺,市場仍然很大;超級計(jì)算機(jī),特別是其應(yīng)用還是要搞,從科學(xué)研究的角度講要有些前瞻性
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SASEM 決策樹:理論與實(shí)踐應(yīng)用 在復(fù)雜的決策場景中,如何從海量數(shù)據(jù)中提取有效信息并制定科學(xué)決策,是各界關(guān)注的焦點(diǎn)。SASEM 決 ...
2025-07-30SPSS 語法使用詳解 在當(dāng)今數(shù)據(jù)驅(qū)動的時代,SPSS( Statistical Package for the Social Sciences)作為一款功能強(qiáng)大的統(tǒng)計(jì)分析軟 ...
2025-07-30人工智能對CDA數(shù)據(jù)分析領(lǐng)域的影響 人工智能對 CDA(Certified Data Analyst,注冊數(shù)據(jù)分析師)數(shù)據(jù)分析領(lǐng)域的影響是全方位、多層 ...
2025-07-30MySQL執(zhí)行計(jì)劃中rows的計(jì)算邏輯:從原理到實(shí)踐 MySQL 執(zhí)行計(jì)劃中 rows 的計(jì)算邏輯:從原理到實(shí)踐 在 MySQL 數(shù)據(jù)庫的查詢優(yōu)化中 ...
2025-07-29左偏態(tài)分布轉(zhuǎn)正態(tài)分布:方法、原理與實(shí)踐 左偏態(tài)分布轉(zhuǎn)正態(tài)分布:方法、原理與實(shí)踐 在統(tǒng)計(jì)分析、數(shù)據(jù)建模和科學(xué)研究中,正態(tài)分 ...
2025-07-29CDA 數(shù)據(jù)分析師的職業(yè)生涯規(guī)劃:從入門到卓越的成長之路 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的當(dāng)下,數(shù)據(jù)已成為企業(yè)核心競爭力的重要來源,而 CD ...
2025-07-29CDA數(shù)據(jù)分析師證書考取全攻略 一、了解 CDA 數(shù)據(jù)分析師認(rèn)證 CDA 數(shù)據(jù)分析師認(rèn)證是一套科學(xué)化、專業(yè)化、國際化的人才考核標(biāo)準(zhǔn), ...
2025-07-29解析神經(jīng)網(wǎng)絡(luò)中 Softmax 函數(shù)的核心作用 在神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程中,激活函數(shù)扮演著至關(guān)重要的角色,它們?yōu)榫W(wǎng)絡(luò)賦予了非線性能力, ...
2025-07-29解析 response.text 與 response.content 的核心區(qū)別 在網(wǎng)絡(luò)數(shù)據(jù)請求與處理的場景中,開發(fā)者經(jīng)常需要從服務(wù)器返回的響應(yīng)中提取數(shù) ...
2025-07-29鳶尾花判別分析:機(jī)器學(xué)習(xí)中的經(jīng)典實(shí)踐案例 在機(jī)器學(xué)習(xí)的世界里,有一個經(jīng)典的數(shù)據(jù)集如同引路明燈,為無數(shù)初學(xué)者打開了模式識別 ...
2025-07-29用 Python 開啟數(shù)據(jù)分析之旅:從基礎(chǔ)到實(shí)踐的完整指南 在數(shù)據(jù)驅(qū)動決策的時代,數(shù)據(jù)分析已成為各行業(yè)不可或缺的核心能力。而 Pyt ...
2025-07-29從 CDA LEVEL II 考試題型看 Python 數(shù)據(jù)分析要點(diǎn) 在數(shù)據(jù)科學(xué)領(lǐng)域蓬勃發(fā)展的當(dāng)下,CDA(Certified Data Analyst)認(rèn)證成為眾多從 ...
2025-07-29CDA 數(shù)據(jù)分析師的工作范圍解析 在數(shù)字化時代的浪潮下,數(shù)據(jù)已成為企業(yè)發(fā)展的核心資產(chǎn)之一。CDA(Certified Data Analyst)數(shù)據(jù)分 ...
2025-07-29解析 insert into select 是否會鎖表:原理、場景與應(yīng)對策略 在數(shù)據(jù)庫操作中,insert into select 是一種常用的批量數(shù)據(jù)插入語句 ...
2025-07-29用 Power BI 制作地圖熱力圖:基于經(jīng)緯度數(shù)據(jù)的實(shí)踐指南 在數(shù)據(jù)可視化領(lǐng)域,地圖熱力圖憑借直觀呈現(xiàn)地理數(shù)據(jù)分布密度的優(yōu)勢,成 ...
2025-07-29從數(shù)據(jù)到?jīng)Q策:CDA 數(shù)據(jù)分析師如何重塑職場競爭力與行業(yè)價(jià)值 在數(shù)字經(jīng)濟(jì)席卷全球的今天,數(shù)據(jù)已從 “輔助工具” 升級為 “核心資 ...
2025-07-292025 年 CDA 數(shù)據(jù)分析師考綱煥新,引領(lǐng)行業(yè)人才新標(biāo)準(zhǔn) 在數(shù)字化浪潮奔涌向前的當(dāng)下,數(shù)據(jù)已成為驅(qū)動各行業(yè)發(fā)展的核心要素。作為 ...
2025-07-29PyTorch 核心機(jī)制:損失函數(shù)與反向傳播如何驅(qū)動模型進(jìn)化 在深度學(xué)習(xí)的世界里,模型從 “一無所知” 到 “精準(zhǔn)預(yù)測” 的蛻變,離 ...
2025-07-29t 檢驗(yàn)與 Wilcoxon 檢驗(yàn):數(shù)據(jù)差異分析的兩大核心方法 在數(shù)據(jù)分析的廣闊領(lǐng)域中,判斷兩組或多組數(shù)據(jù)之間是否存在顯著差異是一項(xiàng) ...
2025-07-29PowerBI 添加索引列全攻略 在使用 PowerBI 進(jìn)行數(shù)據(jù)處理與分析時,添加索引列是一項(xiàng)極為實(shí)用的操作技巧。索引列能為數(shù)據(jù)表中的每 ...
2025-07-29