
大數(shù)據(jù)人才流失: 科研為何陷入困境_數(shù)據(jù)分析師
然而近年來,科學(xué)研究領(lǐng)域加速轉(zhuǎn)變到以數(shù)據(jù)為核心,是有負面影響的??偨Y(jié)來說就是:稱職的科學(xué)研究者需要的能力,和稱職的工業(yè)界從業(yè)人員需要的能 力,越來越無法區(qū)分。具有典型惰性的學(xué)術(shù)界剛剛開始適應(yīng)這一轉(zhuǎn)變,而其他領(lǐng)域早已開始大規(guī)模鼓勵和獎勵這種能力。不幸的是,這導(dǎo)致了很多有才的準研究者難 以在學(xué)術(shù)界立足,只能投入財大氣粗的工業(yè)界的懷抱。
數(shù)據(jù)的神奇效果
20世紀60年代,物理學(xué)家Eugene Wigner發(fā)表了他的著作:數(shù)學(xué)在自然科學(xué)界的神奇效果。它論述了抽象的數(shù)學(xué)概念在上下文中的有效性,遠遠超過產(chǎn)生這些概念的上下文,其差距到了驚人的 地步。畢竟,誰能想到Riiemannn在20世紀研究的非歐集合會是愛因斯坦重新思考萬有引力的基礎(chǔ)?誰又能想到,抽象固體的旋轉(zhuǎn)群的編纂幾乎最終導(dǎo)致 了物理學(xué)家成功地預(yù)測希格斯玻色子的存在?
谷歌研究者Alon Halevy, Peter Norving和Fernando Pereira于2009年以數(shù)據(jù)的神奇效果為題發(fā)表的文章響應(yīng)了這一觀點。文章展現(xiàn)其驚人的洞察力:只要有足夠的數(shù)據(jù),數(shù)學(xué)模型的斟酌選擇不再重要 尤其是對他們所研究的自動語言翻譯來說,比起很少的數(shù)據(jù)及其精確模型,簡單模型和大量的數(shù)據(jù)更有勝算。
如果我們大膽假設(shè)這個觀點可以延伸(至少是部分延伸)至自然語言處理之外,那么僅僅是數(shù)據(jù)挖掘這一項技能都會逐步打敗領(lǐng)域知識。我相信這一預(yù)言已被證實:眾多學(xué)術(shù)領(lǐng)域,有效地處理數(shù)據(jù)的能力正在取代其他更經(jīng)典的研究模式。
我并不是說對某一領(lǐng)域的精通已經(jīng)完全過時。如果不理解粒子相互作用理論,大型強子對撞機(LHC)產(chǎn)生的10Gb每秒的速度將一無用處,就像只有理 解物理過程驅(qū)動空間爆炸的理論,大型天文望遠鏡(LSST)產(chǎn)生的每晚15TB的原圖像數(shù)據(jù)才能幫助我們理解宇宙學(xué)。然而,LHC和LSST反映了越來越 普遍的現(xiàn)象:科學(xué)研究結(jié)果完全依賴對大量數(shù)據(jù)的精確分析。實際上,我們發(fā)現(xiàn),即使數(shù)據(jù)量并不足夠大,能夠?qū)λ鼈兲幚?、抽象、挖掘和從?shù)據(jù)中學(xué)習(xí)的研究 者也在逐步促進科學(xué)進步。
新型科學(xué)家
從某種意義來說,數(shù)據(jù)驅(qū)動的研究是過去的研究趨勢的簡單延續(xù)。自16-17世紀科研分離出亞里士多德哲學(xué),科學(xué)進步已基本依賴試驗和觀察。要知道, 是第谷16世紀開創(chuàng)性的對天空的研究,促動了17世紀開普勒的行星運動規(guī)律的研究,繼而為牛頓的萬有引力定律鋪平道路,最終形成愛因斯坦的廣義相對論。科 學(xué)家始終在努力處理數(shù)據(jù),區(qū)別只在于這一努力如今正成為科學(xué)研究過程的核心。
不過,科學(xué)研究逐步以數(shù)據(jù)為中心已經(jīng)產(chǎn)生了解決問題的新辦法:進入LHC、LSST時代,善于運用高性能并行數(shù)據(jù)統(tǒng)計算法探索大量的群體性數(shù)據(jù)集的 研究者,以及新的統(tǒng)計方法、機器學(xué)習(xí)算法、高速代碼,以前所未有的規(guī)模重復(fù)進行典型分析的應(yīng)用,推動了振奮人心的研究。簡而言之,新型科學(xué)家一定是精通統(tǒng) 計、計算、構(gòu)建算法、軟件設(shè)計、領(lǐng)域技能(可能作事后使用)的多棲專家。在粒子物理學(xué)、生物學(xué)、化學(xué)、神經(jīng)科學(xué)、海洋科學(xué)、 大氣物理學(xué)等幾乎所有領(lǐng)域,研究越來越趨向于數(shù)據(jù)驅(qū)動,同時數(shù)據(jù)收集的速度絲毫沒有放緩的跡象。
科學(xué)軟件的基礎(chǔ)作用
科學(xué)軟件的共同點,是這些工作都離不開編寫代碼。高質(zhì)量的、組織良好的公共代碼才能對科學(xué)過程極為重要的重現(xiàn)產(chǎn)生影響。諸多公共軟件都是關(guān)于當前的非再生性科學(xué)危機、新的出版形式的需要、新的研究、代碼和數(shù)據(jù)公開訪問。此處不再詳談更多。
此處我想詳細討論的是,優(yōu)化的專業(yè)軟件對大型數(shù)據(jù)集分析和抽象的核心作用,以及它成為現(xiàn)代科學(xué)研究的核心的演繹過程。我的合作者Gael Varoquauz以及他的同事最近發(fā)表評論證實了這一觀點(見Gael的簡介),并就公共的,組織良好的健壯的科學(xué)代碼對于現(xiàn)代科學(xué)研究的重現(xiàn)性和研究 本身的進步都必不可少這一論點進行了實例研究。過去的研究結(jié)果,如果只是在論文中簡單提及,而產(chǎn)生這結(jié)果的實際過程的代碼未經(jīng)組織,這樣的結(jié)果就不能作為 新的研究的基礎(chǔ)。就像是Buckheit和Donoho曾說的:
學(xué)術(shù)期刊上的計算科學(xué)的文章并不是學(xué)術(shù),他們只是學(xué)術(shù)的幌子。真正的學(xué)術(shù)是完整的軟件開發(fā)環(huán)境,以及計算出數(shù)字的完整指令集。
公開代碼看起來像是馬后炮,但是一般來講,僅僅發(fā)布代碼是不夠的。像Brandon Rhodes在Rupy 2013 Talk中說的那樣,一個程序運行正常,總好過它勉強能正常運行。讓代碼對在科學(xué)研究之外的作者有用需要相當大的投入。這種項目具有難以估計的價值, 就像NumPy項目,Scikit-learn項目,等等。它們?yōu)檠芯空咛峁┮粋€框架,在此框架下,代碼可以共享,在github上共同審閱和發(fā)布,以此 造福研究社區(qū)。
學(xué)術(shù)界的斷層
這是學(xué)術(shù)界的弊?。罕M管有層次的高質(zhì)量軟件正成為現(xiàn)在的科學(xué)研究模式的核心,并且這些實踐將有助于學(xué)術(shù)研究的成功,學(xué)術(shù)界卻非常成功的阻止了這一實 踐。發(fā)表或者毀滅的模式中,論文制約著大多數(shù)研究型高校,相當于學(xué)術(shù)獎勵框架的貨幣,而花費在構(gòu)建和編寫軟件工具上的時間統(tǒng)統(tǒng)不算是寫論文的時間。這 就導(dǎo)致,除非是某種特殊情況,專注于可復(fù)用的開放軟件的人很難在學(xué)術(shù)界獲得晉升的機會。這些可憐的人們,期待著在科學(xué)軟件的發(fā)展而不是研究論文中獲得成 就,往往會發(fā)現(xiàn)他們已置身于學(xué)術(shù)群體的邊緣。
某種程度上,這種斷層一直存在。學(xué)術(shù)界總獎勵某些技能,而損害其他技能:教學(xué)就是一個長期被邊緣化的技能。然而這其中的兩個主要的區(qū)別使得學(xué)術(shù)界的斷層更加令人擔(dān)憂:
前面提到的構(gòu)建和編寫軟件工具的技能,正滑向?qū)W術(shù)獎勵框架邊緣,而它恰恰是現(xiàn)代的研究能否成功的關(guān)鍵
幾乎全世界都在使用密集數(shù)據(jù)挖掘工具的同時,學(xué)術(shù)界忽略的不以為然的技術(shù)正是工業(yè)界最看重最鼓勵的
這場風(fēng)暴導(dǎo)致技術(shù)純熟的研究者漸漸滑離研究而偏向工業(yè)界。學(xué)術(shù)界盡管也存在專注于軟件的工作,但那些工作基本薪水很低,沒有地位,也沒有晉升及機 會。與之相比,工業(yè)界吸引力超高:它致力于解決有趣的緊迫的問題,提供優(yōu)越的薪水和福利,幫助博士后從工作站之間的遷徙中解脫出來,甚至鼓勵基礎(chǔ)課題的研 究和發(fā)表。這種情況下還能留在學(xué)術(shù)界簡直是奇跡。
我所研究的天文學(xué)和天體物理領(lǐng)域尤其讓人擔(dān)心。LSST項目正在籌備這一個十年底的第一個目標:十年內(nèi)能夠?qū)崟r處理每晚30TB的數(shù)據(jù),這一目標極 其激進。要處理這樣大量的數(shù)據(jù),未來幾年,這個項目可能要招募數(shù)十名以數(shù)據(jù)為中心的天文學(xué)研究者??紤]到所需技術(shù)和當前的薪酬水平,以及學(xué)術(shù)界面向工程的 工作的發(fā)展前景,我很懷疑它能夠吸引到足夠的應(yīng)聘者。
學(xué)術(shù)界該如何適應(yīng)
不止我一人在考慮這些問題。我和國內(nèi)外很多人們討論過文中提到的一些話題,了解到有些制定政策的人們和資助機構(gòu)也正在思考這些嚴峻的問題。但是更現(xiàn) 實的問題是怎樣解決這些問題,阻止它惡化。抱怨學(xué)術(shù)界的文化是學(xué)者們的常事,Deidre McCloskey的學(xué)術(shù)威望法則印證了本文的一些觀點:越是實用的領(lǐng)域,越?jīng)]有地位。這話原是在哀嘆基本的論文像是新手的作品從而地位低下,卻很適 用于現(xiàn)在的主題。
我認為威望才是關(guān)鍵:學(xué)術(shù)界采取審慎的措施追趕工業(yè)界的腳步,對于數(shù)據(jù)驅(qū)動的研究必不可少的軟件,給予其開發(fā)者更多的聲望,才是解決這些問題的辦法。研究者,資助機構(gòu)和制定政策的人們也可以采取行動來促進這一過程。以下是一些建議:
學(xué)術(shù)刊物持續(xù)強調(diào)可重現(xiàn)的重要性??芍噩F(xiàn)性是科研過程本身必不可少的要素,而它依賴于開源的高質(zhì)量代碼。將這些代碼視作論文發(fā)表的重要組成部分,能夠提高軟件開發(fā)者在學(xué)術(shù)團體的地位。
推動建立終身制教授評價的新標準。新的標準同時考量公共軟件的開發(fā)和維護以及傳統(tǒng)的論文發(fā)表和教學(xué),這樣投入到編寫整潔的公共代碼的時間就不會再被遏制。
創(chuàng)建并資助新的學(xué)術(shù)就業(yè)體制,幫助博士畢業(yè)生、博士后研究員、研究員和終身教授的就業(yè)。就業(yè)職位應(yīng)特別看重和獎勵公共的,跨學(xué)科的科研軟件的開發(fā),從而為愿意構(gòu)建和維護通用的基礎(chǔ)軟件的研究者提供可行的學(xué)術(shù)職業(yè)發(fā)展道路。
提高博士后科研職位的薪酬。這個建議可能存在爭議,但現(xiàn)在的薪酬水平根本無法保持下去。NIH職位為應(yīng)屆畢業(yè)的博士后提供的基本工資是每年四萬刀 以下。博士后工作七年漲到每年五萬刀。若精通構(gòu)建和維護軟件工具的應(yīng)屆博士后就職于工業(yè)界,薪水會多出好幾倍,并且工業(yè)界尊重他們的計算能力,他們也可以 運用這些能力研究自己感興趣的問題。我很擔(dān)心,學(xué)術(shù)界不及時作出這些調(diào)整的話,未來幾年的科學(xué)研究將遭遇嚴重的障礙。
我們生活在一個振奮人心的時代,加速增長的收集、存儲、處理和學(xué)習(xí)海量數(shù)據(jù)的能力,使得我們對世界的科學(xué)認識的寬度和廣度都在增加。要保持這探索新 事物的節(jié)奏,我們需要激勵研究人員安于研究團體。這不是輕而易舉能解決的問題,但是努力才能保證科研在未來可以健康和可持續(xù)的發(fā)展。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11