
作者 | Tessella
編譯 | CDA數(shù)據(jù)分析師
將AI專有技術(shù)應(yīng)用于從世界領(lǐng)先,最強(qiáng)大的科學(xué)儀器收集的龐大數(shù)據(jù)池中,可以加速科學(xué)發(fā)現(xiàn)的過程。強(qiáng)大的機(jī)器學(xué)習(xí)方法提供了從原始實(shí)驗(yàn)數(shù)據(jù)中提取科學(xué)意義的新方法,最終可以幫助資助者從研究投資中釋放更多價(jià)值。
諸如中子和同步加速器源之類的大規(guī)模實(shí)驗(yàn)設(shè)施已成為現(xiàn)代科學(xué)研究的基本要素,使來訪的研究人員能夠探究許多不同類型材料的結(jié)構(gòu)和特性。它們還會(huì)生成大量的實(shí)驗(yàn)數(shù)據(jù),如果沒有專門的實(shí)驗(yàn)知識(shí),訪問科學(xué)家可能很難從原始數(shù)據(jù)集中提取有意義的信息。結(jié)果,在其寶貴的波束時(shí)間期間收集的某些數(shù)據(jù)將永遠(yuǎn)無法得到正確的分析。
好消息是,在過去的10年中,這種情況已得到顯著改善,由領(lǐng)先的中子設(shè)施財(cái)團(tuán)共同努力,以簡化和標(biāo)準(zhǔn)化用于分析來自中子散射和μ子光譜實(shí)驗(yàn)數(shù)據(jù)的軟件。這個(gè)名為MANTiD的框架支持通用的數(shù)據(jù)結(jié)構(gòu)和共享的算法,使來訪的科學(xué)家能夠輕松地處理和可視化他們的實(shí)驗(yàn)結(jié)果。
Tessella的高級(jí)項(xiàng)目經(jīng)理之一尼克·德雷珀(Nick Draper)表示:“這一共同框架有助于來訪的科學(xué)家掌握不同設(shè)施的儀器?!?“但是它也可以幫助研究人員在同一設(shè)施中使用不同的儀器?!?/span>
下一個(gè)重大挑戰(zhàn)
根據(jù)長期參與大型科學(xué)項(xiàng)目支持的德雷珀所說,下一個(gè)主要挑戰(zhàn)是使來自不同科學(xué)背景的研究人員更容易分析和解釋可以產(chǎn)生的復(fù)雜實(shí)驗(yàn)結(jié)果。“通常,不僅有一個(gè)模型適合您的數(shù)據(jù),可能有20或30個(gè)選項(xiàng),有時(shí)并不確定要選擇哪種模型,” Draper解釋說。“目前,需要真正了解儀器實(shí)驗(yàn)的儀器科學(xué)家的專家意見來指導(dǎo)和指導(dǎo)采用哪種方法?!?/span>
但是,隨著越來越多的數(shù)據(jù)要通過,這會(huì)造成延遲結(jié)果的瓶頸。加快流程的一種選擇是利用人工智能(AI)來幫助模型選擇。這個(gè)概念有些研究人員可能會(huì)感到不安,但是Draper的同事Matt Tess(泰斯拉(Tessella)的分析師,密切關(guān)注最新的行業(yè)趨勢)對此有些放心。他說:“人工智能是在幫助人類,它不是在治理和提供答案,而是在不斷擴(kuò)大。”
馬特·瓊斯(Matt Jones)跟隨著AI從早期的單一產(chǎn)品到今天的基于云的解決方案的興起,并指出了它在輔助藥物開發(fā)方面的成功。一個(gè)示例是在擴(kuò)大藥物發(fā)現(xiàn)流程時(shí)進(jìn)行的AI增強(qiáng)分析–反過來又使專家騰出精力來從事更高價(jià)值的任務(wù)。他主張采取量身定制的方法來最大化收益。他評論說:“構(gòu)建了最準(zhǔn)確,最好的解決方案來解決眼前的緊迫問題?!?/span>
如今,圍繞人工智能的嗡嗡聲已經(jīng)不容忽視。令我們震驚的是,在國際象棋和圍棋比賽中可以擊敗大師級(jí)比賽的計(jì)算機(jī),以及功能日益強(qiáng)大的語音識(shí)別和機(jī)器翻譯工具,為我們帶來了驚喜。在亮點(diǎn)列表中,您還可以在圖像識(shí)別方面增加突破性發(fā)展,并在無人駕駛車輛中取得進(jìn)步。但是,為什么現(xiàn)在都在發(fā)生呢?畢竟,許多機(jī)器學(xué)習(xí)算法已經(jīng)存在了數(shù)十年。
深度學(xué)習(xí)依賴于高性能計(jì)算(STFC)
關(guān)鍵因素是規(guī)模的影響,特別是數(shù)據(jù)和可用計(jì)算能力的并行增長。尤其是深度學(xué)習(xí),這改變了一種技術(shù)的功能,而深度學(xué)習(xí)則受益于大型數(shù)據(jù)集的可用性。當(dāng)其他方法向您提供更多信息時(shí)達(dá)到平穩(wěn)狀態(tài)時(shí),深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)的性能將不斷提高。而且,神經(jīng)網(wǎng)絡(luò)越大(或越深),其吸收其輸入值并提供有意義的輸出的能力就越大。
將大數(shù)據(jù)與大量計(jì)算相結(jié)合,可以創(chuàng)建具有許多所謂的隱藏層的人工神經(jīng)網(wǎng)絡(luò)。這些深度學(xué)習(xí)系統(tǒng)是巨大的數(shù)學(xué)函數(shù),包含多層節(jié)點(diǎn),配備有自動(dòng)調(diào)整的權(quán)重和偏差,所有這些值都夾在一系列輸入和輸出之間。數(shù)據(jù)和計(jì)算的豐富結(jié)合,以及對如何訓(xùn)練(或傳播)這些強(qiáng)大的多層網(wǎng)絡(luò)的更深入了解,現(xiàn)在正在將機(jī)器學(xué)習(xí)技術(shù)的性能推向新的高度。
享受利益
不利的一面是,研究小組需要訪問大量數(shù)據(jù)和大量計(jì)算以充分利用深度學(xué)習(xí)的好處,并且需要能夠啟動(dòng)和運(yùn)行這些系統(tǒng)的團(tuán)隊(duì)的支持。
STFC首席數(shù)據(jù)科學(xué)家Tony Hey和他的團(tuán)隊(duì)意識(shí)到了這個(gè)問題。為了幫助研究人員從實(shí)驗(yàn)中更有效地提取更多科學(xué),Hey成立了一個(gè)科學(xué)機(jī)器學(xué)習(xí)小組,與英國國家數(shù)據(jù)科學(xué)和人工智能研究院Alan Turing Institute密切合作。Hey還與STFC的Ada Lovelace中心建立了聯(lián)系,該中心正在建立為一個(gè)綜合的,跨學(xué)科的,數(shù)據(jù)密集型科學(xué)中心,該中心有可能通過跨學(xué)科的數(shù)據(jù)處理,計(jì)算機(jī)模擬和數(shù)據(jù)方法來轉(zhuǎn)變大型科學(xué)機(jī)構(gòu)的研究分析。
Hey的目標(biāo)包括將AI和先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于Harwell校區(qū)由STFC支持的設(shè)施生成的實(shí)驗(yàn)數(shù)據(jù):Diamond同步加速器源;ISIS中子和μ子源;英國的中央激光設(shè)施;NERC環(huán)境數(shù)據(jù)分析中心及其JASMIN超級(jí)數(shù)據(jù)集群。
“對龐大數(shù)據(jù)集的分析需要自動(dòng)化和機(jī)器幫助,因?yàn)閿?shù)據(jù)量超出了手工處理的范圍,” Hey說道?!暗?,在從機(jī)器獲取數(shù)據(jù)到可以對結(jié)果進(jìn)行科學(xué)處理的過程中,有很多機(jī)會(huì)可以嘗試幫助自動(dòng)化管道中的數(shù)據(jù)流?!苯⒋斯艿佬枰獛椭芯咳藛T更多地了解機(jī)器學(xué)習(xí)算法。他指出:“您需要透明和易于理解的方法,而不是黑匣子,而是各種方法將如何使您獲得答案?!盚ey熱衷于發(fā)展他所描述的機(jī)器學(xué)習(xí)基準(zhǔn)。他還希望利用粒子物理學(xué)和天文學(xué)等社區(qū)的現(xiàn)有專業(yè)知識(shí),這些社區(qū)已經(jīng)在一段時(shí)間內(nèi)處理了PB級(jí)的大數(shù)據(jù)挑戰(zhàn)。目的是為其他學(xué)科可以利用的機(jī)器學(xué)習(xí)和AI創(chuàng)建更廣泛的支持結(jié)構(gòu)。這意味著能夠去除行話,并使諸如數(shù)據(jù)分類模型之類的過程在給定領(lǐng)域之外易于理解。
教學(xué)實(shí)驗(yàn)室
降低準(zhǔn)入門檻的一種方法是提供CEH的約翰·沃特金斯所稱的“教學(xué)實(shí)驗(yàn)室”,例如C ++例程已打包到R庫中,并與數(shù)據(jù)集結(jié)合在一起,然后包裝在基于Web的環(huán)境中。 R-shiny應(yīng)用程序,方便訪問。他說:“他們讓人們查看各種算法,并與他們一起玩耍以學(xué)習(xí)其特定特征,并發(fā)現(xiàn)方法在他們的工作中可能有用或可能沒有用?!睂τ谖痔亟鹚梗╓atkins)和他的環(huán)境科學(xué)同事來說,一種尺寸很少適合所有人。該領(lǐng)域的研究人員通常需要了解來自不同來源的各種數(shù)據(jù),例如,陸地和大氣中傳感器的輸出以及海洋學(xué)測量結(jié)果。
科學(xué)家需要有機(jī)會(huì)嘗試不同的AI算法(iStock / Alvarez)
他建議說:“理想情況下,您希望使用各種工具來訪問一組數(shù)據(jù)并比較結(jié)果以找出最有效的方法?!?“您不希望自己只能用一種方法攻擊它,因?yàn)槟鞘悄ㄒ坏哪芰Α!背巳コ性挷⑻峁┛稍L問且經(jīng)過基準(zhǔn)測試的工具外,還有其他注意事項(xiàng)。支持給定任務(wù)的最佳工作流程也很重要,該任務(wù)可能是在HPC上運(yùn)行模型,將結(jié)果存儲(chǔ)在大型數(shù)據(jù)集群上,然后在重要的數(shù)據(jù)部分已經(jīng)存儲(chǔ)后切換到較小規(guī)模的操作。
顯然,這是多技能團(tuán)隊(duì)的工作,他們不僅可以導(dǎo)航技術(shù),還可以導(dǎo)航AI所針對的科學(xué)?;氐轿覀兦懊娴氖纠褂眯〗嵌戎凶由⑸鋽?shù)據(jù)進(jìn)行試點(diǎn)分析使Draper受到鼓舞,現(xiàn)在使用AI引導(dǎo)用戶轉(zhuǎn)向使用球形模型或圓柱形模型來擬合數(shù)據(jù)。早期的結(jié)果令人鼓舞,但下一個(gè)問題是,當(dāng)選擇多達(dá)40種不同的模型時(shí),該方法是否仍然有效。
只是開始
德雷珀(Draper)和他的泰瑟拉(Tessella)同事馬特·瓊斯(Matt Jones)認(rèn)為,這僅僅是趨勢的開端,這種趨勢可能會(huì)徹底改變科學(xué)數(shù)據(jù)的分析,研究界對AI的潛在利益越來越感興趣?!拔覀儸F(xiàn)在才剛剛開始刺破這個(gè)未來的邊緣,”馬特·瓊斯(Matt Jones)說。他預(yù)計(jì)會(huì)出現(xiàn)更多的對話類型界面以及諸如虛擬現(xiàn)實(shí)之類的可視化方法,這些方法將有助于呈現(xiàn)高度詳細(xì)的科學(xué)結(jié)構(gòu)和復(fù)雜的數(shù)據(jù)。
“ AI對于未來來說確實(shí)是一個(gè)非常有趣的地方,” Draper補(bǔ)充道,他也清楚地意識(shí)到了這一障礙。他指出:“您需要大量的培訓(xùn)數(shù)據(jù),并且必須正確標(biāo)記數(shù)據(jù)?!钡?,如果不存在訓(xùn)練數(shù)據(jù)或僅提供有限的訓(xùn)練數(shù)據(jù),會(huì)發(fā)生什么?一種想法是反向生成圖像,以指示特定模型的外觀。Draper說:“如果使用不同的參數(shù)進(jìn)行大量操作,混合靜態(tài)圖像并使圖像失真以使其盡可能逼真,則可以創(chuàng)建訓(xùn)練數(shù)據(jù)?!?“挑戰(zhàn)在于確保您不只是簡單地訓(xùn)練數(shù)據(jù)集以識(shí)別您創(chuàng)建的內(nèi)容,而不是實(shí)際的實(shí)驗(yàn)結(jié)果。”
事實(shí)證明,匯總多個(gè)信號(hào)的合成數(shù)據(jù)有助于增強(qiáng)語音識(shí)別能力,例如,通過訓(xùn)練系統(tǒng)來克服背景噪聲(例如車內(nèi)噪音),因此再次證明,在一個(gè)部門中發(fā)展的知識(shí)可能可以跨不同領(lǐng)域轉(zhuǎn)移。
預(yù)測能力
成功部署AI要求團(tuán)隊(duì)具有跨多個(gè)領(lǐng)域的才能:對數(shù)據(jù)的理解,對機(jī)器學(xué)習(xí)算法的知識(shí)以及統(tǒng)計(jì)方法,以及高性能或集群計(jì)算方面的專業(yè)知識(shí)。但是潛在的回報(bào)使挑戰(zhàn)值得克服,并且可以擴(kuò)展到分析實(shí)驗(yàn)結(jié)果以外的其他領(lǐng)域。
據(jù)報(bào)道,Google通過使用深度學(xué)習(xí)來降低其數(shù)據(jù)中心的運(yùn)營成本,從而節(jié)省了一筆巨款。當(dāng)機(jī)械接近故障并應(yīng)予以更換時(shí),算法可以警告操作員,從而最大程度地減少停機(jī)時(shí)間。輸出還可以告知最佳維修頻率,以使設(shè)備盡可能長時(shí)間地保持可靠的工作狀態(tài)。
泰塞拉(Tessella)的凱文·伍茲(Kevin Woods)指出,這種預(yù)測能力也可以應(yīng)用在大型科學(xué)機(jī)構(gòu)中,他是參與儀器控制系統(tǒng)更新的高級(jí)項(xiàng)目經(jīng)理。他說:“通過觀察(信號(hào)中的)長期模式,您實(shí)際上可以發(fā)現(xiàn)即將發(fā)生的故障?!?一個(gè)例子可能是電動(dòng)機(jī)工作溫度的逐漸升高,這可能表明致動(dòng)單元正在過熱。
到目前為止的結(jié)果表明,對AI的投資可以帶來多重回報(bào)。機(jī)器學(xué)習(xí)具有極大地加速跨不同領(lǐng)域的大數(shù)據(jù)分析的潛力,希望使研究團(tuán)隊(duì)能夠更快地了解日益復(fù)雜的現(xiàn)象。為了取得成功,研究人員需要輕松訪問大量數(shù)據(jù)集,大量計(jì)算量,并且需要進(jìn)行實(shí)驗(yàn)并了解哪種算法最適合該任務(wù)的能力。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10