
作者 | Tessella
編譯 | CDA數(shù)據(jù)分析師
將AI專有技術應用于從世界領先,最強大的科學儀器收集的龐大數(shù)據(jù)池中,可以加速科學發(fā)現(xiàn)的過程。強大的機器學習方法提供了從原始實驗數(shù)據(jù)中提取科學意義的新方法,最終可以幫助資助者從研究投資中釋放更多價值。
諸如中子和同步加速器源之類的大規(guī)模實驗設施已成為現(xiàn)代科學研究的基本要素,使來訪的研究人員能夠探究許多不同類型材料的結構和特性。它們還會生成大量的實驗數(shù)據(jù),如果沒有專門的實驗知識,訪問科學家可能很難從原始數(shù)據(jù)集中提取有意義的信息。結果,在其寶貴的波束時間期間收集的某些數(shù)據(jù)將永遠無法得到正確的分析。
好消息是,在過去的10年中,這種情況已得到顯著改善,由領先的中子設施財團共同努力,以簡化和標準化用于分析來自中子散射和μ子光譜實驗數(shù)據(jù)的軟件。這個名為MANTiD的框架支持通用的數(shù)據(jù)結構和共享的算法,使來訪的科學家能夠輕松地處理和可視化他們的實驗結果。
Tessella的高級項目經(jīng)理之一尼克·德雷珀(Nick Draper)表示:“這一共同框架有助于來訪的科學家掌握不同設施的儀器?!?“但是它也可以幫助研究人員在同一設施中使用不同的儀器?!?/span>
下一個重大挑戰(zhàn)
根據(jù)長期參與大型科學項目支持的德雷珀所說,下一個主要挑戰(zhàn)是使來自不同科學背景的研究人員更容易分析和解釋可以產(chǎn)生的復雜實驗結果?!巴ǔ?,不僅有一個模型適合您的數(shù)據(jù),可能有20或30個選項,有時并不確定要選擇哪種模型,” Draper解釋說?!澳壳?,需要真正了解儀器實驗的儀器科學家的專家意見來指導和指導采用哪種方法?!?/span>
但是,隨著越來越多的數(shù)據(jù)要通過,這會造成延遲結果的瓶頸。加快流程的一種選擇是利用人工智能(AI)來幫助模型選擇。這個概念有些研究人員可能會感到不安,但是Draper的同事Matt Tess(泰斯拉(Tessella)的分析師,密切關注最新的行業(yè)趨勢)對此有些放心。他說:“人工智能是在幫助人類,它不是在治理和提供答案,而是在不斷擴大?!?/span>
馬特·瓊斯(Matt Jones)跟隨著AI從早期的單一產(chǎn)品到今天的基于云的解決方案的興起,并指出了它在輔助藥物開發(fā)方面的成功。一個示例是在擴大藥物發(fā)現(xiàn)流程時進行的AI增強分析–反過來又使專家騰出精力來從事更高價值的任務。他主張采取量身定制的方法來最大化收益。他評論說:“構建了最準確,最好的解決方案來解決眼前的緊迫問題?!?/span>
深度學習革命
如今,圍繞人工智能的嗡嗡聲已經(jīng)不容忽視。令我們震驚的是,在國際象棋和圍棋比賽中可以擊敗大師級比賽的計算機,以及功能日益強大的語音識別和機器翻譯工具,為我們帶來了驚喜。在亮點列表中,您還可以在圖像識別方面增加突破性發(fā)展,并在無人駕駛車輛中取得進步。但是,為什么現(xiàn)在都在發(fā)生呢?畢竟,許多機器學習算法已經(jīng)存在了數(shù)十年。
深度學習依賴于高性能計算(STFC)
關鍵因素是規(guī)模的影響,特別是數(shù)據(jù)和可用計算能力的并行增長。尤其是深度學習,這改變了一種技術的功能,而深度學習則受益于大型數(shù)據(jù)集的可用性。當其他方法向您提供更多信息時達到平穩(wěn)狀態(tài)時,深度學習的人工神經(jīng)網(wǎng)絡的性能將不斷提高。而且,神經(jīng)網(wǎng)絡越大(或越深),其吸收其輸入值并提供有意義的輸出的能力就越大。
將大數(shù)據(jù)與大量計算相結合,可以創(chuàng)建具有許多所謂的隱藏層的人工神經(jīng)網(wǎng)絡。這些深度學習系統(tǒng)是巨大的數(shù)學函數(shù),包含多層節(jié)點,配備有自動調整的權重和偏差,所有這些值都夾在一系列輸入和輸出之間。數(shù)據(jù)和計算的豐富結合,以及對如何訓練(或傳播)這些強大的多層網(wǎng)絡的更深入了解,現(xiàn)在正在將機器學習技術的性能推向新的高度。
享受利益
不利的一面是,研究小組需要訪問大量數(shù)據(jù)和大量計算以充分利用深度學習的好處,并且需要能夠啟動和運行這些系統(tǒng)的團隊的支持。
STFC首席數(shù)據(jù)科學家Tony Hey和他的團隊意識到了這個問題。為了幫助研究人員從實驗中更有效地提取更多科學,Hey成立了一個科學機器學習小組,與英國國家數(shù)據(jù)科學和人工智能研究院Alan Turing Institute密切合作。Hey還與STFC的Ada Lovelace中心建立了聯(lián)系,該中心正在建立為一個綜合的,跨學科的,數(shù)據(jù)密集型科學中心,該中心有可能通過跨學科的數(shù)據(jù)處理,計算機模擬和數(shù)據(jù)方法來轉變大型科學機構的研究分析。
Hey的目標包括將AI和先進的機器學習技術應用于Harwell校區(qū)由STFC支持的設施生成的實驗數(shù)據(jù):Diamond同步加速器源;ISIS中子和μ子源;英國的中央激光設施;NERC環(huán)境數(shù)據(jù)分析中心及其JASMIN超級數(shù)據(jù)集群。
“對龐大數(shù)據(jù)集的分析需要自動化和機器幫助,因為數(shù)據(jù)量超出了手工處理的范圍,” Hey說道?!暗?,在從機器獲取數(shù)據(jù)到可以對結果進行科學處理的過程中,有很多機會可以嘗試幫助自動化管道中的數(shù)據(jù)流?!苯⒋斯艿佬枰獛椭芯咳藛T更多地了解機器學習算法。他指出:“您需要透明和易于理解的方法,而不是黑匣子,而是各種方法將如何使您獲得答案?!盚ey熱衷于發(fā)展他所描述的機器學習基準。他還希望利用粒子物理學和天文學等社區(qū)的現(xiàn)有專業(yè)知識,這些社區(qū)已經(jīng)在一段時間內處理了PB級的大數(shù)據(jù)挑戰(zhàn)。目的是為其他學科可以利用的機器學習和AI創(chuàng)建更廣泛的支持結構。這意味著能夠去除行話,并使諸如數(shù)據(jù)分類模型之類的過程在給定領域之外易于理解。
教學實驗室
降低準入門檻的一種方法是提供CEH的約翰·沃特金斯所稱的“教學實驗室”,例如C ++例程已打包到R庫中,并與數(shù)據(jù)集結合在一起,然后包裝在基于Web的環(huán)境中。 R-shiny應用程序,方便訪問。他說:“他們讓人們查看各種算法,并與他們一起玩耍以學習其特定特征,并發(fā)現(xiàn)方法在他們的工作中可能有用或可能沒有用?!睂τ谖痔亟鹚梗╓atkins)和他的環(huán)境科學同事來說,一種尺寸很少適合所有人。該領域的研究人員通常需要了解來自不同來源的各種數(shù)據(jù),例如,陸地和大氣中傳感器的輸出以及海洋學測量結果。
科學家需要有機會嘗試不同的AI算法(iStock / Alvarez)
他建議說:“理想情況下,您希望使用各種工具來訪問一組數(shù)據(jù)并比較結果以找出最有效的方法?!?“您不希望自己只能用一種方法攻擊它,因為那是您唯一的能力。”除了去除行話并提供可訪問且經(jīng)過基準測試的工具外,還有其他注意事項。支持給定任務的最佳工作流程也很重要,該任務可能是在HPC上運行模型,將結果存儲在大型數(shù)據(jù)集群上,然后在重要的數(shù)據(jù)部分已經(jīng)存儲后切換到較小規(guī)模的操作。
顯然,這是多技能團隊的工作,他們不僅可以導航技術,還可以導航AI所針對的科學?;氐轿覀兦懊娴氖纠褂眯〗嵌戎凶由⑸鋽?shù)據(jù)進行試點分析使Draper受到鼓舞,現(xiàn)在使用AI引導用戶轉向使用球形模型或圓柱形模型來擬合數(shù)據(jù)。早期的結果令人鼓舞,但下一個問題是,當選擇多達40種不同的模型時,該方法是否仍然有效。
只是開始
德雷珀(Draper)和他的泰瑟拉(Tessella)同事馬特·瓊斯(Matt Jones)認為,這僅僅是趨勢的開端,這種趨勢可能會徹底改變科學數(shù)據(jù)的分析,研究界對AI的潛在利益越來越感興趣。“我們現(xiàn)在才剛剛開始刺破這個未來的邊緣,”馬特·瓊斯(Matt Jones)說。他預計會出現(xiàn)更多的對話類型界面以及諸如虛擬現(xiàn)實之類的可視化方法,這些方法將有助于呈現(xiàn)高度詳細的科學結構和復雜的數(shù)據(jù)。
“ AI對于未來來說確實是一個非常有趣的地方,” Draper補充道,他也清楚地意識到了這一障礙。他指出:“您需要大量的培訓數(shù)據(jù),并且必須正確標記數(shù)據(jù)。”但是,如果不存在訓練數(shù)據(jù)或僅提供有限的訓練數(shù)據(jù),會發(fā)生什么?一種想法是反向生成圖像,以指示特定模型的外觀。Draper說:“如果使用不同的參數(shù)進行大量操作,混合靜態(tài)圖像并使圖像失真以使其盡可能逼真,則可以創(chuàng)建訓練數(shù)據(jù)?!?“挑戰(zhàn)在于確保您不只是簡單地訓練數(shù)據(jù)集以識別您創(chuàng)建的內容,而不是實際的實驗結果?!?/span>
事實證明,匯總多個信號的合成數(shù)據(jù)有助于增強語音識別能力,例如,通過訓練系統(tǒng)來克服背景噪聲(例如車內噪音),因此再次證明,在一個部門中發(fā)展的知識可能可以跨不同領域轉移。
預測能力
成功部署AI要求團隊具有跨多個領域的才能:對數(shù)據(jù)的理解,對機器學習算法的知識以及統(tǒng)計方法,以及高性能或集群計算方面的專業(yè)知識。但是潛在的回報使挑戰(zhàn)值得克服,并且可以擴展到分析實驗結果以外的其他領域。
據(jù)報道,Google通過使用深度學習來降低其數(shù)據(jù)中心的運營成本,從而節(jié)省了一筆巨款。當機械接近故障并應予以更換時,算法可以警告操作員,從而最大程度地減少停機時間。輸出還可以告知最佳維修頻率,以使設備盡可能長時間地保持可靠的工作狀態(tài)。
泰塞拉(Tessella)的凱文·伍茲(Kevin Woods)指出,這種預測能力也可以應用在大型科學機構中,他是參與儀器控制系統(tǒng)更新的高級項目經(jīng)理。他說:“通過觀察(信號中的)長期模式,您實際上可以發(fā)現(xiàn)即將發(fā)生的故障。” 一個例子可能是電動機工作溫度的逐漸升高,這可能表明致動單元正在過熱。
到目前為止的結果表明,對AI的投資可以帶來多重回報。機器學習具有極大地加速跨不同領域的大數(shù)據(jù)分析的潛力,希望使研究團隊能夠更快地了解日益復雜的現(xiàn)象。為了取得成功,研究人員需要輕松訪問大量數(shù)據(jù)集,大量計算量,并且需要進行實驗并了解哪種算法最適合該任務的能力。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03