樱花草在线社区www中国视频,一个人看的www在线观看免费

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

人工智能為數(shù)據(jù)分析做好準(zhǔn)備：充分利用機(jī)器學(xué)習(xí)

2019-12-12

人工智能為數(shù)據(jù)分析做好準(zhǔn)備：充分利用<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>

作者 | Tessella

編譯 | CDA數(shù)據(jù)分析師

將AI專有技術(shù)應(yīng)用于從世界領(lǐng)先，最強(qiáng)大的科學(xué)儀器收集的龐大數(shù)據(jù)池中，可以加速科學(xué)發(fā)現(xiàn)的過程。強(qiáng)大的機(jī)器學(xué)習(xí)方法提供了從原始實(shí)驗(yàn)數(shù)據(jù)中提取科學(xué)意義的新方法，最終可以幫助資助者從研究投資中釋放更多價(jià)值。

諸如中子和同步加速器源之類的大規(guī)模實(shí)驗(yàn)設(shè)施已成為現(xiàn)代科學(xué)研究的基本要素，使來訪的研究人員能夠探究許多不同類型材料的結(jié)構(gòu)和特性。它們還會(huì)生成大量的實(shí)驗(yàn)數(shù)據(jù)，如果沒有專門的實(shí)驗(yàn)知識(shí)，訪問科學(xué)家可能很難從原始數(shù)據(jù)集中提取有意義的信息。結(jié)果，在其寶貴的波束時(shí)間期間收集的某些數(shù)據(jù)將永遠(yuǎn)無法得到正確的分析。

好消息是，在過去的10年中，這種情況已得到顯著改善，由領(lǐng)先的中子設(shè)施財(cái)團(tuán)共同努力，以簡化和標(biāo)準(zhǔn)化用于分析來自中子散射和μ子光譜實(shí)驗(yàn)數(shù)據(jù)的軟件。這個(gè)名為MANTiD的框架支持通用的數(shù)據(jù)結(jié)構(gòu)和共享的算法，使來訪的科學(xué)家能夠輕松地處理和可視化他們的實(shí)驗(yàn)結(jié)果。

Tessella的高級(jí)項(xiàng)目經(jīng)理之一尼克·德雷珀（Nick Draper）表示：“這一共同框架有助于來訪的科學(xué)家掌握不同設(shè)施的儀器?！?“但是它也可以幫助研究人員在同一設(shè)施中使用不同的儀器?！?/span>

下一個(gè)重大挑戰(zhàn)

根據(jù)長期參與大型科學(xué)項(xiàng)目支持的德雷珀所說，下一個(gè)主要挑戰(zhàn)是使來自不同科學(xué)背景的研究人員更容易分析和解釋可以產(chǎn)生的復(fù)雜實(shí)驗(yàn)結(jié)果。“通常，不僅有一個(gè)模型適合您的數(shù)據(jù)，可能有20或30個(gè)選項(xiàng)，有時(shí)并不確定要選擇哪種模型，” Draper解釋說。“目前，需要真正了解儀器實(shí)驗(yàn)的儀器科學(xué)家的專家意見來指導(dǎo)和指導(dǎo)采用哪種方法?！?/span>

但是，隨著越來越多的數(shù)據(jù)要通過，這會(huì)造成延遲結(jié)果的瓶頸。加快流程的一種選擇是利用人工智能（AI）來幫助模型選擇。這個(gè)概念有些研究人員可能會(huì)感到不安，但是Draper的同事Matt Tess（泰斯拉（Tessella）的分析師，密切關(guān)注最新的行業(yè)趨勢）對此有些放心。他說：“人工智能是在幫助人類，它不是在治理和提供答案，而是在不斷擴(kuò)大。”

馬特·瓊斯（Matt Jones）跟隨著AI從早期的單一產(chǎn)品到今天的基于云的解決方案的興起，并指出了它在輔助藥物開發(fā)方面的成功。一個(gè)示例是在擴(kuò)大藥物發(fā)現(xiàn)流程時(shí)進(jìn)行的AI增強(qiáng)分析–反過來又使專家騰出精力來從事更高價(jià)值的任務(wù)。他主張采取量身定制的方法來最大化收益。他評論說：“構(gòu)建了最準(zhǔn)確，最好的解決方案來解決眼前的緊迫問題?！?/span>

深度學(xué)習(xí)革命

如今，圍繞人工智能的嗡嗡聲已經(jīng)不容忽視。令我們震驚的是，在國際象棋和圍棋比賽中可以擊敗大師級(jí)比賽的計(jì)算機(jī)，以及功能日益強(qiáng)大的語音識(shí)別和機(jī)器翻譯工具，為我們帶來了驚喜。在亮點(diǎn)列表中，您還可以在圖像識(shí)別方面增加突破性發(fā)展，并在無人駕駛車輛中取得進(jìn)步。但是，為什么現(xiàn)在都在發(fā)生呢？畢竟，許多機(jī)器學(xué)習(xí)算法已經(jīng)存在了數(shù)十年。

深度學(xué)習(xí)依賴于高性能計(jì)算（STFC）

關(guān)鍵因素是規(guī)模的影響，特別是數(shù)據(jù)和可用計(jì)算能力的并行增長。尤其是深度學(xué)習(xí)，這改變了一種技術(shù)的功能，而深度學(xué)習(xí)則受益于大型數(shù)據(jù)集的可用性。當(dāng)其他方法向您提供更多信息時(shí)達(dá)到平穩(wěn)狀態(tài)時(shí)，深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)的性能將不斷提高。而且，神經(jīng)網(wǎng)絡(luò)越大（或越深），其吸收其輸入值并提供有意義的輸出的能力就越大。

將大數(shù)據(jù)與大量計(jì)算相結(jié)合，可以創(chuàng)建具有許多所謂的隱藏層的人工神經(jīng)網(wǎng)絡(luò)。這些深度學(xué)習(xí)系統(tǒng)是巨大的數(shù)學(xué)函數(shù)，包含多層節(jié)點(diǎn)，配備有自動(dòng)調(diào)整的權(quán)重和偏差，所有這些值都夾在一系列輸入和輸出之間。數(shù)據(jù)和計(jì)算的豐富結(jié)合，以及對如何訓(xùn)練（或傳播）這些強(qiáng)大的多層網(wǎng)絡(luò)的更深入了解，現(xiàn)在正在將機(jī)器學(xué)習(xí)技術(shù)的性能推向新的高度。

享受利益

不利的一面是，研究小組需要訪問大量數(shù)據(jù)和大量計(jì)算以充分利用深度學(xué)習(xí)的好處，并且需要能夠啟動(dòng)和運(yùn)行這些系統(tǒng)的團(tuán)隊(duì)的支持。

STFC首席數(shù)據(jù)科學(xué)家Tony Hey和他的團(tuán)隊(duì)意識(shí)到了這個(gè)問題。為了幫助研究人員從實(shí)驗(yàn)中更有效地提取更多科學(xué)，Hey成立了一個(gè)科學(xué)機(jī)器學(xué)習(xí)小組，與英國國家數(shù)據(jù)科學(xué)和人工智能研究院Alan Turing Institute密切合作。Hey還與STFC的Ada Lovelace中心建立了聯(lián)系，該中心正在建立為一個(gè)綜合的，跨學(xué)科的，數(shù)據(jù)密集型科學(xué)中心，該中心有可能通過跨學(xué)科的數(shù)據(jù)處理，計(jì)算機(jī)模擬和數(shù)據(jù)方法來轉(zhuǎn)變大型科學(xué)機(jī)構(gòu)的研究分析。

Hey的目標(biāo)包括將AI和先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于Harwell校區(qū)由STFC支持的設(shè)施生成的實(shí)驗(yàn)數(shù)據(jù)：Diamond同步加速器源；ISIS中子和μ子源；英國的中央激光設(shè)施；NERC環(huán)境數(shù)據(jù)分析中心及其JASMIN超級(jí)數(shù)據(jù)集群。

“對龐大數(shù)據(jù)集的分析需要自動(dòng)化和機(jī)器幫助，因?yàn)閿?shù)據(jù)量超出了手工處理的范圍，” Hey說道?！暗?，在從機(jī)器獲取數(shù)據(jù)到可以對結(jié)果進(jìn)行科學(xué)處理的過程中，有很多機(jī)會(huì)可以嘗試幫助自動(dòng)化管道中的數(shù)據(jù)流?！苯⒋斯艿佬枰獛椭芯咳藛T更多地了解機(jī)器學(xué)習(xí)算法。他指出：“您需要透明和易于理解的方法，而不是黑匣子，而是各種方法將如何使您獲得答案?！盚ey熱衷于發(fā)展他所描述的機(jī)器學(xué)習(xí)基準(zhǔn)。他還希望利用粒子物理學(xué)和天文學(xué)等社區(qū)的現(xiàn)有專業(yè)知識(shí)，這些社區(qū)已經(jīng)在一段時(shí)間內(nèi)處理了PB級(jí)的大數(shù)據(jù)挑戰(zhàn)。目的是為其他學(xué)科可以利用的機(jī)器學(xué)習(xí)和AI創(chuàng)建更廣泛的支持結(jié)構(gòu)。這意味著能夠去除行話，并使諸如數(shù)據(jù)分類模型之類的過程在給定領(lǐng)域之外易于理解。

教學(xué)實(shí)驗(yàn)室

降低準(zhǔn)入門檻的一種方法是提供CEH的約翰·沃特金斯所稱的“教學(xué)實(shí)驗(yàn)室”，例如C ++例程已打包到R庫中，并與數(shù)據(jù)集結(jié)合在一起，然后包裝在基于Web的環(huán)境中。 R-shiny應(yīng)用程序，方便訪問。他說：“他們讓人們查看各種算法，并與他們一起玩耍以學(xué)習(xí)其特定特征，并發(fā)現(xiàn)方法在他們的工作中可能有用或可能沒有用?！睂τ谖痔亟鹚梗╓atkins）和他的環(huán)境科學(xué)同事來說，一種尺寸很少適合所有人。該領(lǐng)域的研究人員通常需要了解來自不同來源的各種數(shù)據(jù)，例如，陸地和大氣中傳感器的輸出以及海洋學(xué)測量結(jié)果。

科學(xué)家需要有機(jī)會(huì)嘗試不同的AI算法（iStock / Alvarez）

他建議說：“理想情況下，您希望使用各種工具來訪問一組數(shù)據(jù)并比較結(jié)果以找出最有效的方法?！?“您不希望自己只能用一種方法攻擊它，因?yàn)槟鞘悄ㄒ坏哪芰Α！背巳コ性挷⑻峁┛稍L問且經(jīng)過基準(zhǔn)測試的工具外，還有其他注意事項(xiàng)。支持給定任務(wù)的最佳工作流程也很重要，該任務(wù)可能是在HPC上運(yùn)行模型，將結(jié)果存儲(chǔ)在大型數(shù)據(jù)集群上，然后在重要的數(shù)據(jù)部分已經(jīng)存儲(chǔ)后切換到較小規(guī)模的操作。

顯然，這是多技能團(tuán)隊(duì)的工作，他們不僅可以導(dǎo)航技術(shù)，還可以導(dǎo)航AI所針對的科學(xué)?；氐轿覀兦懊娴氖纠褂眯〗嵌戎凶由⑸鋽?shù)據(jù)進(jìn)行試點(diǎn)分析使Draper受到鼓舞，現(xiàn)在使用AI引導(dǎo)用戶轉(zhuǎn)向使用球形模型或圓柱形模型來擬合數(shù)據(jù)。早期的結(jié)果令人鼓舞，但下一個(gè)問題是，當(dāng)選擇多達(dá)40種不同的模型時(shí)，該方法是否仍然有效。

只是開始

德雷珀（Draper）和他的泰瑟拉（Tessella）同事馬特·瓊斯（Matt Jones）認(rèn)為，這僅僅是趨勢的開端，這種趨勢可能會(huì)徹底改變科學(xué)數(shù)據(jù)的分析，研究界對AI的潛在利益越來越感興趣?！拔覀儸F(xiàn)在才剛剛開始刺破這個(gè)未來的邊緣，”馬特·瓊斯（Matt Jones）說。他預(yù)計(jì)會(huì)出現(xiàn)更多的對話類型界面以及諸如虛擬現(xiàn)實(shí)之類的可視化方法，這些方法將有助于呈現(xiàn)高度詳細(xì)的科學(xué)結(jié)構(gòu)和復(fù)雜的數(shù)據(jù)。

“ AI對于未來來說確實(shí)是一個(gè)非常有趣的地方，” Draper補(bǔ)充道，他也清楚地意識(shí)到了這一障礙。他指出：“您需要大量的培訓(xùn)數(shù)據(jù)，并且必須正確標(biāo)記數(shù)據(jù)?！钡?，如果不存在訓(xùn)練數(shù)據(jù)或僅提供有限的訓(xùn)練數(shù)據(jù)，會(huì)發(fā)生什么？一種想法是反向生成圖像，以指示特定模型的外觀。Draper說：“如果使用不同的參數(shù)進(jìn)行大量操作，混合靜態(tài)圖像并使圖像失真以使其盡可能逼真，則可以創(chuàng)建訓(xùn)練數(shù)據(jù)?！?“挑戰(zhàn)在于確保您不只是簡單地訓(xùn)練數(shù)據(jù)集以識(shí)別您創(chuàng)建的內(nèi)容，而不是實(shí)際的實(shí)驗(yàn)結(jié)果。”

事實(shí)證明，匯總多個(gè)信號(hào)的合成數(shù)據(jù)有助于增強(qiáng)語音識(shí)別能力，例如，通過訓(xùn)練系統(tǒng)來克服背景噪聲（例如車內(nèi)噪音），因此再次證明，在一個(gè)部門中發(fā)展的知識(shí)可能可以跨不同領(lǐng)域轉(zhuǎn)移。

預(yù)測能力

成功部署AI要求團(tuán)隊(duì)具有跨多個(gè)領(lǐng)域的才能：對數(shù)據(jù)的理解，對機(jī)器學(xué)習(xí)算法的知識(shí)以及統(tǒng)計(jì)方法，以及高性能或集群計(jì)算方面的專業(yè)知識(shí)。但是潛在的回報(bào)使挑戰(zhàn)值得克服，并且可以擴(kuò)展到分析實(shí)驗(yàn)結(jié)果以外的其他領(lǐng)域。

據(jù)報(bào)道，Google通過使用深度學(xué)習(xí)來降低其數(shù)據(jù)中心的運(yùn)營成本，從而節(jié)省了一筆巨款。當(dāng)機(jī)械接近故障并應(yīng)予以更換時(shí)，算法可以警告操作員，從而最大程度地減少停機(jī)時(shí)間。輸出還可以告知最佳維修頻率，以使設(shè)備盡可能長時(shí)間地保持可靠的工作狀態(tài)。

泰塞拉（Tessella）的凱文·伍茲（Kevin Woods）指出，這種預(yù)測能力也可以應(yīng)用在大型科學(xué)機(jī)構(gòu)中，他是參與儀器控制系統(tǒng)更新的高級(jí)項(xiàng)目經(jīng)理。他說：“通過觀察（信號(hào)中的）長期模式，您實(shí)際上可以發(fā)現(xiàn)即將發(fā)生的故障?！?一個(gè)例子可能是電動(dòng)機(jī)工作溫度的逐漸升高，這可能表明致動(dòng)單元正在過熱。

到目前為止的結(jié)果表明，對AI的投資可以帶來多重回報(bào)。機(jī)器學(xué)習(xí)具有極大地加速跨不同領(lǐng)域的大數(shù)據(jù)分析的潛力，希望使研究團(tuán)隊(duì)能夠更快地了解日益復(fù)雜的現(xiàn)象。為了取得成功，研究人員需要輕松訪問大量數(shù)據(jù)集，大量計(jì)算量，并且需要進(jìn)行實(shí)驗(yàn)并了解哪種算法最適合該任務(wù)的能力。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；