
數(shù)據(jù)科學與火箭科學如何將人類送上火星
在最近的CNN專欄中,奧巴馬總統(tǒng)再次證實,美國將不遺余力地實行將載人航天器送上火星的任務(wù)。如果你覺得自己面臨的數(shù)據(jù)科學難題太有挑戰(zhàn)性,那你應(yīng)該想一想,用挖掘數(shù)據(jù)的方式來探究火星遠征對健康的影響,是多難的一件事。
在太空中生活幾年對于宇航員的肌肉張力和肺活量有多大影響?對他們來說減輕體重的安全限度是多少?載人飛船中的二氧化碳含量應(yīng)有多少?每一件太空服需要配置多少傳感器用來計算宇航員的關(guān)節(jié)靈活性?
想要把人類送到“前無古人”的那些地方,有大量的變量需要納入考慮,NASA也正刻苦研究未來的火星計劃所涉及的健康和安全風險。這些風險影響著制定計劃時所需要作出的一系列決策——從預估的潛在機組人員數(shù)量,到設(shè)備工程、任務(wù)后勤以及燃油儲備,等等,因而對這些風險的明確了解可謂是重中之重。
雖然代價高昂,但NASA從開始就很明白,他們工作的重點不在于開發(fā)一個完美的分析模型,而在于打造一個數(shù)據(jù)科學程序,使決策者在回答一些不斷變動的問題時,能用到分析學的辦法。但是如果你想要學習NASA的分析方式,不一定非得跟火箭科學打交道。對于那些想要從事大數(shù)據(jù)分析,或困于大數(shù)據(jù)分析的組織來說,這里有從NASA的項目中總結(jié)的幾個核心要點:
別小題大做
簡而言之,數(shù)據(jù)科學根本沒火箭科學那么難(不信的話你看我在那做了什么)。是的,分析大數(shù)據(jù)是有挑戰(zhàn)性,而且根據(jù)你所期望獲取的見解不同,方法也可能隨之變動,但是完全沒必要把事情搞得太復雜,想要得到解決方案遠遠用不著那么復雜。
很多組織時常循環(huán)往復試著把數(shù)據(jù)搬回來分析,其實他們更應(yīng)該把分析方法帶進數(shù)據(jù)里去。既然稱之為大數(shù)據(jù),自然是不可能把它搬來搬去的,就算做到了,也得歷經(jīng)艱難險阻。這也就是分散式存儲和像Hadoop那樣的處理框架存在的原因——云數(shù)據(jù)的可擴展性,比起硬盤里的數(shù)據(jù)可高太多了。
對于火星計劃來說,涉及到很多層次的數(shù)據(jù)需要考慮,從曾經(jīng)完成過太空任務(wù)的宇航員(比如說斯考特凱麗),身上取得的健康數(shù)據(jù),到無人航天的測試研究,再到模擬太空環(huán)境下的研究,其中之一就是休斯頓市約翰遜太空中心的人類探索研究模擬計劃(HERA)。
把所有數(shù)據(jù)歸整到同一個地方是關(guān)鍵的第一步。為此,NASA使用了高級協(xié)作式分析方法和數(shù)據(jù)共享平臺對數(shù)據(jù)進行分析,這一平臺的開發(fā)者是洛克希德馬丁公司和幾個分析伙伴,比如勇攀科技。因為省去了下載數(shù)據(jù)到單獨的分析環(huán)境中的步驟,研究者們現(xiàn)在可以把更多的時間和精力花在提問題、解決問題,然后更好地規(guī)劃火星計劃上面。
發(fā)射只是開始
火箭的成功發(fā)射只是持續(xù)數(shù)年的火星遠征的第一步?;趶那暗慕?jīng)驗,NASA已經(jīng)做好了遇到并解決無數(shù)挑戰(zhàn)的準備。對于數(shù)據(jù)分析項目來說亦是如此,光是部署好了模型并不意味著項目大功告成,實際上那些基于實時基礎(chǔ)上不斷完善和迭代的模型才是最有價值的分析初創(chuàng)。
像科學研究方法一樣,充分利用分析結(jié)果需要不斷地做實驗檢測,從失敗中獲取教訓,然后接著進行檢測。NASA想要的是快速查詢供其使用的大量數(shù)據(jù),然后把結(jié)論傳回可以立足于先前結(jié)果的新模型中。所以對他們來說,數(shù)據(jù)科學程序就像一個鐘擺,向前的搖擺著重于從研究者那里快速獲得結(jié)論,而向后的搖擺著重于測量、評估結(jié)果、改進模型以及再次向前搖擺。
用現(xiàn)有的數(shù)據(jù)進行工作,而不是你所期望的數(shù)據(jù)。
在數(shù)據(jù)組有缺陷的時候,快速輕巧地改善模型的能力尤其寶貴。(而且說實話,有完全沒有缺陷的數(shù)據(jù)組這回事嗎?)。
對NASA來說,最大的數(shù)據(jù)挑戰(zhàn)就是宇航員的樣本庫太小了,只有三千多人被NASA認定為宇航員。想要取得推斷,研究者們得把從這個小樣本中取得的數(shù)據(jù)挖個底朝天才行。
舉例來說,基于歷時五個月的太空旅行對一個35歲,120磅重的女性的影響,兩年的太空旅行對一個32歲,123磅重的會有什么影響呢?對30歲、118磅的呢?此外,到現(xiàn)在還沒有宇航員實際踏上過這個紅色星球,所以對在火星上居住會有什么健康影響,相關(guān)數(shù)據(jù)還處于空白階段(馬特達蒙不算哦)。
但是NASA從去過月球的宇航員或者在空間站待過一年的宇航員那里可以知道些什么呢?如果把處于模擬太空環(huán)境的測試體的數(shù)據(jù)放入預測模型,會發(fā)生什么呢?有了支持模型配置與完善的分析工具,各組織可以試著用各種方式從數(shù)據(jù)中提取結(jié)論來做出更準確的預測,甚至在缺失關(guān)鍵信息的情況下也可以做到。
打破隱喻黑箱
為了火星計劃,NASA不僅僅押上了納稅人的數(shù)十億美金,還押上了宇航員的性命,為了科學與探索,這些宇航員不惜擔起健康和生命安全的風險。
對于這樣的一個計劃,關(guān)鍵在于讓不是數(shù)據(jù)科學博士的那些分析工作者(比如說健康研究者、設(shè)備工程師和其他策劃航行任務(wù)的人員)也能夠自力完成構(gòu)建和展開查詢、使用數(shù)據(jù)的任務(wù)。這要求商業(yè)和IT股東們的通力合作,易用易改的建模工具以及將深入了解轉(zhuǎn)達給需要的人的能力。這也是NASA選擇一個這樣的協(xié)作分析平臺的原因,這一平臺可以將輸出結(jié)果直接延伸至火星計劃的科學家和決策者所使用的系統(tǒng)和應(yīng)用中。
大量復雜的數(shù)據(jù)組給任何想要從事分析部署的組織帶來了挑戰(zhàn),但是NASA駕馭數(shù)據(jù)進行了最困難的行程規(guī)劃——也就是火星遠征,證明了這些挑戰(zhàn)絕不是不可逾越的。只要有了正確的工具,以及最為重要的,一致周詳?shù)慕鉀Q方式,數(shù)據(jù)科學根本不像火箭科學那么嚇人。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03