
數(shù)據(jù)科學(xué)家每天都在做些什么
數(shù)據(jù)科學(xué)家(數(shù)據(jù)分析師)的困惑很大部分歸咎于:數(shù)據(jù)科學(xué)(數(shù)據(jù)分析)不是一個(gè)具體的職務(wù),而是一種在機(jī)構(gòu)中解決問(wèn)題的方法。因此,數(shù)據(jù)科學(xué)(數(shù)據(jù)分析)可以包含多種教育背景、技能、工具、實(shí)踐。實(shí)際工作中的數(shù)據(jù)科學(xué)家們(數(shù)據(jù)分析師),背景和技能的跨度很大,很難被一概而論。
相對(duì)而言,描述數(shù)據(jù)科學(xué)的實(shí)踐是什么樣的可能更容易。
簡(jiǎn)單地說(shuō),數(shù)據(jù)科學(xué)是用數(shù)據(jù)主導(dǎo)的答案解決實(shí)際問(wèn)題的實(shí)踐。實(shí)現(xiàn)這個(gè)目標(biāo)的技術(shù)可能多種多樣。你會(huì)常常聽(tīng)到數(shù)據(jù)科學(xué)家使用傳統(tǒng)統(tǒng)計(jì)學(xué)、貝葉斯方法、機(jī)器學(xué)習(xí)、計(jì)算工具、行業(yè)領(lǐng)域知識(shí)來(lái)回答問(wèn)題。
有時(shí)數(shù)據(jù)的規(guī)模會(huì)非常巨大,需要使用復(fù)雜的工具和方法來(lái)穿過(guò)迷霧,得到隱藏在數(shù)據(jù)中的清晰結(jié)論。但是沒(méi)有哪個(gè)方法、工作、算式能回答所有問(wèn)題,所以也很難為數(shù)據(jù)科學(xué)家下定義。
展示可能比陳述更有說(shuō)服力。就讓我們來(lái)走入數(shù)據(jù)科學(xué)家平凡又不平凡的一天。
早晨
早晨的第一件事可能是這一天日程中為數(shù)不多的慣例。
我們的團(tuán)隊(duì)在早上進(jìn)行例會(huì),分享前一天的進(jìn)展和問(wèn)題。這和軟件開(kāi)發(fā)的“站立”會(huì)議可能有點(diǎn)不同。對(duì)我們來(lái)說(shuō),“進(jìn)展”既可以是建設(shè)了一部分軟件,也可以是閱讀了一篇可以讓我們對(duì)手頭問(wèn)題有更深理解的論文。
數(shù)據(jù)科學(xué)可能在許多方面與大學(xué)里的學(xué)術(shù)行為不同,但它依然是對(duì)科學(xué)方法的合理運(yùn)用。
通常,我們的挑戰(zhàn)是如何把“未知”變成“已知”。不僅如此,還要讓它“可執(zhí)行”。
這意味著通過(guò)分析數(shù)據(jù)檢驗(yàn)?zāi)硞€(gè)假設(shè),建立測(cè)量效果的方法,對(duì)這個(gè)過(guò)程進(jìn)行迭代,直到最終的研究結(jié)果被修正到足夠有用的水平。晨會(huì)是一個(gè)交流各個(gè)試驗(yàn)進(jìn)展的機(jī)會(huì)。
上午
現(xiàn)在我們有了各自的任務(wù)。是時(shí)候做一點(diǎn)實(shí)際工作了。這是一天中最有趣的部分。這是我坐下來(lái)專(zhuān)注于一個(gè)實(shí)際問(wèn)題的時(shí)候。
這可能意味著研究處理偶圖的方法,或者寫(xiě)一些代碼計(jì)算高斯超幾何函數(shù)。但每個(gè)星期面對(duì)的問(wèn)題很少相同。擁有數(shù)學(xué)、統(tǒng)計(jì)、編程的背景對(duì)解決這些問(wèn)題來(lái)說(shuō)很重要,但仍然不夠。成為每種方法的專(zhuān)家是不可能的。下一個(gè)問(wèn)題將需要什么知識(shí)也是無(wú)法預(yù)知的。
這就是為什么數(shù)據(jù)科學(xué)家需要不斷學(xué)習(xí)和無(wú)窮的好奇心。
多數(shù)情況下,每個(gè)新問(wèn)題需要一種新方法。這些方法不僅對(duì)你來(lái)說(shuō)是新的,對(duì)整個(gè)世界來(lái)說(shuō)也是新的。這是數(shù)據(jù)科學(xué)的挑戰(zhàn)之處和刺激來(lái)源。
不確定性不僅是一種統(tǒng)計(jì)學(xué)的屬性,也是一種生活方式。
午間
數(shù)據(jù)科學(xué)的實(shí)踐不止于應(yīng)用某些算法的技術(shù)細(xì)節(jié),或是在白板上寫(xiě)出高深的算式。
歸根結(jié)底,我們要解決現(xiàn)實(shí)生活中的問(wèn)題。這意味著理解其他人面對(duì)的問(wèn)題。午間是跟客戶(hù)、商業(yè)拓展部門(mén)、服務(wù)部門(mén)以及任何對(duì)我們客戶(hù)和合伙人每天面對(duì)的問(wèn)題有全面了解的人士碰面的好時(shí)候。
大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的力量如果不能為他人創(chuàng)造便利就沒(méi)太大意義。這是數(shù)據(jù)科學(xué)中一個(gè)重要的,但是常被忽略的步驟。它決定一個(gè)項(xiàng)目最終的成敗。這也是區(qū)分?jǐn)?shù)據(jù)科學(xué)與傳統(tǒng)學(xué)術(shù)的一點(diǎn)。
把一個(gè)業(yè)務(wù)問(wèn)題翻譯成一個(gè)縝密的研究項(xiàng)目,再把研究結(jié)果翻譯成一個(gè)實(shí)際的解決方案,這需要對(duì)業(yè)務(wù)的深入理解,以及大量的創(chuàng)造力。
閉門(mén)造車(chē),沒(méi)完沒(méi)了做算法調(diào)優(yōu)的數(shù)據(jù)科學(xué)團(tuán)隊(duì)永遠(yuǎn)不會(huì)成功。的確,有時(shí)為了讓一個(gè)項(xiàng)目最終交付需要這么做。但如果這些都不能投入實(shí)際應(yīng)用還有什么意義?
數(shù)據(jù)能告訴我們的關(guān)于世界的知識(shí)與數(shù)據(jù)本身中間存在一道鴻溝。與一線工作人員保持良好的交流關(guān)系,是彌補(bǔ)這一鴻溝的唯一方式。
下午
我們已經(jīng)卷起袖子,從技術(shù)和實(shí)際的層面鉆研了問(wèn)題。是時(shí)候退一步,思考一下全局了。
我們"數(shù)據(jù)分析師"常常在下午花些時(shí)間詳細(xì)討論某個(gè)項(xiàng)目的目標(biāo),或者探討把一個(gè)研究項(xiàng)目變成可交付的形式所需的剩余步驟。
與產(chǎn)品團(tuán)隊(duì)的密切交流可以確保我們的工作與機(jī)構(gòu)的總體愿景/目標(biāo)保持一致。確保專(zhuān)注于關(guān)鍵問(wèn)題是很重要的。由于我們的工作是解決問(wèn)題,所以必須確保解決方案行得通。我的意思是,在實(shí)際工作中行得通。根據(jù)特定業(yè)務(wù)提供解決方案只是個(gè)開(kāi)始。
我們需要建立可靠的、可重復(fù)使用的工具。
這既包括把一個(gè)試驗(yàn)推廣到更多的實(shí)用案例,也包括構(gòu)造一個(gè)能夠深入產(chǎn)品的解決方案。
這個(gè)環(huán)節(jié)是我們最像軟件開(kāi)發(fā)者的部分,考慮并編寫(xiě)一些測(cè)試來(lái)確保表現(xiàn)、穩(wěn)定性、擴(kuò)展性。我們?cè)赨mbel的軟件工程團(tuán)隊(duì)負(fù)責(zé)建立宏大的系統(tǒng),我們不能扔給他們額外的工作,讓他們?yōu)槲覀兪帐盃€攤子。
把這些試驗(yàn)變成軟件的一個(gè)功能,唯一的辦法是在項(xiàng)目全程時(shí)刻想著這個(gè)目標(biāo)。這也就是為何研究階段不應(yīng)只包含數(shù)學(xué)。
我們需要知道我們不僅能解決某個(gè)問(wèn)題,還能現(xiàn)實(shí)的限制中構(gòu)造軟件來(lái)解決這個(gè)問(wèn)題。
結(jié)束這一天
經(jīng)歷了所有這些之后,有必要深吸一口氣,看看自己究竟走了多遠(yuǎn)。有些日子會(huì)比其他日子走的更遠(yuǎn)。大多數(shù)試驗(yàn)則以失敗告終。
多數(shù)解決方案在最終展示之前需要調(diào)整打磨。通常很少有什么能保證你選擇的路線是對(duì)的。開(kāi)天辟地的過(guò)程始終伴隨著不確定性。但這個(gè)過(guò)程中的每天,你都會(huì)學(xué)到新東西。這一天的結(jié)尾,我們反思我們學(xué)到了什么,并把這有關(guān)世界的新知識(shí)帶到明天的晨會(huì)。
經(jīng)過(guò)足夠的努力,我們最終獲得針對(duì)特定問(wèn)題的直接可行的答案。
我們可以對(duì)這個(gè)答案充滿(mǎn)自信,因?yàn)樗蓴?shù)據(jù)嚴(yán)謹(jǐn)?shù)刂?。這個(gè)時(shí)候,我們還是沒(méi)有結(jié)束代碼的編寫(xiě)。正如我之前所說(shuō),數(shù)據(jù)科學(xué)項(xiàng)目的一個(gè)關(guān)鍵環(huán)節(jié)是把最終結(jié)果翻譯成有意義、實(shí)用的東西。
我們"數(shù)據(jù)分析師"需要把我們學(xué)到的東西有效地傳達(dá)給不同背景的受眾。最終,我們需要利用數(shù)據(jù)講一個(gè)故事。跟其他環(huán)節(jié)一樣,這個(gè)環(huán)節(jié)沒(méi)有什么唯一的正確方法。這個(gè)環(huán)節(jié)中我們尋找用圖表把結(jié)果可視化的方法,或者在一個(gè)平面展示從問(wèn)題到解答的各個(gè)環(huán)節(jié),或者僅僅是宣布“好的,我們需要做的事是這樣的?!?/span>
這里的關(guān)鍵在于,在結(jié)束時(shí),每個(gè)人都能理解要做什么以及為什么這么做。
結(jié)語(yǔ)
你可能見(jiàn)過(guò)網(wǎng)上流傳的那些展示數(shù)據(jù)科學(xué)家需要多少種交叉技能的圖片。
他們會(huì)告訴你數(shù)據(jù)科學(xué)家是一個(gè)天生就是數(shù)學(xué)家的軟件工程師,或者一名喜歡在周末把自己消耗的咖啡數(shù)量做成的精美可視化項(xiàng)目的MBA。
希望這個(gè)有關(guān)數(shù)據(jù)科學(xué)家"數(shù)據(jù)分析師"日常的探討能讓你明白這些圖片是怎么來(lái)的。但數(shù)據(jù)科學(xué)不是對(duì)某種工作的描述,它是一個(gè)過(guò)程。的確,你需要上面提到的技能,甚至更多技能來(lái)成功實(shí)現(xiàn)一個(gè)數(shù)據(jù)科學(xué)項(xiàng)目。
不過(guò),不要認(rèn)為你需要什么事都一個(gè)人完成。數(shù)據(jù)科學(xué),如同任何其他復(fù)雜的努力一樣,是團(tuán)隊(duì)協(xié)作。這也就是為什么你很少看見(jiàn)兩個(gè)履歷相同的數(shù)據(jù)科學(xué)家。一個(gè)優(yōu)秀的數(shù)據(jù)科學(xué)團(tuán)隊(duì)?wèi)?yīng)囊括所有這些技能,擁有專(zhuān)家和通才,每個(gè)成員都有強(qiáng)烈的好奇心。
如果有某件事情是數(shù)據(jù)科學(xué)家{數(shù)據(jù)分析師}必須擅長(zhǎng)的,那就是學(xué)習(xí)。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫(kù)操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問(wèn)題時(shí)有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書(shū):以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開(kāi)啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書(shū)) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07