
數據科學家和工程師的“五誡”
在實際的工作中,數據科學家們不僅要學會如何實用工具,還要懂得如何與同事合作。The Yhat Blog這篇文章探討了在實際的數據建模和數據處理的過程中數據科學家和數據工程師應該如何處理好關系順利地完成項目的問題。它引用“摩西十誡”的典故, 提出了給數據處理者的五個“誡律”。我們一起來參考一下!
1.了解你的數據
好的模型依賴于好的數據。要建立真正具有生產力的模型,數據科學家需要知道他們基于創(chuàng)造和存儲產品的數據庫是否可靠,以及數據庫更新的頻率。這些信息在項目開始之前就應該被收集并且分享給工程團隊,以避免項目進程之中可能產生的阻礙。
在 一個理想的世界里,科學家和工程師都應該提前做好應對即將發(fā)生的變化的準備(例如,多種變量類型之間的變化),使他們能夠據此共同創(chuàng)建,測試和部署相應的 新版本。即使不能夠保證避免每一個程序中的事故,共享資源和盡早發(fā)現缺陷也可以使工程師們降低風險和預見解決可能出現問題的部分。
2.熟悉合作伙伴使用的工具
數 據科學家運用的主要編程語言是R或Python,這種語言便于數據的清潔,探索和建模。而工程師,卻需要使用多種不同的工具集來構建可擴展的網絡和移動應 用程序(例如,NET、Ruby on Rails、Node.js 或 JVM)。雖然期望一個人完全懂得使用這兩套工具是不切合實際的,但是跨過技術“藩籬”的限制對對方使用的語言和流程有一個基本的了解將大大有助于合作的 開展。
將統(tǒng)計代碼手動重新編寫為另一種語言是一項費時費力又極其容易犯錯的工程,所以當出現問題的擔憂增加的時候,建立良好的溝通機制(面對面和網絡數字化的)絕對是至關重要的。
3.了解技術的局限
當數據科學家和工程師運用不同的工具包工作的時候必然會遇到技術的限制。這常常使他們發(fā)狂,因為沒有人喜歡被要求返工,或者看著自己辛勤勞作創(chuàng)造出來的產品不理想,甚至更糟糕,看到自己的辛勤勞動付諸東流。
一 旦你清楚了模型開發(fā)和部署所需要使用的語言(見誡條2),就應該花時間研究一下使用這種語言做什么是可能的,什么是完全不能夠實現的。然后就應該設定定期 的跨職能討論會的時間表,科學家和工程師雙方要經常溝通例如:你考慮在哪些方面做一些突破?雙方在哪些地方可以做出讓步?哪些又是技術完全實現不了的?有 沒有其他選擇?要實施需要付出多少努力?這些努力符合商業(yè)價值的考量嗎?
在實際工作 中,假設你是一個數據科學家正在為一個Ruby編寫的APP編寫一段使用R語言的反欺詐算法,那么你應該知道的是R的GLM功能(用于構建廣義線性模型的 函數),在Ruby(或Java,對這個問題來說)中并沒有相對應的本地功能。這時候就需要大家一起來一場頭腦風暴來找尋出路啦。
4.互相尊重
在任何時候,一個數據科學家的工作總是需要大家共同的努力才能夠完成,在這個過程中充滿了產生誤解的可能。那我們的建議是什么呢?就是像老話講的,己所不欲,勿施于人。
對于數據科學家來說,你要做的就是寫出便于維護和使用的高質量的代碼,積極聽取工程師關于重構模型和采取更好替代方法的建議,詢問他們怎樣才是一個現實的可實行的時間表,你還能提供哪些幫助等。
對于工程師來說,與數據科學家合作,需要明確必須的職責,并且共同商討達成一份書面的處理問題的優(yōu)先次序文件,遵循一個不斷更新的和現實的路線圖,并根據項目的進程不斷檢驗、細化和落實科學的數據模型。
5.履行你的責任和義務
有人認為一個模型一旦創(chuàng)造出來,并且投入了實際的商業(yè)運用,無論是創(chuàng)造它的數據科學團隊,還是實現了它的工程師們就可以自由地著手下一個大項目,不需要再管理這個項目了。這種想法是非常危險的。事實上,這只是分析的生命周期的另一階段的開始。
因 為,數據科學家和工程師建立生產過程中的監(jiān)控和管理模型的計劃是非常重要的。誰將會監(jiān)督模型和服務器的穩(wěn)定性?如何將輸入和輸出數據存儲和共享?升級版 本,再培訓和重新測試的路線圖是什么?還要為解決可能出現的問題制作一個行動計劃。如果模型吞吐量增加怎么辦?擴展需要花費多少時間和金錢?由此確定共同 承認的公平的前期職責劃分,相應地分配團隊成員的工作時間。
數據科學家和數據工程師都在朝著同一個目標努力:運用代碼建造程序來解決實際的商業(yè)問題。不幸的是,誤解和技術效率低下常常導致人們忽略了這一目標。當我們 在工作中處理和他人的關系的時候,雖然沒有萬能的神奇公式,但是這五個誡律應該可以在消除數據工程師和數據科學家之間的鴻溝上產生深遠的影響。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03