
數(shù)據(jù)科學家和工程師的“五誡”
在實際的工作中,數(shù)據(jù)科學家們不僅要學會如何實用工具,還要懂得如何與同事合作。The Yhat Blog這篇文章探討了在實際的數(shù)據(jù)建模和數(shù)據(jù)處理的過程中數(shù)據(jù)科學家和數(shù)據(jù)工程師應該如何處理好關系順利地完成項目的問題。它引用“摩西十誡”的典故, 提出了給數(shù)據(jù)處理者的五個“誡律”。我們一起來參考一下!
1.了解你的數(shù)據(jù)
好的模型依賴于好的數(shù)據(jù)。要建立真正具有生產(chǎn)力的模型,數(shù)據(jù)科學家需要知道他們基于創(chuàng)造和存儲產(chǎn)品的數(shù)據(jù)庫是否可靠,以及數(shù)據(jù)庫更新的頻率。這些信息在項目開始之前就應該被收集并且分享給工程團隊,以避免項目進程之中可能產(chǎn)生的阻礙。
在 一個理想的世界里,科學家和工程師都應該提前做好應對即將發(fā)生的變化的準備(例如,多種變量類型之間的變化),使他們能夠據(jù)此共同創(chuàng)建,測試和部署相應的 新版本。即使不能夠保證避免每一個程序中的事故,共享資源和盡早發(fā)現(xiàn)缺陷也可以使工程師們降低風險和預見解決可能出現(xiàn)問題的部分。
2.熟悉合作伙伴使用的工具
數(shù) 據(jù)科學家運用的主要編程語言是R或Python,這種語言便于數(shù)據(jù)的清潔,探索和建模。而工程師,卻需要使用多種不同的工具集來構(gòu)建可擴展的網(wǎng)絡和移動應 用程序(例如,NET、Ruby on Rails、Node.js 或 JVM)。雖然期望一個人完全懂得使用這兩套工具是不切合實際的,但是跨過技術(shù)“藩籬”的限制對對方使用的語言和流程有一個基本的了解將大大有助于合作的 開展。
將統(tǒng)計代碼手動重新編寫為另一種語言是一項費時費力又極其容易犯錯的工程,所以當出現(xiàn)問題的擔憂增加的時候,建立良好的溝通機制(面對面和網(wǎng)絡數(shù)字化的)絕對是至關重要的。
3.了解技術(shù)的局限
當數(shù)據(jù)科學家和工程師運用不同的工具包工作的時候必然會遇到技術(shù)的限制。這常常使他們發(fā)狂,因為沒有人喜歡被要求返工,或者看著自己辛勤勞作創(chuàng)造出來的產(chǎn)品不理想,甚至更糟糕,看到自己的辛勤勞動付諸東流。
一 旦你清楚了模型開發(fā)和部署所需要使用的語言(見誡條2),就應該花時間研究一下使用這種語言做什么是可能的,什么是完全不能夠?qū)崿F(xiàn)的。然后就應該設定定期 的跨職能討論會的時間表,科學家和工程師雙方要經(jīng)常溝通例如:你考慮在哪些方面做一些突破?雙方在哪些地方可以做出讓步?哪些又是技術(shù)完全實現(xiàn)不了的?有 沒有其他選擇?要實施需要付出多少努力?這些努力符合商業(yè)價值的考量嗎?
在實際工作 中,假設你是一個數(shù)據(jù)科學家正在為一個Ruby編寫的APP編寫一段使用R語言的反欺詐算法,那么你應該知道的是R的GLM功能(用于構(gòu)建廣義線性模型的 函數(shù)),在Ruby(或Java,對這個問題來說)中并沒有相對應的本地功能。這時候就需要大家一起來一場頭腦風暴來找尋出路啦。
4.互相尊重
在任何時候,一個數(shù)據(jù)科學家的工作總是需要大家共同的努力才能夠完成,在這個過程中充滿了產(chǎn)生誤解的可能。那我們的建議是什么呢?就是像老話講的,己所不欲,勿施于人。
對于數(shù)據(jù)科學家來說,你要做的就是寫出便于維護和使用的高質(zhì)量的代碼,積極聽取工程師關于重構(gòu)模型和采取更好替代方法的建議,詢問他們怎樣才是一個現(xiàn)實的可實行的時間表,你還能提供哪些幫助等。
對于工程師來說,與數(shù)據(jù)科學家合作,需要明確必須的職責,并且共同商討達成一份書面的處理問題的優(yōu)先次序文件,遵循一個不斷更新的和現(xiàn)實的路線圖,并根據(jù)項目的進程不斷檢驗、細化和落實科學的數(shù)據(jù)模型。
5.履行你的責任和義務
有人認為一個模型一旦創(chuàng)造出來,并且投入了實際的商業(yè)運用,無論是創(chuàng)造它的數(shù)據(jù)科學團隊,還是實現(xiàn)了它的工程師們就可以自由地著手下一個大項目,不需要再管理這個項目了。這種想法是非常危險的。事實上,這只是分析的生命周期的另一階段的開始。
因 為,數(shù)據(jù)科學家和工程師建立生產(chǎn)過程中的監(jiān)控和管理模型的計劃是非常重要的。誰將會監(jiān)督模型和服務器的穩(wěn)定性?如何將輸入和輸出數(shù)據(jù)存儲和共享?升級版 本,再培訓和重新測試的路線圖是什么?還要為解決可能出現(xiàn)的問題制作一個行動計劃。如果模型吞吐量增加怎么辦?擴展需要花費多少時間和金錢?由此確定共同 承認的公平的前期職責劃分,相應地分配團隊成員的工作時間。
數(shù)據(jù)科學家和數(shù)據(jù)工程師都在朝著同一個目標努力:運用代碼建造程序來解決實際的商業(yè)問題。不幸的是,誤解和技術(shù)效率低下常常導致人們忽略了這一目標。當我們 在工作中處理和他人的關系的時候,雖然沒有萬能的神奇公式,但是這五個誡律應該可以在消除數(shù)據(jù)工程師和數(shù)據(jù)科學家之間的鴻溝上產(chǎn)生深遠的影響。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11