
數(shù)據(jù)科學管理之道 關于管理數(shù)據(jù)科研團隊的經(jīng)驗和教訓
當我初次到一家研究數(shù)據(jù)挖掘和機器學習的創(chuàng)業(yè)公司擔任工程部副總裁時,其他高管都對這個問題感到好奇。他們知道,這是一支天賦異稟的團隊,看上去也工作得十分賣力,但諸位高管對這項工作本身仍然充滿了疑問。他們怎么知道自己正在做的事情就是“正確”的?他們還能改做其他項目嗎?另外,我們怎么才能更快地將研究成果交到顧客手中?
這就是我的工作。聘請的工程部副總裁絕不是拿來當擺設的。
在接下來的一年中,我們解開了以上所有疑團,并且成功地將從創(chuàng)意到產(chǎn)品的時間從半年縮短到了兩三個月。在本文,我將圍繞如何管理一支與產(chǎn)品團隊密切合作的數(shù)據(jù)科研團隊這個主題,與大家分享一些經(jīng)驗和教訓。希望能給大家的工作和管理流程能有所啟發(fā)。
如果你領導的是一支處理復雜數(shù)據(jù)科學問題的團隊,那么傳統(tǒng)軟件中的常用方法就未必行得通了。開展研究和實驗時,工作內(nèi)容或許是模糊不清、不可預測的,結(jié)果也可能難以測量。
作為一名熟悉標準軟件開發(fā)流程的經(jīng)理,我對如今的敏捷開發(fā)、Scrum 和其他相關流程了如指掌。然而,這些框架與我們當時從事的研究工作并不貼合。實際情況有些過于凌亂。
我們忙于提出創(chuàng)意、調(diào)查設想和檢驗假設。工作量非常難以估計,而且我們也無法保證成果能達到交付標準。所以我們必須制定一套新流程,來應對所有這些不確定性。
現(xiàn)在回到最初的問題:“他們究竟整天在忙些什么?”
我當然可以直接去詢問每個人,然后提供一份狀態(tài)報告,但這樣的答案無異于隔靴搔癢。
問題的核心在于,我們需要一套適合研究工作的清晰流程,同時要簡化我們與產(chǎn)品團隊的合作。我們需要的流程,必須能幫助我們充分利用一群精通數(shù)據(jù)的人和一群熟知顧客的人之間產(chǎn)生的合力,并能讓他們齊心協(xié)力地工作。
我們需要通暢的溝通渠道,和一套能夠支持將來工作的流程。懷著這樣的初衷,我們將改革之箭瞄準了溝通和后勤的關鍵領域。
通信 : 保持透明
當務之急是改善溝通效果。不同團隊都有各自不同的話語體系。
解答他人的問題并不像闡述正確答案這么簡單,你還要學會運用適當?shù)脑~匯來讓對方真正地理解。溝通不能停留于表面的詞匯,更重要的是背后的含義。
你們是怎么溝通結(jié)果的? 譬如,有一個問題總會讓我們犯難:“怎么樣才叫完成?”數(shù)據(jù)科學團隊會測量結(jié)果,我們的實驗也總歸會結(jié)束,但我們怎么知道一個算法或模型是否已經(jīng)達到與產(chǎn)品集成的標準呢?我們需要的不僅是測量結(jié)果,還有成功標準。
創(chuàng)建模型時,我們可以通過測量模型的準確率、查全率,但并非所有高管都懂得那些術語。所以我們換了一種方式來談論實驗結(jié)果。我們不再用算法評估指標(例如準確率和召回率)來表達觀點,而是用顧客體驗和商務指標來溝通結(jié)果。
以前,我們會這樣溝通結(jié)果:
精度: 80%
召回率 25%
而以后我們會這樣溝通結(jié)果:對于熱門搜索詞 *,附件出現(xiàn)在第一頁的幾率為 25%。對于熱門搜索詞,初代產(chǎn)品出現(xiàn)在前 3 條結(jié)果中的幾率為 90%,出 現(xiàn) 在 前 5 條 結(jié) 果 中 的 幾 率 為98%。
* 熱門搜索詞是指我們的網(wǎng)站在最近 30 天內(nèi)出現(xiàn)次數(shù)最多的1000 個查詢詞。
第二種表達方式清晰地詮釋了測量結(jié)果的含義。即使不理解算法,也能聽懂這些結(jié)果并就此發(fā)問。
你們是怎么測量這些結(jié)果?我們遇到的另一個問題是,我們一直在用隨機采樣的辦法來測量算法或模型的結(jié)果。盡管這無疑是測試結(jié)果的一種方法,但它卻未必能和網(wǎng)站使用體驗掛鉤。我們精挑細選的算法也許在采樣測試中效果很好,但在重要產(chǎn)品中的效果卻可能謬以千里。
因此我們拋棄了原來評估結(jié)果的方式,改為以顧客實際使用來衡量。我們會用初代產(chǎn)品或有顧客瀏覽的產(chǎn)品作為測量結(jié)果的示例。這讓我們更加貼近了真實的顧客體驗。
展現(xiàn)進步。 通過實驗改進算法時,例如調(diào)整搜索結(jié)果,展現(xiàn)前后對比也很關鍵。實驗中改變了哪些條件?有時,有些結(jié)果可以得到改善,有些結(jié)果甚至還不如從前,因此了解這兩個對立面和就此進行溝通缺一不可。有了這些信息后,我們就能作出關于下一步行動的最佳
決定。
攻克難題。 除了數(shù)據(jù)和結(jié)果的溝通問題外,我們探討新創(chuàng)意時似乎也會產(chǎn)生誤解。譬如,可能會有這樣的對話:
一位高管說:“我有個想法,想創(chuàng)建一個產(chǎn)品型號譜系。然后我們可以給顧客展示過去的產(chǎn)品,并使用我們的算法來預測新產(chǎn)品什么時候發(fā)布。”
數(shù)據(jù)科學家會聽取需求、分析創(chuàng)意、研究一番,然后帶著這樣的消息回來:“那會非常困難;我認為我們不應該做這件事?!?/span>
但類似這樣的對話并不總是帶來一樣的結(jié)果。
很多工作都“非常困難”,有時候某些功能還是要千方百計地實現(xiàn)(這讓不得不開展相關工作的數(shù)據(jù)科學團隊很頭疼),但也有些情況下,“非常困難”的工作會讓某項功能的開發(fā)戛然而止,導致錯失良機。
鑒于我們?nèi)狈ΩM這類對話或團隊集體解決問題的機制,難題只會變得更難。
對于數(shù)據(jù)挖掘和機器學習領域的研究人員而言,大多數(shù)問題都不簡單。但關鍵在于,難以攻克的難題有時候可以用其他方式來化解,例如使用質(zhì)量更好的數(shù)據(jù)或其他數(shù)據(jù)、變更需求或添加特殊條件。所以把一個問題形容為“非常困難”不能作為不盡力解決的充分理由;
然而,大家始終都把這句話當做停滯不前的借口。
解決問題的關鍵在于學著溝通導致工作困難的原因。
對我們來說,效果最好的方法是打比方和舉例子。把工作困難的原因?qū)訉觿冮_后,他人就容易理解困難所在了。針對型號譜系,我們結(jié)合插圖中的例子來講。
唯一的改變是反思我們的溝通方式。我們需要向受眾傳達有針對性的信息。對數(shù)據(jù)科學或研究領域的工作人員而言,以下這一點很容易忽視:并非所有人都和你一樣熟悉具體情況,因此我們需要變通溝通方式,確保達成共識。
后勤:建立清晰流程
下一步要做的是調(diào)整工作方式。解決了部分溝通問題后,我記得有人會問我:“我們怎么為研究團隊營造緊迫感?”有這樣的疑問產(chǎn)生,并不是因為工作沒有完成,只是因為研究團隊的工作一般沒有截止日期。一項工作什么時候完成,全憑負責人說了算。
但我們是創(chuàng)業(yè)公司;公司其他所有員工都有截止日期,大家都在和時間賽跑,在時間允許的范圍內(nèi)盡可能創(chuàng)造更多的價值。
為研究工作定下截止日期。
研 究 之 所 以 叫 做 研 究 是 有 原 因的,即便我們希望制定時間表,屆時把產(chǎn)品包好再打個蝴蝶結(jié),也不代表一切就會如愿。但是,我們?yōu)閷嶒瀯?chuàng)建了需求列表,就像為傳統(tǒng)軟件開發(fā)工作創(chuàng)建的需求列表一樣。列表上列出了所有我們希望達到的目標,按優(yōu)先級
排序。
對于列表中的每個條目,我們都可以定義成功標準、分配出去乃至放棄(這要花多長時間?)。
這項舉措讓團隊受益匪淺。以前,大家是各人自掃門前雪,如今,我們作為一個團隊,共同處理同一份重點工作列表中的事項。
增加敏捷演示。 我們的另一項措施是每個月安排一次演示,讓研究團隊的每位成員分享各自的進度。這些“心跳會議”有助于大家知己知彼,了解真實的工作進展情況。
還有助于營造緊迫感(因為演示中定下了截止日期),結(jié)果我們突然開始作為一支團隊快速行動起來了。
鑒于我們無法抹除研究工作的不可預測性(沒人知道實驗能否成功、運行和調(diào)整結(jié)果需要多長時間),我們決定著眼于速度。
我們追求迅速的驗證概念的原型和快速迭代。若是以前,我們可能會等到有明確結(jié)論后再向產(chǎn)品團隊展示結(jié)果,但在這個新模型中,我們會更頻繁地分享數(shù)據(jù)和中間結(jié)果。我們會增加很多警告。
最初,這讓團隊所有成員都不適應;他們不想展示自己明知道還有改進空間的半成品。然而,自從更頻繁地這樣做之后,我們能在流程中更早獲得反饋了。這種早期反饋甚至促進了我們在整個過程中對產(chǎn)品的調(diào)整(因為我們可以看到結(jié)果的真實狀況,要知道,有時候結(jié)
果與我們的預期或在設計稿中的模型相去甚遠)。
而當產(chǎn)品團隊也能看到結(jié)果后,他們會充滿激情,反過來也為研究團隊取得更多成果增添了動力。
例如,我們曾希望推出的功能之中有一項是估值,也就是要將產(chǎn)品的所有功能分開,并逐一賦予數(shù)值。這樣做的目標是幫助用戶按照功能來對比產(chǎn)品,讓他們清楚地知道自己的錢究竟花在哪里,還可以幫助他們尋找規(guī)格相似但價格更優(yōu)惠的產(chǎn)品。
做了很多工作之后,我們發(fā)現(xiàn)這個問題非常復雜。然而,用同樣的數(shù)據(jù)和模型,我們實現(xiàn)了另一項功能,可以幫助用戶達成同樣的目標,但對比的是產(chǎn)品而非功能。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構數(shù)據(jù)價值的核心操盤手 表格結(jié)構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11