
數(shù)據(jù)科學(xué)管理之道 關(guān)于管理數(shù)據(jù)科研團(tuán)隊的經(jīng)驗和教訓(xùn)
當(dāng)我初次到一家研究數(shù)據(jù)挖掘和機器學(xué)習(xí)的創(chuàng)業(yè)公司擔(dān)任工程部副總裁時,其他高管都對這個問題感到好奇。他們知道,這是一支天賦異稟的團(tuán)隊,看上去也工作得十分賣力,但諸位高管對這項工作本身仍然充滿了疑問。他們怎么知道自己正在做的事情就是“正確”的?他們還能改做其他項目嗎?另外,我們怎么才能更快地將研究成果交到顧客手中?
這就是我的工作。聘請的工程部副總裁絕不是拿來當(dāng)擺設(shè)的。
在接下來的一年中,我們解開了以上所有疑團(tuán),并且成功地將從創(chuàng)意到產(chǎn)品的時間從半年縮短到了兩三個月。在本文,我將圍繞如何管理一支與產(chǎn)品團(tuán)隊密切合作的數(shù)據(jù)科研團(tuán)隊這個主題,與大家分享一些經(jīng)驗和教訓(xùn)。希望能給大家的工作和管理流程能有所啟發(fā)。
如果你領(lǐng)導(dǎo)的是一支處理復(fù)雜數(shù)據(jù)科學(xué)問題的團(tuán)隊,那么傳統(tǒng)軟件中的常用方法就未必行得通了。開展研究和實驗時,工作內(nèi)容或許是模糊不清、不可預(yù)測的,結(jié)果也可能難以測量。
作為一名熟悉標(biāo)準(zhǔn)軟件開發(fā)流程的經(jīng)理,我對如今的敏捷開發(fā)、Scrum 和其他相關(guān)流程了如指掌。然而,這些框架與我們當(dāng)時從事的研究工作并不貼合。實際情況有些過于凌亂。
我們忙于提出創(chuàng)意、調(diào)查設(shè)想和檢驗假設(shè)。工作量非常難以估計,而且我們也無法保證成果能達(dá)到交付標(biāo)準(zhǔn)。所以我們必須制定一套新流程,來應(yīng)對所有這些不確定性。
現(xiàn)在回到最初的問題:“他們究竟整天在忙些什么?”
我當(dāng)然可以直接去詢問每個人,然后提供一份狀態(tài)報告,但這樣的答案無異于隔靴搔癢。
問題的核心在于,我們需要一套適合研究工作的清晰流程,同時要簡化我們與產(chǎn)品團(tuán)隊的合作。我們需要的流程,必須能幫助我們充分利用一群精通數(shù)據(jù)的人和一群熟知顧客的人之間產(chǎn)生的合力,并能讓他們齊心協(xié)力地工作。
我們需要通暢的溝通渠道,和一套能夠支持將來工作的流程。懷著這樣的初衷,我們將改革之箭瞄準(zhǔn)了溝通和后勤的關(guān)鍵領(lǐng)域。
通信 : 保持透明
當(dāng)務(wù)之急是改善溝通效果。不同團(tuán)隊都有各自不同的話語體系。
解答他人的問題并不像闡述正確答案這么簡單,你還要學(xué)會運用適當(dāng)?shù)脑~匯來讓對方真正地理解。溝通不能停留于表面的詞匯,更重要的是背后的含義。
你們是怎么溝通結(jié)果的? 譬如,有一個問題總會讓我們犯難:“怎么樣才叫完成?”數(shù)據(jù)科學(xué)團(tuán)隊會測量結(jié)果,我們的實驗也總歸會結(jié)束,但我們怎么知道一個算法或模型是否已經(jīng)達(dá)到與產(chǎn)品集成的標(biāo)準(zhǔn)呢?我們需要的不僅是測量結(jié)果,還有成功標(biāo)準(zhǔn)。
創(chuàng)建模型時,我們可以通過測量模型的準(zhǔn)確率、查全率,但并非所有高管都懂得那些術(shù)語。所以我們換了一種方式來談?wù)搶嶒灲Y(jié)果。我們不再用算法評估指標(biāo)(例如準(zhǔn)確率和召回率)來表達(dá)觀點,而是用顧客體驗和商務(wù)指標(biāo)來溝通結(jié)果。
以前,我們會這樣溝通結(jié)果:
精度: 80%
召回率 25%
而以后我們會這樣溝通結(jié)果:對于熱門搜索詞 *,附件出現(xiàn)在第一頁的幾率為 25%。對于熱門搜索詞,初代產(chǎn)品出現(xiàn)在前 3 條結(jié)果中的幾率為 90%,出 現(xiàn) 在 前 5 條 結(jié) 果 中 的 幾 率 為98%。
* 熱門搜索詞是指我們的網(wǎng)站在最近 30 天內(nèi)出現(xiàn)次數(shù)最多的1000 個查詢詞。
第二種表達(dá)方式清晰地詮釋了測量結(jié)果的含義。即使不理解算法,也能聽懂這些結(jié)果并就此發(fā)問。
你們是怎么測量這些結(jié)果?我們遇到的另一個問題是,我們一直在用隨機采樣的辦法來測量算法或模型的結(jié)果。盡管這無疑是測試結(jié)果的一種方法,但它卻未必能和網(wǎng)站使用體驗掛鉤。我們精挑細(xì)選的算法也許在采樣測試中效果很好,但在重要產(chǎn)品中的效果卻可能謬以千里。
因此我們拋棄了原來評估結(jié)果的方式,改為以顧客實際使用來衡量。我們會用初代產(chǎn)品或有顧客瀏覽的產(chǎn)品作為測量結(jié)果的示例。這讓我們更加貼近了真實的顧客體驗。
展現(xiàn)進(jìn)步。 通過實驗改進(jìn)算法時,例如調(diào)整搜索結(jié)果,展現(xiàn)前后對比也很關(guān)鍵。實驗中改變了哪些條件?有時,有些結(jié)果可以得到改善,有些結(jié)果甚至還不如從前,因此了解這兩個對立面和就此進(jìn)行溝通缺一不可。有了這些信息后,我們就能作出關(guān)于下一步行動的最佳
決定。
攻克難題。 除了數(shù)據(jù)和結(jié)果的溝通問題外,我們探討新創(chuàng)意時似乎也會產(chǎn)生誤解。譬如,可能會有這樣的對話:
一位高管說:“我有個想法,想創(chuàng)建一個產(chǎn)品型號譜系。然后我們可以給顧客展示過去的產(chǎn)品,并使用我們的算法來預(yù)測新產(chǎn)品什么時候發(fā)布?!?/span>
數(shù)據(jù)科學(xué)家會聽取需求、分析創(chuàng)意、研究一番,然后帶著這樣的消息回來:“那會非常困難;我認(rèn)為我們不應(yīng)該做這件事?!?/span>
但類似這樣的對話并不總是帶來一樣的結(jié)果。
很多工作都“非常困難”,有時候某些功能還是要千方百計地實現(xiàn)(這讓不得不開展相關(guān)工作的數(shù)據(jù)科學(xué)團(tuán)隊很頭疼),但也有些情況下,“非常困難”的工作會讓某項功能的開發(fā)戛然而止,導(dǎo)致錯失良機。
鑒于我們?nèi)狈ΩM(jìn)這類對話或團(tuán)隊集體解決問題的機制,難題只會變得更難。
對于數(shù)據(jù)挖掘和機器學(xué)習(xí)領(lǐng)域的研究人員而言,大多數(shù)問題都不簡單。但關(guān)鍵在于,難以攻克的難題有時候可以用其他方式來化解,例如使用質(zhì)量更好的數(shù)據(jù)或其他數(shù)據(jù)、變更需求或添加特殊條件。所以把一個問題形容為“非常困難”不能作為不盡力解決的充分理由;
然而,大家始終都把這句話當(dāng)做停滯不前的借口。
解決問題的關(guān)鍵在于學(xué)著溝通導(dǎo)致工作困難的原因。
對我們來說,效果最好的方法是打比方和舉例子。把工作困難的原因?qū)訉觿冮_后,他人就容易理解困難所在了。針對型號譜系,我們結(jié)合插圖中的例子來講。
唯一的改變是反思我們的溝通方式。我們需要向受眾傳達(dá)有針對性的信息。對數(shù)據(jù)科學(xué)或研究領(lǐng)域的工作人員而言,以下這一點很容易忽視:并非所有人都和你一樣熟悉具體情況,因此我們需要變通溝通方式,確保達(dá)成共識。
后勤:建立清晰流程
下一步要做的是調(diào)整工作方式。解決了部分溝通問題后,我記得有人會問我:“我們怎么為研究團(tuán)隊營造緊迫感?”有這樣的疑問產(chǎn)生,并不是因為工作沒有完成,只是因為研究團(tuán)隊的工作一般沒有截止日期。一項工作什么時候完成,全憑負(fù)責(zé)人說了算。
但我們是創(chuàng)業(yè)公司;公司其他所有員工都有截止日期,大家都在和時間賽跑,在時間允許的范圍內(nèi)盡可能創(chuàng)造更多的價值。
為研究工作定下截止日期。
研 究 之 所 以 叫 做 研 究 是 有 原 因的,即便我們希望制定時間表,屆時把產(chǎn)品包好再打個蝴蝶結(jié),也不代表一切就會如愿。但是,我們?yōu)閷嶒瀯?chuàng)建了需求列表,就像為傳統(tǒng)軟件開發(fā)工作創(chuàng)建的需求列表一樣。列表上列出了所有我們希望達(dá)到的目標(biāo),按優(yōu)先級
排序。
對于列表中的每個條目,我們都可以定義成功標(biāo)準(zhǔn)、分配出去乃至放棄(這要花多長時間?)。
這項舉措讓團(tuán)隊受益匪淺。以前,大家是各人自掃門前雪,如今,我們作為一個團(tuán)隊,共同處理同一份重點工作列表中的事項。
增加敏捷演示。 我們的另一項措施是每個月安排一次演示,讓研究團(tuán)隊的每位成員分享各自的進(jìn)度。這些“心跳會議”有助于大家知己知彼,了解真實的工作進(jìn)展情況。
還有助于營造緊迫感(因為演示中定下了截止日期),結(jié)果我們突然開始作為一支團(tuán)隊快速行動起來了。
鑒于我們無法抹除研究工作的不可預(yù)測性(沒人知道實驗?zāi)芊癯晒?、運行和調(diào)整結(jié)果需要多長時間),我們決定著眼于速度。
我們追求迅速的驗證概念的原型和快速迭代。若是以前,我們可能會等到有明確結(jié)論后再向產(chǎn)品團(tuán)隊展示結(jié)果,但在這個新模型中,我們會更頻繁地分享數(shù)據(jù)和中間結(jié)果。我們會增加很多警告。
最初,這讓團(tuán)隊所有成員都不適應(yīng);他們不想展示自己明知道還有改進(jìn)空間的半成品。然而,自從更頻繁地這樣做之后,我們能在流程中更早獲得反饋了。這種早期反饋甚至促進(jìn)了我們在整個過程中對產(chǎn)品的調(diào)整(因為我們可以看到結(jié)果的真實狀況,要知道,有時候結(jié)
果與我們的預(yù)期或在設(shè)計稿中的模型相去甚遠(yuǎn))。
而當(dāng)產(chǎn)品團(tuán)隊也能看到結(jié)果后,他們會充滿激情,反過來也為研究團(tuán)隊取得更多成果增添了動力。
例如,我們曾希望推出的功能之中有一項是估值,也就是要將產(chǎn)品的所有功能分開,并逐一賦予數(shù)值。這樣做的目標(biāo)是幫助用戶按照功能來對比產(chǎn)品,讓他們清楚地知道自己的錢究竟花在哪里,還可以幫助他們尋找規(guī)格相似但價格更優(yōu)惠的產(chǎn)品。
做了很多工作之后,我們發(fā)現(xiàn)這個問題非常復(fù)雜。然而,用同樣的數(shù)據(jù)和模型,我們實現(xiàn)了另一項功能,可以幫助用戶達(dá)成同樣的目標(biāo),但對比的是產(chǎn)品而非功能。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03