
作者 | Cameron Warren
來源 | 圖靈TOPIA
近日,數(shù)據(jù)科學(xué)家Cameron Warren就數(shù)據(jù)科學(xué)和商業(yè)的交集,以及傳統(tǒng)數(shù)據(jù)科學(xué)思想的挑戰(zhàn),發(fā)表了自己的看法。
過去的6年間, Warren在Adobe, USAA Bank, Nu Skin, Purple Mattress, Franklin Sports等多家公司從事數(shù)據(jù)科學(xué)和分析項(xiàng)目,也在分析領(lǐng)域的四家公司工作過。
他的職業(yè)生涯始于“數(shù)據(jù)科學(xué)家”,這項(xiàng)工作被評為“21世紀(jì)最性感的工作”。
在6年的時(shí)間里,他了解了不同的公司是如何構(gòu)建、參與和執(zhí)行數(shù)據(jù)項(xiàng)目的,并且采訪了9家不同的公司,就數(shù)據(jù)科學(xué)家和其他職務(wù)進(jìn)行了分析,并深入了解了公司如何組建數(shù)據(jù)團(tuán)隊(duì),以及雇用人員的方式。
此外,Warren的這些經(jīng)驗(yàn)和知識完全是通過導(dǎo)師指導(dǎo),自學(xué),MOOC課程或在職工作獲得的。
他的正式學(xué)位是 Latin American (BA) and International Studies (MA),并且?guī)缀鯖]有接受過正式的技術(shù)訓(xùn)練。
以下是Warren的分享:
企業(yè)數(shù)據(jù)科學(xué)和分析團(tuán)隊(duì)是為了解決業(yè)務(wù)問題
這似乎應(yīng)該是不言自明的,但不知何故,它不是。我曾無數(shù)次看到數(shù)據(jù)項(xiàng)目失敗,在這個(gè)過程中,數(shù)據(jù)團(tuán)隊(duì)忘記了自己存在的理由。
數(shù)據(jù)團(tuán)隊(duì)都是一種支持功能,旨在解決合法的業(yè)務(wù)問題——也就是說,這些問題要么會為公司帶來收入,要么會為公司節(jié)省資金,僅此而已。
曾經(jīng)有一個(gè)數(shù)據(jù)科學(xué)家告訴我,他花了整整3天時(shí)間在預(yù)測模型的一個(gè)新特性,但公司告訴他這是沒必要的,因?yàn)樗懻摰念A(yù)測模型預(yù)足以滿足他們的需求。
技術(shù)性的DS和DE喜歡進(jìn)行修補(bǔ)并深入研究代碼。它滿足了完善預(yù)測模型的需要,并努力保持最后2%或5%的準(zhǔn)確性。不幸的是,你從80%的AUC到85%所花的時(shí)間可能是一樣的。
作為數(shù)據(jù)專業(yè)人員,你的價(jià)值取決于模型、管道或數(shù)據(jù)產(chǎn)品節(jié)省或生成的美元。讓數(shù)據(jù)科學(xué)家花3天時(shí)間修改一個(gè)新特性,會損失多少美元?
我并不是說對一個(gè)數(shù)據(jù)科學(xué)家來說進(jìn)行實(shí)驗(yàn)是不重要,事實(shí)上,這對于一個(gè)好的數(shù)據(jù)科學(xué)家來說,實(shí)驗(yàn)是至關(guān)重要的。
然而,專注于提供ROI更重要。為了提高生產(chǎn)力和實(shí)用性,發(fā)展能夠解決復(fù)雜性和不必要的優(yōu)化的能力,會讓數(shù)據(jù)科學(xué)家做得更多,并且能提供更多價(jià)值。
幾種不同的“數(shù)據(jù)科學(xué)家”
數(shù)據(jù)科學(xué)家是21世紀(jì)最性感也是最令人費(fèi)解的工作。即使他們認(rèn)為他們愿意,也沒有公司愿意雇傭相同的數(shù)據(jù)科學(xué)家。
正如之前的一篇文章中所解釋的,數(shù)據(jù)科學(xué)是一個(gè)廣泛的領(lǐng)域,而不是一個(gè)具有三維技能的職位名稱。
我厭倦了關(guān)于什么是或不是“真正的”數(shù)據(jù)科學(xué)家的爭論。這是一個(gè)人力資源的問題,并不適用于公司真正需要的東西。
事實(shí)上,大多數(shù)組織真正需要的是能夠整合一系列數(shù)據(jù)源、創(chuàng)建一些簡單模型并實(shí)現(xiàn)自動化的人。
這些技能不需要博士學(xué)位或高級技術(shù)學(xué)位,但仍然可以為許多公司提供難以置信的價(jià)值。
話雖如此,但是對于高度專業(yè)化、受過高等教育的統(tǒng)計(jì)學(xué)家或研究人員來說,肯定有重要的位置需要他們,這種需求是由不同公司面臨的挑戰(zhàn)所創(chuàng)造的,而不是作為“數(shù)據(jù)科學(xué)家”角色的籠統(tǒng)要求。
數(shù)據(jù)工程比數(shù)據(jù)科學(xué)更重要
與開發(fā)和調(diào)優(yōu)預(yù)測模型的能力相比,數(shù)據(jù)科學(xué)家更需要一種能力,即從那些不用于相互通信的數(shù)據(jù)源中縫合和組織完全不同的數(shù)據(jù)集。
除非公司在有限的規(guī)則集和業(yè)務(wù)場景下,面臨難以置信的挑戰(zhàn),否則對復(fù)雜預(yù)測模型的需求將會受到限制。
剛開始涉足數(shù)據(jù)科學(xué)領(lǐng)域就想?yún)⑴c競爭嗎? 首先得學(xué)習(xí)數(shù)據(jù)工程師的技能,然后弄清楚建模和預(yù)測。
如果你決定沿著預(yù)測的道路前進(jìn),那么對于幾乎所有雇用你的公司,你都將變得更有價(jià)值,而且你還將創(chuàng)建比同事更好的模型。
與長期進(jìn)行預(yù)測性建模和調(diào)整相比,高級SQL,Web抓取,API開發(fā)和數(shù)據(jù)清理技能帶來更多收益。
領(lǐng)導(dǎo)者傾向于雇傭像他們一樣的人
許多數(shù)據(jù)科學(xué)的領(lǐng)導(dǎo)者(以及一般的領(lǐng)導(dǎo)者)堅(jiān)持這樣的觀點(diǎn),即為了解決復(fù)雜的挑戰(zhàn),他們應(yīng)該雇傭最專業(yè)的人(在許多情況下,雇傭那些擁有盡可能接近自己經(jīng)驗(yàn)的人,而不是更有成就的人)。
就數(shù)據(jù)科學(xué)而言,公司通常的想法是:我雇傭的數(shù)據(jù)科學(xué)家越有資格,我就能解決越復(fù)雜的數(shù)據(jù)挑戰(zhàn)。不幸的是,事實(shí)遠(yuǎn)非如此。
這種思想被稱為“‘Local Seach”,也就是說,使用來自單個(gè)領(lǐng)域的專家,嘗試用以前有效的解決方案來解決現(xiàn)有問題。
雖然感覺上這個(gè)想法是正確的,但它缺少了關(guān)鍵的“由外而內(nèi)”的思維方式,比如把經(jīng)驗(yàn)和想法聯(lián)系起來的能力,而這種能力可以解決訓(xùn)練以外的問題。
愛潑斯坦在《范圍》一書提供了“由外而內(nèi)”或“橫向”思維的例子。
例如,美國禮來公司(Eli Lilly)負(fù)責(zé)研究的副總裁 Alph Bingham向公司高管們提出了21項(xiàng)研究挑戰(zhàn)的提議,這個(gè)提議讓禮來公司的科學(xué)家們感到困惑。
起初,公司高管拒絕了這一提議,他們指出,“如果世界上受過高等教育、高度專業(yè)化、資源豐富的化學(xué)家們都被技術(shù)問題困住了,其他人又怎么能夠提供幫助呢?”
最后,公司高管一致認(rèn)為這個(gè)提議不會有什么壞處。
結(jié)果是令人震驚的:超過三分之一的挑戰(zhàn)已經(jīng)完全被解決,團(tuán)隊(duì)中包括一個(gè)完全沒有科學(xué)經(jīng)驗(yàn)的律師,但他的知識來自化學(xué)。
為了建立一個(gè)能夠解決真正復(fù)雜、重要問題的團(tuán)隊(duì),數(shù)據(jù)科學(xué)的領(lǐng)導(dǎo)者需要雇傭一批具有不同背景和專業(yè)知識的人。
同時(shí),他們應(yīng)該抵制建立具有相同背景甚至相同技術(shù)能力的團(tuán)隊(duì)。團(tuán)隊(duì)的經(jīng)驗(yàn)和成就的多樣性比文憑數(shù)量更重要。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10