
作者 | Cameron Warren
來(lái)源 | 圖靈TOPIA
近日,數(shù)據(jù)科學(xué)家Cameron Warren就數(shù)據(jù)科學(xué)和商業(yè)的交集,以及傳統(tǒng)數(shù)據(jù)科學(xué)思想的挑戰(zhàn),發(fā)表了自己的看法。
過(guò)去的6年間, Warren在Adobe, USAA Bank, Nu Skin, Purple Mattress, Franklin Sports等多家公司從事數(shù)據(jù)科學(xué)和分析項(xiàng)目,也在分析領(lǐng)域的四家公司工作過(guò)。
他的職業(yè)生涯始于“數(shù)據(jù)科學(xué)家”,這項(xiàng)工作被評(píng)為“21世紀(jì)最性感的工作”。
在6年的時(shí)間里,他了解了不同的公司是如何構(gòu)建、參與和執(zhí)行數(shù)據(jù)項(xiàng)目的,并且采訪了9家不同的公司,就數(shù)據(jù)科學(xué)家和其他職務(wù)進(jìn)行了分析,并深入了解了公司如何組建數(shù)據(jù)團(tuán)隊(duì),以及雇用人員的方式。
此外,Warren的這些經(jīng)驗(yàn)和知識(shí)完全是通過(guò)導(dǎo)師指導(dǎo),自學(xué),MOOC課程或在職工作獲得的。
他的正式學(xué)位是 Latin American (BA) and International Studies (MA),并且?guī)缀鯖](méi)有接受過(guò)正式的技術(shù)訓(xùn)練。
以下是Warren的分享:
企業(yè)數(shù)據(jù)科學(xué)和分析團(tuán)隊(duì)是為了解決業(yè)務(wù)問(wèn)題
這似乎應(yīng)該是不言自明的,但不知何故,它不是。我曾無(wú)數(shù)次看到數(shù)據(jù)項(xiàng)目失敗,在這個(gè)過(guò)程中,數(shù)據(jù)團(tuán)隊(duì)忘記了自己存在的理由。
數(shù)據(jù)團(tuán)隊(duì)都是一種支持功能,旨在解決合法的業(yè)務(wù)問(wèn)題——也就是說(shuō),這些問(wèn)題要么會(huì)為公司帶來(lái)收入,要么會(huì)為公司節(jié)省資金,僅此而已。
曾經(jīng)有一個(gè)數(shù)據(jù)科學(xué)家告訴我,他花了整整3天時(shí)間在預(yù)測(cè)模型的一個(gè)新特性,但公司告訴他這是沒(méi)必要的,因?yàn)樗懻摰念A(yù)測(cè)模型預(yù)足以滿(mǎn)足他們的需求。
技術(shù)性的DS和DE喜歡進(jìn)行修補(bǔ)并深入研究代碼。它滿(mǎn)足了完善預(yù)測(cè)模型的需要,并努力保持最后2%或5%的準(zhǔn)確性。不幸的是,你從80%的AUC到85%所花的時(shí)間可能是一樣的。
作為數(shù)據(jù)專(zhuān)業(yè)人員,你的價(jià)值取決于模型、管道或數(shù)據(jù)產(chǎn)品節(jié)省或生成的美元。讓數(shù)據(jù)科學(xué)家花3天時(shí)間修改一個(gè)新特性,會(huì)損失多少美元?
我并不是說(shuō)對(duì)一個(gè)數(shù)據(jù)科學(xué)家來(lái)說(shuō)進(jìn)行實(shí)驗(yàn)是不重要,事實(shí)上,這對(duì)于一個(gè)好的數(shù)據(jù)科學(xué)家來(lái)說(shuō),實(shí)驗(yàn)是至關(guān)重要的。
然而,專(zhuān)注于提供ROI更重要。為了提高生產(chǎn)力和實(shí)用性,發(fā)展能夠解決復(fù)雜性和不必要的優(yōu)化的能力,會(huì)讓數(shù)據(jù)科學(xué)家做得更多,并且能提供更多價(jià)值。
幾種不同的“數(shù)據(jù)科學(xué)家”
數(shù)據(jù)科學(xué)家是21世紀(jì)最性感也是最令人費(fèi)解的工作。即使他們認(rèn)為他們?cè)敢猓矝](méi)有公司愿意雇傭相同的數(shù)據(jù)科學(xué)家。
正如之前的一篇文章中所解釋的,數(shù)據(jù)科學(xué)是一個(gè)廣泛的領(lǐng)域,而不是一個(gè)具有三維技能的職位名稱(chēng)。
我厭倦了關(guān)于什么是或不是“真正的”數(shù)據(jù)科學(xué)家的爭(zhēng)論。這是一個(gè)人力資源的問(wèn)題,并不適用于公司真正需要的東西。
事實(shí)上,大多數(shù)組織真正需要的是能夠整合一系列數(shù)據(jù)源、創(chuàng)建一些簡(jiǎn)單模型并實(shí)現(xiàn)自動(dòng)化的人。
這些技能不需要博士學(xué)位或高級(jí)技術(shù)學(xué)位,但仍然可以為許多公司提供難以置信的價(jià)值。
話雖如此,但是對(duì)于高度專(zhuān)業(yè)化、受過(guò)高等教育的統(tǒng)計(jì)學(xué)家或研究人員來(lái)說(shuō),肯定有重要的位置需要他們,這種需求是由不同公司面臨的挑戰(zhàn)所創(chuàng)造的,而不是作為“數(shù)據(jù)科學(xué)家”角色的籠統(tǒng)要求。
數(shù)據(jù)工程比數(shù)據(jù)科學(xué)更重要
與開(kāi)發(fā)和調(diào)優(yōu)預(yù)測(cè)模型的能力相比,數(shù)據(jù)科學(xué)家更需要一種能力,即從那些不用于相互通信的數(shù)據(jù)源中縫合和組織完全不同的數(shù)據(jù)集。
除非公司在有限的規(guī)則集和業(yè)務(wù)場(chǎng)景下,面臨難以置信的挑戰(zhàn),否則對(duì)復(fù)雜預(yù)測(cè)模型的需求將會(huì)受到限制。
剛開(kāi)始涉足數(shù)據(jù)科學(xué)領(lǐng)域就想?yún)⑴c競(jìng)爭(zhēng)嗎? 首先得學(xué)習(xí)數(shù)據(jù)工程師的技能,然后弄清楚建模和預(yù)測(cè)。
如果你決定沿著預(yù)測(cè)的道路前進(jìn),那么對(duì)于幾乎所有雇用你的公司,你都將變得更有價(jià)值,而且你還將創(chuàng)建比同事更好的模型。
與長(zhǎng)期進(jìn)行預(yù)測(cè)性建模和調(diào)整相比,高級(jí)SQL,Web抓取,API開(kāi)發(fā)和數(shù)據(jù)清理技能帶來(lái)更多收益。
領(lǐng)導(dǎo)者傾向于雇傭像他們一樣的人
許多數(shù)據(jù)科學(xué)的領(lǐng)導(dǎo)者(以及一般的領(lǐng)導(dǎo)者)堅(jiān)持這樣的觀點(diǎn),即為了解決復(fù)雜的挑戰(zhàn),他們應(yīng)該雇傭最專(zhuān)業(yè)的人(在許多情況下,雇傭那些擁有盡可能接近自己經(jīng)驗(yàn)的人,而不是更有成就的人)。
就數(shù)據(jù)科學(xué)而言,公司通常的想法是:我雇傭的數(shù)據(jù)科學(xué)家越有資格,我就能解決越復(fù)雜的數(shù)據(jù)挑戰(zhàn)。不幸的是,事實(shí)遠(yuǎn)非如此。
這種思想被稱(chēng)為“‘Local Seach”,也就是說(shuō),使用來(lái)自單個(gè)領(lǐng)域的專(zhuān)家,嘗試用以前有效的解決方案來(lái)解決現(xiàn)有問(wèn)題。
雖然感覺(jué)上這個(gè)想法是正確的,但它缺少了關(guān)鍵的“由外而內(nèi)”的思維方式,比如把經(jīng)驗(yàn)和想法聯(lián)系起來(lái)的能力,而這種能力可以解決訓(xùn)練以外的問(wèn)題。
愛(ài)潑斯坦在《范圍》一書(shū)提供了“由外而內(nèi)”或“橫向”思維的例子。
例如,美國(guó)禮來(lái)公司(Eli Lilly)負(fù)責(zé)研究的副總裁 Alph Bingham向公司高管們提出了21項(xiàng)研究挑戰(zhàn)的提議,這個(gè)提議讓禮來(lái)公司的科學(xué)家們感到困惑。
起初,公司高管拒絕了這一提議,他們指出,“如果世界上受過(guò)高等教育、高度專(zhuān)業(yè)化、資源豐富的化學(xué)家們都被技術(shù)問(wèn)題困住了,其他人又怎么能夠提供幫助呢?”
最后,公司高管一致認(rèn)為這個(gè)提議不會(huì)有什么壞處。
結(jié)果是令人震驚的:超過(guò)三分之一的挑戰(zhàn)已經(jīng)完全被解決,團(tuán)隊(duì)中包括一個(gè)完全沒(méi)有科學(xué)經(jīng)驗(yàn)的律師,但他的知識(shí)來(lái)自化學(xué)。
為了建立一個(gè)能夠解決真正復(fù)雜、重要問(wèn)題的團(tuán)隊(duì),數(shù)據(jù)科學(xué)的領(lǐng)導(dǎo)者需要雇傭一批具有不同背景和專(zhuān)業(yè)知識(shí)的人。
同時(shí),他們應(yīng)該抵制建立具有相同背景甚至相同技術(shù)能力的團(tuán)隊(duì)。團(tuán)隊(duì)的經(jīng)驗(yàn)和成就的多樣性比文憑數(shù)量更重要。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03