
數(shù)據(jù)科學(xué)是近年來(lái)最熱門(mén)的領(lǐng)域之一,吸引了大量人才加入頂級(jí)公司數(shù)據(jù)科學(xué)團(tuán)隊(duì)的競(jìng)爭(zhēng)。有很多文章教你DS面試的toprep如何“從其他面試者中脫穎而出”,但旅程肯定不會(huì)止步于被錄用。得到一份工作只是第一步;然而,沒(méi)有多少人談?wù)撘坏┠阃ㄟ^(guò)面試并加入公司,你如何從其他受雇的數(shù)據(jù)科學(xué)家中脫穎而出。
在麥肯錫的幾年里,我有幸與麥肯錫和我服務(wù)過(guò)的頂級(jí)公司的無(wú)數(shù)聰明的數(shù)據(jù)科學(xué)家共事,并觀察到了那些獲得合作伙伴和客戶(hù)最高評(píng)級(jí)和贊揚(yáng)的共同特征。也許你們中的一些人會(huì)感到驚訝,表現(xiàn)最好的數(shù)據(jù)科學(xué)家不一定是那些構(gòu)建最出色的模型或編寫(xiě)最高效代碼的人(當(dāng)然,他們必須清除相當(dāng)高的技術(shù)技能標(biāo)準(zhǔn)才能被雇用),而是那些除了分析能力之外還擁有許多重要的“軟技能”的人。這篇文章總結(jié)了我在麥肯錫工作期間的經(jīng)驗(yàn)和觀察,總結(jié)了5個(gè)教訓(xùn),這些教訓(xùn)將幫助你成為一名更好的數(shù)據(jù)科學(xué)家。
作為一個(gè)熱愛(ài)精確的數(shù)據(jù)人員,我想指出,盡管“數(shù)據(jù)科學(xué)家”作為一個(gè)標(biāo)題涵蓋了當(dāng)今行業(yè)中的廣泛工作,但在本文中,我主要關(guān)注的是對(duì)以任何形式影響業(yè)務(wù)決策的數(shù)據(jù)科學(xué)家(而不是那些更面向研究的“核心數(shù)據(jù)科學(xué)”角色)的提示。
自上而下的溝通,或稱(chēng)金字塔原則,是麥肯錫合伙人芭芭拉·明托創(chuàng)造并推廣的,被許多人視為商業(yè)(甚至個(gè)人生活)中最有效的溝通結(jié)構(gòu)。盡管這是戰(zhàn)略顧問(wèn)等一些人的第二天性,但許多數(shù)據(jù)科學(xué)家在溝通方面會(huì)被絆倒。想法很簡(jiǎn)單:當(dāng)你試圖溝通一個(gè)想法/論點(diǎn)時(shí),如果你以關(guān)鍵信息開(kāi)始,然后是支持這一關(guān)鍵信息的幾個(gè)主要論點(diǎn)是最有效的,也是最容易讓觀眾理解的;如果需要,每個(gè)參數(shù)后面都可以跟支持?jǐn)?shù)據(jù)。
采用自上而下的通信是有利的,原因如下:
不幸的是,對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō),他們的工作大部分時(shí)間都在進(jìn)行深入的分析,這種通信結(jié)構(gòu)可能不是自然的,而且可能違反直覺(jué)。我經(jīng)??吹綌?shù)據(jù)科學(xué)家以深入的細(xì)節(jié)開(kāi)始演示或交流,但沒(méi)有傳達(dá)關(guān)鍵信息,就讓觀眾迷失了方向。
如何實(shí)踐:一個(gè)簡(jiǎn)單的實(shí)踐方法是在會(huì)議之前根據(jù)這種結(jié)構(gòu)記下你的想法,以便在交流分析的關(guān)鍵發(fā)現(xiàn)時(shí)保持正確。經(jīng)常退一步問(wèn)問(wèn)自己你真正想解決的是什么問(wèn)題也很有幫助;那應(yīng)該是你傳達(dá)的關(guān)鍵信息。
如果你看看麥肯錫為公司數(shù)據(jù)組織設(shè)計(jì)的suggestedblueprint,它強(qiáng)調(diào)了一個(gè)名為“翻譯家”的角色的重要性,這個(gè)角色被認(rèn)為是業(yè)務(wù)和數(shù)據(jù)團(tuán)隊(duì)之間溝通的橋梁,將分析洞察力轉(zhuǎn)化為業(yè)務(wù)可操作的洞察力(我認(rèn)為這個(gè)角色部分源于對(duì)我上面提到的觀點(diǎn)的失望)。我敢肯定,作為一名數(shù)據(jù)科學(xué)家,你被要求“像你向一個(gè)五歲的孩子解釋一樣解釋它”或“用簡(jiǎn)單的英語(yǔ)解釋它”。從其他人中脫穎而出的數(shù)據(jù)科學(xué)家正是能夠做到這一點(diǎn)的人--充當(dāng)自己的翻譯;如果有人問(wèn)他們,他們可以向既沒(méi)有分析背景也沒(méi)有時(shí)間閱讀白皮書(shū)的首席執(zhí)行官很好地解釋他們的ML模型,而且他們總是可以將分析結(jié)果與業(yè)務(wù)影響聯(lián)系起來(lái)。這些數(shù)據(jù)科學(xué)家受到重視的原因如下:
如何實(shí)踐:與朋友(最好是沒(méi)有任何分析背景的朋友)一起實(shí)踐,向他們解釋您的模型/分析(當(dāng)然不透露任何敏感信息)。這也是在你的方法中發(fā)現(xiàn)知識(shí)差距的一個(gè)很好的方法;就像“偉大的解釋者”理查德·費(fèi)曼認(rèn)為的那樣,如果你不知道如何用簡(jiǎn)單的方式解釋某事,很多時(shí)候是因?yàn)槟阕约簺](méi)有很好地理解它。
這不僅限于數(shù)據(jù)人才;對(duì)于公司的任何職能/角色的人來(lái)說(shuō),這都是必不可少的。當(dāng)然,能夠發(fā)現(xiàn)問(wèn)題并提出擔(dān)憂(yōu)是非常有價(jià)值的,但更值得贊賞的是提出潛在解決方案的能力。沒(méi)有一個(gè)解決方案驅(qū)動(dòng)的人在房間里,討論往往會(huì)繞圈子,癡迷于問(wèn)題,而不是試圖找出前進(jìn)的道路。
在大多數(shù)頂級(jí)咨詢(xún)公司,解決方案驅(qū)動(dòng)是一號(hào)法則,在我看來(lái),這種方法也應(yīng)該轉(zhuǎn)移到技術(shù)領(lǐng)域。作為一名數(shù)據(jù)科學(xué)家,當(dāng)人們由于缺乏分析背景而提出荒謬的數(shù)據(jù)要求時(shí),您可能會(huì)經(jīng)常經(jīng)歷令人沮喪的情況。我見(jiàn)過(guò)無(wú)數(shù)DS不知道如何處理這些情況,并因經(jīng)常唱反調(diào)而在涉眾管理中失敗。與其關(guān)閉它們,不如以解決方案為導(dǎo)向,幫助它們重新定義請(qǐng)求,并利用您對(duì)數(shù)據(jù)和分析工具的更好理解來(lái)限制范圍。
以解決方案為導(dǎo)向并不意味著你永遠(yuǎn)不能對(duì)任何事情說(shuō)不,或者總是必須已經(jīng)起草了完美的解決方案;這意味著你應(yīng)該在你說(shuō)的每一個(gè)“不”之后總是有一個(gè)“但是怎么樣……”。
如何實(shí)踐:遇到問(wèn)題時(shí),在向團(tuán)隊(duì)或經(jīng)理提出問(wèn)題之前,先考慮一下解決問(wèn)題的潛在方法。在解決問(wèn)題時(shí)發(fā)揮你的創(chuàng)造力,不要害怕自己會(huì)提出新的解決方案。從擴(kuò)展到您的工作流并了解更多關(guān)于業(yè)務(wù)和其他團(tuán)隊(duì)工作的信息也很有幫助。了解全局通常有助于將點(diǎn)點(diǎn)滴滴聯(lián)系起來(lái),并引導(dǎo)你找到創(chuàng)造性的解決方案。
沒(méi)有人真的想預(yù)測(cè)流失,每個(gè)人都在試圖理解流失
如今,當(dāng)每一家公司都在建立預(yù)測(cè)流失的模型時(shí),很難后退一步問(wèn)問(wèn)自己,我們最初為什么要預(yù)測(cè)流失。公司希望預(yù)測(cè)流失,這樣他們就可以找到一個(gè)可行的解決方案來(lái)防止它。因此,如果您的模型告訴首席執(zhí)行官“web訪(fǎng)問(wèn)量的立方根是表示流失的最重要的特征之一”,他可以用這些信息做什么?可能沒(méi)什么…
作為一名數(shù)據(jù)科學(xué)家,就像你們中的許多人一樣,我過(guò)去在建模時(shí)只關(guān)注準(zhǔn)確性,將其作為的成功度量標(biāo)準(zhǔn)。但我逐漸意識(shí)到,如果不能將其與業(yè)務(wù)影響聯(lián)系起來(lái),那么通過(guò)添加無(wú)法解釋的特性和微調(diào)超參數(shù)將準(zhǔn)確率從96%提高到98%對(duì)業(yè)務(wù)毫無(wú)意義(同樣,這只適用于面向業(yè)務(wù)的DS,對(duì)于ML的某些領(lǐng)域,這種提高可能意味著整個(gè)世界)。
如果模型是一個(gè)黑箱,也很難從C級(jí)高管那里獲得可信度。模型是一個(gè)在一天結(jié)束時(shí)指導(dǎo)業(yè)務(wù)決策的工具,所以它的價(jià)值很大程度上是基于它的實(shí)用性和可解釋性也就不足為奇了。
如何實(shí)踐:在構(gòu)建模型或進(jìn)行分析時(shí),始終牢記業(yè)務(wù)影響。當(dāng)建立模型時(shí),避免向模型投擲隨機(jī)的交互特征,希望其中一個(gè)會(huì)堅(jiān)持;相反,在開(kāi)始構(gòu)建模型之前,要對(duì)特性工程階段進(jìn)行深思熟慮。寫(xiě)下從模型/分析中得出的業(yè)務(wù)建議也將幫助您重新評(píng)估在構(gòu)建模型時(shí)所做的設(shè)計(jì)選擇。
從特征探索到探索性數(shù)據(jù)分析(EDA),假設(shè)作為大多數(shù)分析的起點(diǎn)是很重要的。如果沒(méi)有假設(shè),您將無(wú)法指導(dǎo)如何為EDA切片和切分?jǐn)?shù)據(jù),或者首先測(cè)試哪些特性。沒(méi)有假設(shè),甚至沒(méi)有必要進(jìn)行AB測(cè)試(這就是為什么它被稱(chēng)為假設(shè)測(cè)試)。但是,我經(jīng)??吹綌?shù)據(jù)科學(xué)家在沒(méi)有明確假設(shè)的情況下鉆研頭朝下的分析階段,然后在兔子洞里迷失了方向?;蛘吒R?jiàn)的情況是,數(shù)據(jù)科學(xué)家將假設(shè)結(jié)構(gòu)化的過(guò)程完全留給團(tuán)隊(duì)成員,而團(tuán)隊(duì)成員對(duì)數(shù)據(jù)沒(méi)有可見(jiàn)性,后來(lái)才意識(shí)到?jīng)]有足夠的數(shù)據(jù)來(lái)檢驗(yàn)這些假設(shè)。在我看來(lái),最好的方法是讓數(shù)據(jù)科學(xué)家從一開(kāi)始就參與這些假設(shè)的頭腦風(fēng)暴會(huì)議,并使用假設(shè)來(lái)指導(dǎo)后續(xù)的分析并確定優(yōu)先級(jí)。
假設(shè)很重要,它們應(yīng)該作為起點(diǎn),而不是終點(diǎn)。我一次又一次地看到許多數(shù)據(jù)科學(xué)家(或與數(shù)據(jù)科學(xué)家一起工作的人)堅(jiān)持一個(gè)假設(shè),盡管發(fā)現(xiàn)相互矛盾。這種對(duì)最初假設(shè)的“忠誠(chéng)”將導(dǎo)致數(shù)據(jù)窺探和按摩數(shù)據(jù)以適應(yīng)某種敘述。如果你熟悉“辛普森悖論”,你就能理解數(shù)據(jù)在講述“錯(cuò)誤故事”方面的力量。優(yōu)秀的數(shù)據(jù)科學(xué)家應(yīng)該能夠保持?jǐn)?shù)據(jù)的完整性,并將敘述轉(zhuǎn)向符合數(shù)據(jù),而不是相反。
如何實(shí)踐:為了提出好的假設(shè),建立業(yè)務(wù)理解和敏銳度是很重要的。在探索數(shù)據(jù)的過(guò)程中,讓假設(shè)留在你的腦海中,以指導(dǎo)你,但當(dāng)數(shù)據(jù)告訴你一個(gè)不同于你最初“受過(guò)教育的猜測(cè)”的故事時(shí),要虛心承認(rèn)。有一個(gè)良好的商業(yè)意識(shí)也會(huì)幫助你調(diào)整你最初的理論,并根據(jù)數(shù)據(jù)調(diào)整你的敘述。
當(dāng)談到面向業(yè)務(wù)的角色時(shí),人們往往認(rèn)為人才可以分為兩類(lèi):分析型和戰(zhàn)略型,似乎這兩種能力是對(duì)立的。好吧,我會(huì)告訴你一個(gè)秘密,最好的分析人才是那些同時(shí)理解事情的戰(zhàn)略/業(yè)務(wù)方面并理解如何與業(yè)務(wù)利益相關(guān)者溝通的人,而戰(zhàn)略角色中最好的人才對(duì)分析和數(shù)據(jù)有一定程度的理解。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10