
數(shù)據(jù)科學(xué)是近年來最熱門的領(lǐng)域之一,吸引了大量人才加入頂級(jí)公司數(shù)據(jù)科學(xué)團(tuán)隊(duì)的競(jìng)爭(zhēng)。有很多文章教你DS面試的toprep如何“從其他面試者中脫穎而出”,但旅程肯定不會(huì)止步于被錄用。得到一份工作只是第一步;然而,沒有多少人談?wù)撘坏┠阃ㄟ^面試并加入公司,你如何從其他受雇的數(shù)據(jù)科學(xué)家中脫穎而出。
在麥肯錫的幾年里,我有幸與麥肯錫和我服務(wù)過的頂級(jí)公司的無數(shù)聰明的數(shù)據(jù)科學(xué)家共事,并觀察到了那些獲得合作伙伴和客戶最高評(píng)級(jí)和贊揚(yáng)的共同特征。也許你們中的一些人會(huì)感到驚訝,表現(xiàn)最好的數(shù)據(jù)科學(xué)家不一定是那些構(gòu)建最出色的模型或編寫最高效代碼的人(當(dāng)然,他們必須清除相當(dāng)高的技術(shù)技能標(biāo)準(zhǔn)才能被雇用),而是那些除了分析能力之外還擁有許多重要的“軟技能”的人。這篇文章總結(jié)了我在麥肯錫工作期間的經(jīng)驗(yàn)和觀察,總結(jié)了5個(gè)教訓(xùn),這些教訓(xùn)將幫助你成為一名更好的數(shù)據(jù)科學(xué)家。
作為一個(gè)熱愛精確的數(shù)據(jù)人員,我想指出,盡管“數(shù)據(jù)科學(xué)家”作為一個(gè)標(biāo)題涵蓋了當(dāng)今行業(yè)中的廣泛工作,但在本文中,我主要關(guān)注的是對(duì)以任何形式影響業(yè)務(wù)決策的數(shù)據(jù)科學(xué)家(而不是那些更面向研究的“核心數(shù)據(jù)科學(xué)”角色)的提示。
自上而下的溝通,或稱金字塔原則,是麥肯錫合伙人芭芭拉·明托創(chuàng)造并推廣的,被許多人視為商業(yè)(甚至個(gè)人生活)中最有效的溝通結(jié)構(gòu)。盡管這是戰(zhàn)略顧問等一些人的第二天性,但許多數(shù)據(jù)科學(xué)家在溝通方面會(huì)被絆倒。想法很簡(jiǎn)單:當(dāng)你試圖溝通一個(gè)想法/論點(diǎn)時(shí),如果你以關(guān)鍵信息開始,然后是支持這一關(guān)鍵信息的幾個(gè)主要論點(diǎn)是最有效的,也是最容易讓觀眾理解的;如果需要,每個(gè)參數(shù)后面都可以跟支持?jǐn)?shù)據(jù)。
采用自上而下的通信是有利的,原因如下:
不幸的是,對(duì)于數(shù)據(jù)科學(xué)家來說,他們的工作大部分時(shí)間都在進(jìn)行深入的分析,這種通信結(jié)構(gòu)可能不是自然的,而且可能違反直覺。我經(jīng)??吹綌?shù)據(jù)科學(xué)家以深入的細(xì)節(jié)開始演示或交流,但沒有傳達(dá)關(guān)鍵信息,就讓觀眾迷失了方向。
如何實(shí)踐:一個(gè)簡(jiǎn)單的實(shí)踐方法是在會(huì)議之前根據(jù)這種結(jié)構(gòu)記下你的想法,以便在交流分析的關(guān)鍵發(fā)現(xiàn)時(shí)保持正確。經(jīng)常退一步問問自己你真正想解決的是什么問題也很有幫助;那應(yīng)該是你傳達(dá)的關(guān)鍵信息。
如果你看看麥肯錫為公司數(shù)據(jù)組織設(shè)計(jì)的suggestedblueprint,它強(qiáng)調(diào)了一個(gè)名為“翻譯家”的角色的重要性,這個(gè)角色被認(rèn)為是業(yè)務(wù)和數(shù)據(jù)團(tuán)隊(duì)之間溝通的橋梁,將分析洞察力轉(zhuǎn)化為業(yè)務(wù)可操作的洞察力(我認(rèn)為這個(gè)角色部分源于對(duì)我上面提到的觀點(diǎn)的失望)。我敢肯定,作為一名數(shù)據(jù)科學(xué)家,你被要求“像你向一個(gè)五歲的孩子解釋一樣解釋它”或“用簡(jiǎn)單的英語解釋它”。從其他人中脫穎而出的數(shù)據(jù)科學(xué)家正是能夠做到這一點(diǎn)的人--充當(dāng)自己的翻譯;如果有人問他們,他們可以向既沒有分析背景也沒有時(shí)間閱讀白皮書的首席執(zhí)行官很好地解釋他們的ML模型,而且他們總是可以將分析結(jié)果與業(yè)務(wù)影響聯(lián)系起來。這些數(shù)據(jù)科學(xué)家受到重視的原因如下:
如何實(shí)踐:與朋友(最好是沒有任何分析背景的朋友)一起實(shí)踐,向他們解釋您的模型/分析(當(dāng)然不透露任何敏感信息)。這也是在你的方法中發(fā)現(xiàn)知識(shí)差距的一個(gè)很好的方法;就像“偉大的解釋者”理查德·費(fèi)曼認(rèn)為的那樣,如果你不知道如何用簡(jiǎn)單的方式解釋某事,很多時(shí)候是因?yàn)槟阕约簺]有很好地理解它。
這不僅限于數(shù)據(jù)人才;對(duì)于公司的任何職能/角色的人來說,這都是必不可少的。當(dāng)然,能夠發(fā)現(xiàn)問題并提出擔(dān)憂是非常有價(jià)值的,但更值得贊賞的是提出潛在解決方案的能力。沒有一個(gè)解決方案驅(qū)動(dòng)的人在房間里,討論往往會(huì)繞圈子,癡迷于問題,而不是試圖找出前進(jìn)的道路。
在大多數(shù)頂級(jí)咨詢公司,解決方案驅(qū)動(dòng)是一號(hào)法則,在我看來,這種方法也應(yīng)該轉(zhuǎn)移到技術(shù)領(lǐng)域。作為一名數(shù)據(jù)科學(xué)家,當(dāng)人們由于缺乏分析背景而提出荒謬的數(shù)據(jù)要求時(shí),您可能會(huì)經(jīng)常經(jīng)歷令人沮喪的情況。我見過無數(shù)DS不知道如何處理這些情況,并因經(jīng)常唱反調(diào)而在涉眾管理中失敗。與其關(guān)閉它們,不如以解決方案為導(dǎo)向,幫助它們重新定義請(qǐng)求,并利用您對(duì)數(shù)據(jù)和分析工具的更好理解來限制范圍。
以解決方案為導(dǎo)向并不意味著你永遠(yuǎn)不能對(duì)任何事情說不,或者總是必須已經(jīng)起草了完美的解決方案;這意味著你應(yīng)該在你說的每一個(gè)“不”之后總是有一個(gè)“但是怎么樣……”。
如何實(shí)踐:遇到問題時(shí),在向團(tuán)隊(duì)或經(jīng)理提出問題之前,先考慮一下解決問題的潛在方法。在解決問題時(shí)發(fā)揮你的創(chuàng)造力,不要害怕自己會(huì)提出新的解決方案。從擴(kuò)展到您的工作流并了解更多關(guān)于業(yè)務(wù)和其他團(tuán)隊(duì)工作的信息也很有幫助。了解全局通常有助于將點(diǎn)點(diǎn)滴滴聯(lián)系起來,并引導(dǎo)你找到創(chuàng)造性的解決方案。
沒有人真的想預(yù)測(cè)流失,每個(gè)人都在試圖理解流失
如今,當(dāng)每一家公司都在建立預(yù)測(cè)流失的模型時(shí),很難后退一步問問自己,我們最初為什么要預(yù)測(cè)流失。公司希望預(yù)測(cè)流失,這樣他們就可以找到一個(gè)可行的解決方案來防止它。因此,如果您的模型告訴首席執(zhí)行官“web訪問量的立方根是表示流失的最重要的特征之一”,他可以用這些信息做什么?可能沒什么…
作為一名數(shù)據(jù)科學(xué)家,就像你們中的許多人一樣,我過去在建模時(shí)只關(guān)注準(zhǔn)確性,將其作為的成功度量標(biāo)準(zhǔn)。但我逐漸意識(shí)到,如果不能將其與業(yè)務(wù)影響聯(lián)系起來,那么通過添加無法解釋的特性和微調(diào)超參數(shù)將準(zhǔn)確率從96%提高到98%對(duì)業(yè)務(wù)毫無意義(同樣,這只適用于面向業(yè)務(wù)的DS,對(duì)于ML的某些領(lǐng)域,這種提高可能意味著整個(gè)世界)。
如果模型是一個(gè)黑箱,也很難從C級(jí)高管那里獲得可信度。模型是一個(gè)在一天結(jié)束時(shí)指導(dǎo)業(yè)務(wù)決策的工具,所以它的價(jià)值很大程度上是基于它的實(shí)用性和可解釋性也就不足為奇了。
如何實(shí)踐:在構(gòu)建模型或進(jìn)行分析時(shí),始終牢記業(yè)務(wù)影響。當(dāng)建立模型時(shí),避免向模型投擲隨機(jī)的交互特征,希望其中一個(gè)會(huì)堅(jiān)持;相反,在開始構(gòu)建模型之前,要對(duì)特性工程階段進(jìn)行深思熟慮。寫下從模型/分析中得出的業(yè)務(wù)建議也將幫助您重新評(píng)估在構(gòu)建模型時(shí)所做的設(shè)計(jì)選擇。
從特征探索到探索性數(shù)據(jù)分析(EDA),假設(shè)作為大多數(shù)分析的起點(diǎn)是很重要的。如果沒有假設(shè),您將無法指導(dǎo)如何為EDA切片和切分?jǐn)?shù)據(jù),或者首先測(cè)試哪些特性。沒有假設(shè),甚至沒有必要進(jìn)行AB測(cè)試(這就是為什么它被稱為假設(shè)測(cè)試)。但是,我經(jīng)??吹綌?shù)據(jù)科學(xué)家在沒有明確假設(shè)的情況下鉆研頭朝下的分析階段,然后在兔子洞里迷失了方向?;蛘吒R姷那闆r是,數(shù)據(jù)科學(xué)家將假設(shè)結(jié)構(gòu)化的過程完全留給團(tuán)隊(duì)成員,而團(tuán)隊(duì)成員對(duì)數(shù)據(jù)沒有可見性,后來才意識(shí)到?jīng)]有足夠的數(shù)據(jù)來檢驗(yàn)這些假設(shè)。在我看來,最好的方法是讓數(shù)據(jù)科學(xué)家從一開始就參與這些假設(shè)的頭腦風(fēng)暴會(huì)議,并使用假設(shè)來指導(dǎo)后續(xù)的分析并確定優(yōu)先級(jí)。
假設(shè)很重要,它們應(yīng)該作為起點(diǎn),而不是終點(diǎn)。我一次又一次地看到許多數(shù)據(jù)科學(xué)家(或與數(shù)據(jù)科學(xué)家一起工作的人)堅(jiān)持一個(gè)假設(shè),盡管發(fā)現(xiàn)相互矛盾。這種對(duì)最初假設(shè)的“忠誠”將導(dǎo)致數(shù)據(jù)窺探和按摩數(shù)據(jù)以適應(yīng)某種敘述。如果你熟悉“辛普森悖論”,你就能理解數(shù)據(jù)在講述“錯(cuò)誤故事”方面的力量。優(yōu)秀的數(shù)據(jù)科學(xué)家應(yīng)該能夠保持?jǐn)?shù)據(jù)的完整性,并將敘述轉(zhuǎn)向符合數(shù)據(jù),而不是相反。
如何實(shí)踐:為了提出好的假設(shè),建立業(yè)務(wù)理解和敏銳度是很重要的。在探索數(shù)據(jù)的過程中,讓假設(shè)留在你的腦海中,以指導(dǎo)你,但當(dāng)數(shù)據(jù)告訴你一個(gè)不同于你最初“受過教育的猜測(cè)”的故事時(shí),要虛心承認(rèn)。有一個(gè)良好的商業(yè)意識(shí)也會(huì)幫助你調(diào)整你最初的理論,并根據(jù)數(shù)據(jù)調(diào)整你的敘述。
當(dāng)談到面向業(yè)務(wù)的角色時(shí),人們往往認(rèn)為人才可以分為兩類:分析型和戰(zhàn)略型,似乎這兩種能力是對(duì)立的。好吧,我會(huì)告訴你一個(gè)秘密,最好的分析人才是那些同時(shí)理解事情的戰(zhàn)略/業(yè)務(wù)方面并理解如何與業(yè)務(wù)利益相關(guān)者溝通的人,而戰(zhàn)略角色中最好的人才對(duì)分析和數(shù)據(jù)有一定程度的理解。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03