
在Springboard,我們的學(xué)生經(jīng)常問(wèn)我們這樣的問(wèn)題“數(shù)據(jù)科學(xué)家是做什么?”或者“數(shù)據(jù)科學(xué)家每天的工作是什么樣子?”這些問(wèn)題很棘手。答案因角色和公司不同而不同。
因此,我們咨詢了Raj Bandyopadhyay, Springboard數(shù)據(jù)科學(xué)教育主管,看看他是否有一個(gè)更好的答案。Raj提供了下圖中的框架,它既可以幫助你了解數(shù)據(jù)科學(xué)家的日常工作,也可以幫你理解數(shù)據(jù)科學(xué)解決問(wèn)題的流程,Raj稱之為“數(shù)據(jù)科學(xué)工作流程”。
在解決問(wèn)題之前,首先要做的是把問(wèn)題界定清楚,去定義它到底是什么。你必須能夠?qū)?shù)據(jù)問(wèn)題轉(zhuǎn)化為可操作的東西。
你經(jīng)常會(huì)從持有問(wèn)題的人那里得到模糊的描述。你必須培養(yǎng)直覺:通過(guò)問(wèn)一些別人不會(huì)問(wèn)的問(wèn)題,把這些模糊描述轉(zhuǎn)換成可操作的問(wèn)題。
假設(shè)您正在為公司的銷售人員解決問(wèn)題,你應(yīng)該了解他們的目標(biāo)是什么以及數(shù)據(jù)問(wèn)題背后真正的本質(zhì)是什么?在你開始考慮問(wèn)題之前,你必須與他們合作,明確界定問(wèn)題。正確地提問(wèn)是這一步驟的關(guān)鍵。你應(yīng)該弄清楚銷售過(guò)程是什么樣子,誰(shuí)是客戶。你需要盡可能了解背景知識(shí)以便將數(shù)據(jù)轉(zhuǎn)換為洞察力。為此,你應(yīng)該問(wèn)類似下面的問(wèn)題:
(1)誰(shuí)是顧客?
(2)他們?yōu)槭裁促I我們的產(chǎn)品?
(3)我們?nèi)绾晤A(yù)測(cè),一個(gè)客戶是否會(huì)買我們的產(chǎn)品?
(4)表現(xiàn)好和差客戶細(xì)分群體之間的區(qū)別在哪里?
(5)如果我們不能把產(chǎn)品賣給目標(biāo)客戶,我們的損失有多大?
在回答你的問(wèn)題時(shí)候,銷售人員可能會(huì)發(fā)現(xiàn)他們想知道為什么產(chǎn)品在部分細(xì)分客戶群體中的銷售不及預(yù)期。他們的最終目標(biāo)可能是確定是否繼續(xù)投資于這些群體,或是降低它們的優(yōu)先級(jí)。這樣你進(jìn)一步細(xì)化了問(wèn)題,針對(duì)細(xì)化后的問(wèn)題發(fā)掘答案。在這個(gè)階段的最后,你應(yīng)該有了所有你需要解決問(wèn)題的背景知識(shí)。
一旦定義好了問(wèn)題,你需要通過(guò)數(shù)據(jù)來(lái)尋找解決方案。這一進(jìn)程中要想清楚需要什么樣的數(shù)據(jù)?通過(guò)什么渠道可以獲取這些數(shù)據(jù)?是要內(nèi)部數(shù)據(jù)庫(kù)數(shù)據(jù)還是需要購(gòu)買外部數(shù)據(jù)?
或許你可能會(huì)發(fā)現(xiàn),你要數(shù)據(jù)都存儲(chǔ)在公司的客戶關(guān)系管理CRM系統(tǒng)中,那么就可以將數(shù)據(jù)用CSV文件的形式導(dǎo)出。
現(xiàn)在,你有了原始數(shù)據(jù),但是還需要為后續(xù)的分析做數(shù)據(jù)預(yù)處理。通常情況下,數(shù)據(jù)都是雜亂無(wú)章的,特別是沒有很好地存儲(chǔ)的情況下。很多東西都可以導(dǎo)致后續(xù)分析的錯(cuò)誤:null值,重復(fù)值和缺失值。對(duì)數(shù)據(jù)的精心核查才能保障從數(shù)據(jù)中得到有價(jià)值的見解。
你要檢查以下常見錯(cuò)誤:
(1)缺失值,例如客戶沒有初次接觸日期
(2)損壞值,如無(wú)效輸入項(xiàng)
(3)時(shí)區(qū)差異,也許你的數(shù)據(jù)庫(kù)沒有考慮到用戶處在不同的時(shí)區(qū)
(4)日期范圍錯(cuò)誤,也許你會(huì)有沒有任何意義日期數(shù)據(jù),比如銷售開始前的注冊(cè)數(shù)據(jù)。
你需要對(duì)數(shù)據(jù)文件的行和列進(jìn)行統(tǒng)計(jì),并對(duì)某些值進(jìn)行測(cè)試,看看它們是不是有意義。如果您發(fā)現(xiàn)沒有意義,你需要?jiǎng)h除數(shù)據(jù),或者使用默認(rèn)值替換它。這里,你需要利用你直覺:如果客戶沒有初次接觸日期,是否就真沒有初次接觸日期?或者你可以詢問(wèn)銷售人員,是否是把初次接觸日期的數(shù)據(jù)弄丟了?一旦你完成數(shù)據(jù)清理工作,你就可以開始準(zhǔn)備探索性數(shù)據(jù)分析。
當(dāng)你的數(shù)據(jù)是干凈的,你就應(yīng)該開始使用它!這里的困難在于如何對(duì)真正有見解的想法進(jìn)行測(cè)試。你必須為數(shù)據(jù)科學(xué)項(xiàng)目設(shè)定最后期限(銷售人員可能正等待的分析),所以你必須對(duì)問(wèn)題進(jìn)行優(yōu)先級(jí)劃分?!澳惚仨毾瓤纯醋钣腥さ哪J剑簬椭忉尀槭裁茨承┛蛻羧后w的銷量減少了。您可能會(huì)注意到,他們?cè)谏缃幻襟w上不是非?;钴S,只有少數(shù)人有Twitter或Facebook帳戶。您可能還注意到,其中大部分人的年齡偏大,你可以開始跟蹤這些模式進(jìn)行更深入分析。
這一步你要應(yīng)用統(tǒng)計(jì)學(xué)、數(shù)學(xué)和數(shù)據(jù)科學(xué)工具,圍繞有趣的模型進(jìn)行詳細(xì)分析。
在這種情況下,你可能需要?jiǎng)?chuàng)建預(yù)測(cè)模型比較業(yè)績(jī)不佳組客戶與客戶平均。你可能會(huì)發(fā)現(xiàn),年齡和社交媒體活躍度是影響購(gòu)買產(chǎn)品的顯著因素。
如果你在問(wèn)題界定階段就已經(jīng)了解了很多背景信息,你可能會(huì)意識(shí)到該公司營(yíng)銷活動(dòng)集中在社交媒體上與年輕受眾進(jìn)行互動(dòng)。但是某些客戶卻喜歡電話的交流,而不是社交媒體。你開始看到該產(chǎn)品的營(yíng)銷方式對(duì)銷售的影響,也許那部分客戶是不應(yīng)該流失的群體。公司應(yīng)該從過(guò)分依賴社會(huì)化媒體營(yíng)銷策略向更加個(gè)性化的策略轉(zhuǎn)變。
現(xiàn)在,您可以將所有數(shù)據(jù)定量分析得到的定性見解,通過(guò)講故事的方式說(shuō)服相關(guān)人員采取行動(dòng)。
讓銷售人員理解你們的發(fā)現(xiàn)很重要。溝通交流的有效性決定了你的方案是否被采納。
你應(yīng)該撰寫一個(gè)有令人信服的故事,將自己的知識(shí)與數(shù)據(jù)恰當(dāng)嵌入其中。你可以從解釋老年人中銷售業(yè)績(jī)不佳背后的原因開始;你可以巧妙地將銷售人員給你信息和數(shù)據(jù)中發(fā)現(xiàn)見解結(jié)合起來(lái);然后你轉(zhuǎn)到解決問(wèn)題的具體辦法:可以將部分資源從社會(huì)化媒體轉(zhuǎn)移到私人電話推銷中。
了解以上步驟,對(duì)于系統(tǒng)思考數(shù)據(jù)科學(xué)有極大的幫助。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10