
數(shù)據(jù)科學(xué)家 / 統(tǒng)計學(xué)家應(yīng)該養(yǎng)成哪些好習(xí)慣
做過一點統(tǒng)計模型,做過一點數(shù)據(jù)分析,現(xiàn)在工作名字叫數(shù)據(jù)科學(xué)家,厚著臉皮拋磚引玉,聊聊數(shù)據(jù)分析中需要養(yǎng)成的良好習(xí)慣。
1. 了解數(shù)據(jù)分析的目的/需求
做數(shù)據(jù)分析的新人可能都遇到過,辛辛苦苦花了幾個小時做出來的結(jié)果,跟客戶 / 合作伙伴 / PM / 老板要的不是一個東西,運氣好的話回去修補一下,花個半小時之類的,運氣不好的話直接推倒重來,搞不好又得晚上加班了。
比如說下午六點,正準(zhǔn)備收拾東西回家,PM 跟你說想看知乎用戶的活躍度,跟數(shù)據(jù)分析師提出需求說,我們來看看大家使用時長吧。那么問題來了,是看平均呢還是看中位數(shù)?是看某一種客戶端比如移動端嗎,或者是想每種客戶端都分開來看?要根據(jù)用戶的注冊時間來做下劃分嗎?是否想看具體某個城市的?
甚至再退后一步,PM 想看這個干什么?僅僅是好奇,還是現(xiàn)在有個很重要的決定需要以此為基礎(chǔ)?數(shù)據(jù)分析師需要以此來決定這件事情的優(yōu)先級,是可以推回去的呢?還是說需要立馬動手做,下班之前就需要給結(jié)果的。
二十歲的人生,三十年的工作經(jīng)驗,都是加班鬧的。
2. 用常識來驗證結(jié)果
雖然說數(shù)據(jù)說話,但是前提是數(shù)據(jù)來源、分析過程、解讀等都是正確的。如何保證結(jié)果的正確性,最基本的一點就是不同方面來快速驗證一下數(shù)量級。
比如說 PM 想看知乎用戶使用 Live 的數(shù)量,發(fā)現(xiàn)迄今為止有 50 萬 iPhone 用戶點擊了 Live 的頁面,2 萬安卓用戶點擊了 Live 的頁面。同時還知道知乎有五百萬 iPhone 日活,而安卓的日活是三千萬,由此可見 iPhone 用戶就是舍得花錢啊,同時安卓用戶那里還有很大的機會。然后簡單比較一下可以發(fā)現(xiàn),二者的參與率差了 150 倍,常識判斷這差得有點太大了,難以解釋。再仔細(xì)研究一下數(shù)據(jù)來源發(fā)現(xiàn),原來安卓客戶端的數(shù)據(jù)記錄是取樣 1% 的,所以直接看只有 2 萬安卓用戶點擊,但實際上應(yīng)該在兩百萬左右,這樣一來 iPhone 和安卓的差別就比較合理了。
時刻謹(jǐn)記常識
3. 時刻注意數(shù)據(jù)分析的結(jié)果是否具有誤導(dǎo)性
經(jīng)常說的一句話叫“數(shù)據(jù)會說謊”。然后數(shù)據(jù)自身是不會說謊的,而是取決于如何做數(shù)據(jù)分析、如何展示結(jié)果。有時候是數(shù)據(jù)分析無意中引入了誤導(dǎo)性元素,比如說不合理的坐標(biāo)軸,有時候是刻意引入某些誤導(dǎo)性元素,以達(dá)到特別的目的,這些都是應(yīng)該盡量避免的。
比如說下圖同樣的增幅,因為用了不同的 y 軸,左右看起來就完全不一樣了。如果聽眾沒有仔細(xì)看坐標(biāo)軸而僅僅看圖形的話,妥妥的就被忽悠了。
此外還有一些數(shù)據(jù)分析中常見的錯誤,可以參考下面文章:
數(shù)據(jù)分析中會常犯哪些錯誤,如何解決?
4. 想想你的聽眾是誰
數(shù)據(jù)很多時候不僅僅是一個人埋頭苦干,還需要跟人交流,比如說跟合作伙伴的溝通,跟老板的溝通,跟其他組員的溝通,跟不同部門的人溝通。針對不同的聽眾,相應(yīng)的需要強調(diào)不同方面。
比如說跟合作伙伴溝通的時候,可能他們知道你做這個的目的是什么,可能會對結(jié)果更感興趣,以及由數(shù)據(jù)提供了什么建議或者決定。至于具體數(shù)據(jù)來源或者分析方法之類對他們來說不是那么重要,大多數(shù)時候只要確保數(shù)據(jù)分析師知道自己在做什么就可以了。
跟老板溝通結(jié)果的時候,大部分時候可能他們知道你做的大致方向,對分析思路的方法基本一點就通,細(xì)節(jié)方面可能無法面面俱到。
而跟不同部門的人溝通的時候,分享數(shù)據(jù)分析的結(jié)果之前,最好還能講講這件事情的目的,一些背景,大方向是什么諸如此類。
5. 動手之前先看看這件事情是不是已經(jīng)有人做過了
這點在大一點的公司尤其明顯,PM 或者老板提出一個需求,或者數(shù)據(jù)分析師自己對某一個問題感興趣,然后想也沒想,就 SQL 寫得飛快跑了起來。很快一天過去了,產(chǎn)出了一大堆數(shù)據(jù)和報表,被自己的高效感動了,收拾書包回家。
晚上打開電腦,突然不知道哪根經(jīng)搭錯了,想白天做的這個事情會不會已經(jīng)有人做過了呢?于是內(nèi)網(wǎng)搜了一下,豁然發(fā)現(xiàn)某個角落里有一堆早就做好的 pipeline,數(shù)據(jù)、報表一應(yīng)俱全,90% 想要的結(jié)果都在里面了,真是不知道該哭還是想笑。
數(shù)據(jù)分析很多時候是不需要重新造輪子的。
6. 數(shù)據(jù)大小很重要又不重要
幾年前,有個大數(shù)據(jù)的笑話,Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it. 看不懂的請 google translate.
幾年過去了,teenage 應(yīng)該也長大成人不再是 teenage sex 了,很多時候大家是真的在做大數(shù)據(jù)了。雖然 size matters,但是數(shù)據(jù)分析師更應(yīng)該關(guān)注數(shù)據(jù)能提供什么價值。
本來想放個 size matters 的圖,然后 google 了一下之后,出來的都是辦公室不宜的,所以你們自己腦補吧。
7. So what?
描述性的數(shù)據(jù)據(jù)分析很重要,是了解用戶,了解產(chǎn)品,感受大方向的基礎(chǔ)。比如針對知乎活躍用戶做個畫像,發(fā)現(xiàn) 55% 男性,40% 女性(別問我剩下 5% 怎么回事),70% 年薪百萬,80% 985/211,90% 健身,100% 都是活躍用戶(廢話),如此種種。這么一大堆圖表、信息堆起來之后,需要仔細(xì)想想這到底說明了什么問題?對改進產(chǎn)品有什么啟示,比如說開個健身爆照專欄輪帶逛?如果僅僅是停留在描述性數(shù)據(jù)分析階段的話,那么就無法發(fā)揮數(shù)據(jù)的最大作用,從數(shù)據(jù)的角度引導(dǎo)產(chǎn)品的改進。
ps. 引導(dǎo)產(chǎn)品改進可以是多個方面的,數(shù)據(jù)引導(dǎo)僅僅是其中的一部分。
8. 保持好奇心
數(shù)據(jù)分析不是一個新的學(xué)科,但是工具、內(nèi)容、應(yīng)用方向等一直在不斷改變,所以保持好奇心,持續(xù)學(xué)習(xí)進步,探索新領(lǐng)域?qū)﹂L期發(fā)展是最重要的一點,(個人認(rèn)為)沒有之一。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
本次活動市場價2000元,現(xiàn)面向會員免費開放,會員朋友更可以邀請一位非會員免費參加。 【活動目標(biāo)】 本課程 ...
2025-07-28CDA 數(shù)據(jù)分析師必備技能全解析 在數(shù)據(jù)驅(qū)動決策的時代,CDA 數(shù)據(jù)分析師作為連接數(shù)據(jù)與業(yè)務(wù)價值的橋梁,需要具備多元化的技能體系 ...
2025-07-28PowerBI 添加索引列全攻略 在使用 PowerBI 進行數(shù)據(jù)處理與分析時,添加索引列是一項極為實用的操作技巧。索引列能為數(shù)據(jù)表中的每 ...
2025-07-28t 檢驗與 Wilcoxon 檢驗:數(shù)據(jù)差異分析的兩大核心方法 在數(shù)據(jù)分析的廣闊領(lǐng)域中,判斷兩組或多組數(shù)據(jù)之間是否存在顯著差異是一項 ...
2025-07-28PyTorch 核心機制:損失函數(shù)與反向傳播如何驅(qū)動模型進化 在深度學(xué)習(xí)的世界里,模型從 “一無所知” 到 “精準(zhǔn)預(yù)測” 的蛻變,離 ...
2025-07-252025 年 CDA 數(shù)據(jù)分析師考綱煥新,引領(lǐng)行業(yè)人才新標(biāo)準(zhǔn) 在數(shù)字化浪潮奔涌向前的當(dāng)下,數(shù)據(jù)已成為驅(qū)動各行業(yè)發(fā)展的核心要素。作為 ...
2025-07-25從數(shù)據(jù)到?jīng)Q策:CDA 數(shù)據(jù)分析師如何重塑職場競爭力與行業(yè)價值 在數(shù)字經(jīng)濟席卷全球的今天,數(shù)據(jù)已從 “輔助工具” 升級為 “核心資 ...
2025-07-25用 Power BI 制作地圖熱力圖:基于經(jīng)緯度數(shù)據(jù)的實踐指南 在數(shù)據(jù)可視化領(lǐng)域,地圖熱力圖憑借直觀呈現(xiàn)地理數(shù)據(jù)分布密度的優(yōu)勢,成 ...
2025-07-24解析 insert into select 是否會鎖表:原理、場景與應(yīng)對策略 在數(shù)據(jù)庫操作中,insert into select 是一種常用的批量數(shù)據(jù)插入語句 ...
2025-07-24CDA 數(shù)據(jù)分析師的工作范圍解析 在數(shù)字化時代的浪潮下,數(shù)據(jù)已成為企業(yè)發(fā)展的核心資產(chǎn)之一。CDA(Certified Data Analyst)數(shù)據(jù)分 ...
2025-07-24從 CDA LEVEL II 考試題型看 Python 數(shù)據(jù)分析要點 在數(shù)據(jù)科學(xué)領(lǐng)域蓬勃發(fā)展的當(dāng)下,CDA(Certified Data Analyst)認(rèn)證成為眾多從 ...
2025-07-23用 Python 開啟數(shù)據(jù)分析之旅:從基礎(chǔ)到實踐的完整指南 在數(shù)據(jù)驅(qū)動決策的時代,數(shù)據(jù)分析已成為各行業(yè)不可或缺的核心能力。而 Pyt ...
2025-07-23鳶尾花判別分析:機器學(xué)習(xí)中的經(jīng)典實踐案例 在機器學(xué)習(xí)的世界里,有一個經(jīng)典的數(shù)據(jù)集如同引路明燈,為無數(shù)初學(xué)者打開了模式識別 ...
2025-07-23解析 response.text 與 response.content 的核心區(qū)別 在網(wǎng)絡(luò)數(shù)據(jù)請求與處理的場景中,開發(fā)者經(jīng)常需要從服務(wù)器返回的響應(yīng)中提取數(shù) ...
2025-07-22解析神經(jīng)網(wǎng)絡(luò)中 Softmax 函數(shù)的核心作用 在神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程中,激活函數(shù)扮演著至關(guān)重要的角色,它們?yōu)榫W(wǎng)絡(luò)賦予了非線性能力, ...
2025-07-22CDA數(shù)據(jù)分析師證書考取全攻略 一、了解 CDA 數(shù)據(jù)分析師認(rèn)證 CDA 數(shù)據(jù)分析師認(rèn)證是一套科學(xué)化、專業(yè)化、國際化的人才考核標(biāo)準(zhǔn), ...
2025-07-22左偏態(tài)分布轉(zhuǎn)正態(tài)分布:方法、原理與實踐 左偏態(tài)分布轉(zhuǎn)正態(tài)分布:方法、原理與實踐 在統(tǒng)計分析、數(shù)據(jù)建模和科學(xué)研究中,正態(tài)分 ...
2025-07-22你是不是也經(jīng)常刷到別人漲粉百萬、帶貨千萬,心里癢癢的,想著“我也試試”,結(jié)果三個月過去,粉絲不到1000,播放量慘不忍睹? ...
2025-07-21我是陳輝,一個創(chuàng)業(yè)十多年的企業(yè)主,前半段人生和“文字”緊緊綁在一起。從廣告公司文案到品牌策劃,再到自己開策劃機構(gòu),我靠 ...
2025-07-21CDA 數(shù)據(jù)分析師的職業(yè)生涯規(guī)劃:從入門到卓越的成長之路 在數(shù)字經(jīng)濟蓬勃發(fā)展的當(dāng)下,數(shù)據(jù)已成為企業(yè)核心競爭力的重要來源,而 CD ...
2025-07-21