
如何撰寫你的第一份數(shù)據(jù)報(bào)告
你是一個在校學(xué)生,上著自己喜歡或不喜歡的課,閑來無事,你打開知乎,看到了數(shù)據(jù)分析話題,你下定決心要成為一個數(shù)據(jù)分析師,你搞來一堆學(xué)習(xí)資料和在線課程,看完之后自信滿滿,準(zhǔn)備去投簡歷,然后發(fā)現(xiàn)不清楚各種工具和模型的適用范圍,也不知道數(shù)據(jù)報(bào)告需要包括哪些內(nèi)容,面試的感覺就是一問三不知……
你是一個工作了一段時(shí)間的白領(lǐng),你覺得現(xiàn)在這份工作不適合你,你下班以后去逛知乎上,看到很多人在說大數(shù)據(jù)代表未來,數(shù)據(jù)分析師是21世紀(jì)最性感的十大職業(yè)之一……你激動了,你也要成為數(shù)據(jù)分析師,你利用空余時(shí)間補(bǔ)上了統(tǒng)計(jì)知識,學(xué)了分析工具,然后發(fā)現(xiàn)自己目前的工作跟數(shù)據(jù)分析沒啥關(guān)系,覺得沒有相關(guān)經(jīng)驗(yàn)沒公司要你……
這些問題的根源是什么?一句話可以概括:你沒有辦法在最短的時(shí)間內(nèi)向招聘者展示,你能夠勝任數(shù)據(jù)分析這項(xiàng)工作。
我在知乎的回答如何快速成為數(shù)據(jù)分析師? - 陳丹奕的回答中,提出過一個“100小時(shí)學(xué)習(xí)計(jì)劃”,在開始投簡歷前的最后一步,我建議用25個小時(shí)——占整個計(jì)劃的四分之一,來做一份數(shù)據(jù)報(bào)告,這個步驟至少能為你帶來三個好處:
寫了一大堆做數(shù)據(jù)報(bào)告的好處,那么以一個初學(xué)者的水平,如何去做一份數(shù)據(jù)報(bào)告呢?下文細(xì)說。
先放一張圖(不許抱怨配色丑!)
可以很清楚的看到,一個數(shù)據(jù)報(bào)告(副本)依據(jù)需求不同,有普通難度(藍(lán)->橙->綠->紅),也有英雄難度(藍(lán)->橙->綠+黃->紅),這次我們先講普通難度的攻略,英雄難度放到下次講。
普通難度的數(shù)據(jù)報(bào)告要經(jīng)歷7個步驟:
這一步在工作中通常是由你的客戶/上級/其他部門同事/合作方提出來的,但第一次的數(shù)據(jù)報(bào)告中,需要你自己來提出并確定目標(biāo)。
選擇目標(biāo)時(shí),請注意以下幾點(diǎn):
逐一分析上面三個注意點(diǎn):
選擇熟悉/感興趣的領(lǐng)域/行業(yè),是為了保證你在后續(xù)的分析過程中能夠真正觸及事情的本質(zhì)——這一過程通常稱為洞察——而不是就數(shù)字論數(shù)字;
選擇細(xì)分領(lǐng)域/行業(yè)作為切入點(diǎn),是為了保證你的報(bào)告能夠有一條清晰的主線,而非單純堆砌數(shù)據(jù);
確定公開數(shù)據(jù)/UGC內(nèi)容,是為了保證你有數(shù)據(jù)可以分析,可以做成報(bào)告,你說你是個軍迷,要分析一下美國在伊拉克的軍事行動與基地組織恐怖活動之間的關(guān)系……找到了數(shù)據(jù)麻煩告訴我一聲,我叫你一聲大神……
不管用什么方法,你現(xiàn)在有了一個目標(biāo),那么就向下個階段邁進(jìn)吧。
目標(biāo)定下來了,接下來要去找相應(yīng)的數(shù)據(jù)。如果你制定目標(biāo)時(shí)完全遵循了第一步的三個注意點(diǎn),那么你現(xiàn)在會很明確要找哪些數(shù)據(jù)。如果現(xiàn)在你還不確定自己需要哪些數(shù)據(jù),那么……回到第一步重來吧。
下面我總結(jié)一下,在不依賴公司資源,不花錢買數(shù)據(jù)的情況下,獲取目標(biāo)數(shù)據(jù)的三類方法:
一是從一些有公開數(shù)據(jù)的網(wǎng)站上復(fù)制/下載,比如統(tǒng)計(jì)局網(wǎng)站,各類行業(yè)網(wǎng)站等,通過搜索引擎可以很容易找到這些網(wǎng)站。舉例:要找汽車銷量數(shù)據(jù),在百度輸入“汽車銷量數(shù)據(jù)查詢”關(guān)鍵字,結(jié)果如下:
我打碼的那個鏈接,也就是第三個鏈接(第一個非推廣鏈接)就是要找的結(jié)果,點(diǎn)進(jìn)去可以看到各月的汽車銷量,但只是全國數(shù)據(jù),沒有分省統(tǒng)計(jì)數(shù)據(jù)。
當(dāng)然不會每次找數(shù)據(jù)都這么順利,這里只是告訴你:要善用搜索引擎。
二是通過一些專門做數(shù)據(jù)整理打包的網(wǎng)站/api來下載,如果你要找金融類的數(shù)據(jù),這種方法比較實(shí)用。其他類型的數(shù)據(jù)也有人做,但通常要收費(fèi)。
三是自行收集所需數(shù)據(jù),比如用爬蟲工具爬取點(diǎn)評網(wǎng)站的商家評分、評價(jià)內(nèi)容等,或是直接自己人肉收集(手工復(fù)制下來),亦或是找一個免費(fèi)問卷網(wǎng)站做一份問卷然后散發(fā)給你身邊的人,都是可以的。這種方式受限制較少,但工作量/實(shí)現(xiàn)難度相對較大。
如果你是在職人員或是實(shí)習(xí)生,我建議你不要用任何現(xiàn)在公司的數(shù)據(jù)。保證數(shù)據(jù)的安全性,不對外泄露公司的任何非公開數(shù)據(jù),是數(shù)據(jù)分析師的基本職業(yè)道德。實(shí)在非要用(例如你要在面試中展示你在以前公司做過的數(shù)據(jù)報(bào)告),請將一切有意義的內(nèi)容,包括但不限于各種數(shù)字、競品及本品名稱、時(shí)間、用戶屬性全部打碼并轉(zhuǎn)成pdf格式,只留圖形和敘事邏輯描述內(nèi)容。
在工作中,90%以上的情況,你拿到的數(shù)據(jù)都需要先做清洗工作,排除異常值、空白值、無效值、重復(fù)值等等。這項(xiàng)工作經(jīng)常會占到整個數(shù)據(jù)分析過程將近一半的時(shí)間。
如果在上一步中,你的數(shù)據(jù)是通過手工復(fù)制/下載獲取的,那么通常會比較干凈,不需要做太多清洗工作。但如果數(shù)據(jù)是通過爬蟲等方式得來,那么你需要進(jìn)行清洗,提取核心內(nèi)容,去掉網(wǎng)頁代碼、標(biāo)點(diǎn)符號等無用內(nèi)容。
無論你采用哪一種方式獲取數(shù)據(jù),請記住,數(shù)據(jù)清洗永遠(yuǎn)是你必須要做的一項(xiàng)工作。
清洗過后,需要進(jìn)行數(shù)據(jù)整理,即將數(shù)據(jù)整理為能夠進(jìn)行下一步分析的格式,對于初學(xué)者,用Excel來完成這一工作就OK。
如果你的數(shù)據(jù)已經(jīng)是表格形式,那么計(jì)算一些二級指標(biāo)就好,比如用今年銷量和去年銷量算出同比增長率。鑒于你是第一次做數(shù)據(jù)報(bào)告,建議你不要計(jì)算太多復(fù)雜的二級指標(biāo),基本的同比、環(huán)比、占比分布這些就OK。
如果你收集的是一些非數(shù)字的數(shù)據(jù),比如對商家的點(diǎn)評,那么你進(jìn)行下一步統(tǒng)計(jì)之前,需要通過“關(guān)鍵詞-標(biāo)簽”方式,將句子轉(zhuǎn)化為標(biāo)簽,再對標(biāo)簽進(jìn)行統(tǒng)計(jì)。
描述分析是最基本的分析統(tǒng)計(jì)方法,在實(shí)際工作中也是應(yīng)用最廣的分析方法。描述統(tǒng)計(jì)分為兩大部分:數(shù)據(jù)描述和指標(biāo)統(tǒng)計(jì)。
數(shù)據(jù)描述:用來對數(shù)據(jù)進(jìn)行基本情況的刻畫,包括:數(shù)據(jù)總數(shù)、時(shí)間跨度、時(shí)間粒度、空間范圍、空間粒度、數(shù)據(jù)來源等。如果是建模,那么還要看數(shù)據(jù)的極值、分布、離散度等內(nèi)容。這次我們是零基礎(chǔ)做數(shù)據(jù)報(bào)告,那么就不用考慮后一類數(shù)據(jù)了。
指標(biāo)統(tǒng)計(jì):用來作報(bào)告,分析實(shí)際情況的數(shù)據(jù)指標(biāo),可粗略分為四大類:變化、分布、對比、預(yù)測;
以上部分引用自我的一個回答面試中針對一個企業(yè)的數(shù)據(jù)分析場景應(yīng)該怎么去分析?應(yīng)屆生還不懂怎么結(jié)合企業(yè)業(yè)務(wù)做系統(tǒng)的分析,求指點(diǎn) - 陳丹奕的回答,希望進(jìn)一步了解的話,可以進(jìn)這個答案。描述分析的產(chǎn)出是圖表,下一個步驟的內(nèi)容將基于這些圖表產(chǎn)出。
這一步是數(shù)據(jù)報(bào)告的核心,也是最能看出數(shù)據(jù)分析師水平的部分。一個年輕的分析師和一個年邁的分析師拿到同樣的圖表,完全有可能解讀出不同的內(nèi)容。
舉個栗子:
看到兩者的區(qū)別了嗎?2013年春節(jié)在2月,2012年則在1月,因此需要各去除一周的銷售額,再進(jìn)行比較。如果不考慮這一因素,那么后續(xù)得出的所有結(jié)論都是錯的。挖掘數(shù)字變化背后的真正影響因素,才是洞察的目標(biāo)。
再舉個栗子:
這張圖是一個用戶行為聚類的結(jié)果,人群被聚成四類。前三類人群可以很清楚的得出結(jié)論:他們是某一種游戲主機(jī)的用戶。那么第四類人群,是什么人群呢?
很明顯,年邁的分析師由于具備豐富的行業(yè)經(jīng)驗(yàn),能迅速看穿數(shù)據(jù)背后的真實(shí)情況,得出正確的洞察結(jié)論,這也是為什么我在step 1里一再強(qiáng)調(diào)要找你熟悉或感興趣的領(lǐng)域/行業(yè),缺乏業(yè)務(wù)經(jīng)驗(yàn),很可能你的洞察結(jié)果是完全錯誤的。
以上這兩個洞察的例子本身比較簡單,但通常來說,即使是復(fù)雜的數(shù)據(jù)報(bào)告,也是由一個個相對簡單的洞察結(jié)論組成的,這其中涉及到問題的分拆,邏輯線的建立等一系列內(nèi)容。作為初學(xué)者,做到自己力所能及的程度就好。
總結(jié)一下,所謂洞察,就是要越過數(shù)據(jù),去推測和理解真實(shí)情況。單純描述數(shù)據(jù),誰都會做,根據(jù)數(shù)據(jù)得出有價(jià)值的結(jié)論,報(bào)告才有意義。
都到這一步了,相信各位對數(shù)據(jù)報(bào)告也不再陌生了。這一步中,需要保證的是數(shù)據(jù)報(bào)告內(nèi)容的完整性。
一個完整的數(shù)據(jù)報(bào)告,應(yīng)至少包含以下六塊內(nèi)容:
其中,背景和目的決定了你的報(bào)告邏輯(解決什么問題);數(shù)據(jù)基本情況告訴對方你用了什么樣的數(shù)據(jù),可信度如何;分頁內(nèi)容需要按照一定的邏輯來構(gòu)建,目標(biāo)仍然是解決報(bào)告目的中的問題;小結(jié)及總結(jié)必不可少;下一步策略或?qū)厔莸念A(yù)測能為你的報(bào)告加分。
還覺得復(fù)雜么?我再換一種說法:
各位應(yīng)該都寫過議論文,一份好的數(shù)據(jù)分析報(bào)告其實(shí)就是一篇好的議論文,立論(背景)——破題(目的)——列舉論據(jù)(圖表+結(jié)論)——論證論點(diǎn)(小結(jié)及總結(jié))——結(jié)題(策略或預(yù)測)。按照這個邏輯去組織你的報(bào)告,你的論點(diǎn)就很容易被人接受,自然能得高分嘍。
Q1:我按照數(shù)據(jù)收集的方法去找了,但還是找不到數(shù)據(jù)怎么辦?
A1:確定你是否認(rèn)真找了,如果確實(shí)沒有,那么換個領(lǐng)域。
Q2:不知道怎么做數(shù)據(jù)清洗?
A2:把收集來的數(shù)據(jù)先看一遍(如果太多就抽樣),肉眼識別一些臟數(shù)據(jù), 記錄下來,然后從中抽取清洗規(guī)則,清洗一遍,再繼續(xù)看,直到認(rèn)為足夠干凈了為止。這一步不做的話,主要影響結(jié)論的正確性。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03