
寫給喜歡數(shù)據(jù)分析的初學(xué)者
在耀眼的職業(yè)光環(huán)下,數(shù)據(jù)分析師自身的成長(zhǎng),幾乎是與孤寂相伴,在高級(jí)打雜中,鍛造而成。
最近接到一個(gè)職業(yè)訪談的邀請(qǐng),要給對(duì)數(shù)據(jù)分析感興趣的新人Y(目前在知名電商從事系統(tǒng)開發(fā)和維護(hù))一些建議,才突然發(fā)現(xiàn)自己在這個(gè)領(lǐng)域打滾了一段時(shí)間,一陣感嘆后,寫下自己的一些體會(huì),盡管不全面,但或許能夠給新人一些借鑒。如有不妥地方,請(qǐng)各位數(shù)據(jù)大牛輕拍。
一、數(shù)據(jù)分析師有哪些要求?
1、理論要求及對(duì)數(shù)字的敏感性,包括統(tǒng)計(jì)知識(shí)、市場(chǎng)研究、模型原理等。
2、工具使用,包括挖掘工具、數(shù)據(jù)庫(kù)、常用辦公軟件(excel、PPT、word、腦圖)等。
3、業(yè)務(wù)理解能力和對(duì)商業(yè)的敏感性。對(duì)商業(yè)及產(chǎn)品要有深刻的理解,因?yàn)閿?shù)據(jù)分析的出發(fā)點(diǎn)就是要解決商業(yè)的問(wèn)題,只有理解了商業(yè)問(wèn)題,才能轉(zhuǎn)換成數(shù)據(jù)分析的問(wèn)題,從而滿足部門的要求。
4、匯報(bào)和圖表展現(xiàn)能力。這是臨門一腳,做得再好的分析模型,如果不能很好地展示給領(lǐng)導(dǎo)和客戶,成效就大打折扣,也會(huì)影響到數(shù)據(jù)分析師的職業(yè)晉升。
二、請(qǐng)把數(shù)據(jù)分析作為一種能力來(lái)培養(yǎng)
從廣義來(lái)說(shuō),現(xiàn)在大多數(shù)的工作都需要用到分析能力,特別是數(shù)據(jù)化運(yùn)營(yíng)理念深入的今天,像BAT這樣的公司強(qiáng)調(diào)全員參與數(shù)據(jù)化運(yùn)營(yíng),所以,把它作為一種能力培訓(xùn),將會(huì)讓你終生受益。
三、從數(shù)據(jù)分析的四個(gè)步驟來(lái)看清數(shù)據(jù)分析師需具備的能力和知識(shí):
數(shù)據(jù)分析的四個(gè)步驟(這有別于數(shù)據(jù)挖掘流程:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、模型搭建、模型評(píng)估、模型部署),是從更宏觀地展示數(shù)據(jù)分析的過(guò)程:獲取數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)、呈現(xiàn)數(shù)據(jù)。
(一) 獲取數(shù)據(jù)
獲取數(shù)據(jù)的前提是對(duì)商業(yè)問(wèn)題的理解,把商業(yè)問(wèn)題轉(zhuǎn)化成數(shù)據(jù)問(wèn)題,要通過(guò)現(xiàn)象發(fā)現(xiàn)本質(zhì),確定從哪些緯度來(lái)分析問(wèn)題,界定問(wèn)題后,進(jìn)行數(shù)據(jù)的采集。此環(huán)節(jié),需要數(shù)據(jù)分析師具備結(jié)構(gòu)化的思維和對(duì)商業(yè)問(wèn)題的理解能力。
推薦書籍:《金字塔原理》、麥肯錫三部曲:《麥肯錫意識(shí)》、《麥肯錫工具》、《麥肯錫方法》
工具:思維導(dǎo)圖、mindmanager軟件
(二) 處理數(shù)據(jù)
一個(gè)數(shù)據(jù)分析項(xiàng)目,通常數(shù)據(jù)處理時(shí)間占70%以上,使用先進(jìn)的工具有利于提升效率,所以盡量學(xué)習(xí)最新最有效的處理工具,以下介紹的是最傳統(tǒng)的,但卻很有效率的工具:
Excel:日常在做通報(bào)、報(bào)告和抽樣分析中經(jīng)常用到,其圖表功能很強(qiáng)大,處理10萬(wàn)級(jí)別的數(shù)據(jù)很輕松。
UltraEdit:文本工具,比TXT工具好用,打開和運(yùn)行速度都比較快。
ACCESS:桌面數(shù)據(jù)庫(kù),主要是用于日常的抽樣分析(做全量統(tǒng)計(jì)分析,消耗資源和時(shí)間較多,通常分析師會(huì)隨機(jī)抽取部分?jǐn)?shù)據(jù)進(jìn)行分析),使用SQL語(yǔ)言,處理100萬(wàn)級(jí)別的數(shù)據(jù)還是很快捷。
Orcle、SQL sever:處理千萬(wàn)級(jí)別的數(shù)據(jù)需要用到這兩類數(shù)據(jù)庫(kù)。
當(dāng)然,在自己能力和時(shí)間允許的情況下,學(xué)習(xí)新流行的分布式數(shù)據(jù)庫(kù)及提升自身的編程能力,對(duì)未來(lái)的職業(yè)發(fā)展也有很大幫助。
分析軟件主要推薦:
SPSS系列:老牌的統(tǒng)計(jì)分析軟件,SPSS Statistics(偏統(tǒng)計(jì)功能、市場(chǎng)研究)、SPSS Modeler(偏數(shù)據(jù)挖掘),不用編程,易學(xué)。
SAS:老牌經(jīng)典挖掘軟件,需要編程。
R:開源軟件,新流行,對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理效率上更高,需編程。
隨著文本挖掘技術(shù)進(jìn)一步發(fā)展,對(duì)非結(jié)構(gòu)化數(shù)據(jù)的分析需求也越來(lái)越大,需要進(jìn)一步關(guān)注文本挖掘工具的使用。
(三) 分析數(shù)據(jù)
分析數(shù)據(jù),需要用到各類的模型,包括關(guān)聯(lián)規(guī)則、聚類、分類、預(yù)測(cè)模型等,其中一個(gè)最重要的思想是對(duì)比,任何的數(shù)據(jù)需要在參照系下進(jìn)行對(duì)比,結(jié)論才有意義。
推薦的書籍:
1、《數(shù)據(jù)挖掘與數(shù)據(jù)化運(yùn)營(yíng)實(shí)戰(zhàn),思路、方法、技巧與應(yīng)用》,盧輝著,機(jī)械出版社。這本書是近年國(guó)內(nèi)寫得最好的,務(wù)必把它當(dāng)作圣經(jīng)一樣來(lái)讀。
2、《誰(shuí)說(shuō)菜鳥不會(huì)數(shù)據(jù)分析(入門篇)》和《誰(shuí)說(shuō)菜鳥不會(huì)數(shù)據(jù)分析(工具篇)》,張文霖等編著。屬于入門級(jí)的書,適合初學(xué)者。
3、《統(tǒng)計(jì)學(xué)》第五版,賈俊平等編著,中國(guó)人民大學(xué)出版社。比較好的一本統(tǒng)計(jì)學(xué)的書。
4、《數(shù)據(jù)挖掘導(dǎo)論》完整版,[美]Pang-Ning Tan等著,范明等翻譯,人民郵電出版社。
5、《數(shù)據(jù)挖掘概念與技術(shù)》,Jiawei Han等著,范明等翻譯,機(jī)械工業(yè)出版社。這本書相對(duì)難一些。
6、《市場(chǎng)研究定量分析方法與應(yīng)用》,簡(jiǎn)明等編著,中國(guó)人民大學(xué)出版社。
7、《問(wèn)卷統(tǒng)計(jì)分析實(shí)務(wù)—SPSS操作與應(yīng)用》,吳明隆著,重慶大學(xué)出版社。在市場(chǎng)調(diào)查領(lǐng)域比較出名的一本書,對(duì)問(wèn)卷調(diào)查數(shù)據(jù)分析講解比較詳細(xì)。
(四) 呈現(xiàn)數(shù)據(jù)
該部分需要把數(shù)據(jù)結(jié)果進(jìn)行有效的呈現(xiàn)和演講匯報(bào),需要用到金字塔原理、圖表及PPT、word的呈現(xiàn),培養(yǎng)良好的演講能力。
推薦書籍:
1、《說(shuō)服力讓你的PPT會(huì)說(shuō)話》,張志等編著,人民郵電出版社。
2、《別告訴我你懂ppt》加強(qiáng)版,李治著,北京大學(xué)出版社。
3、《用圖表說(shuō)話》,基恩。澤拉茲尼著,馬曉路等翻譯,清華大學(xué)出版社。
(五) 其他的知識(shí)結(jié)構(gòu)
數(shù)據(jù)分析師除了具備數(shù)學(xué)知識(shí)外,還要具備市場(chǎng)研究、營(yíng)銷管理、心理學(xué)、行為學(xué)、產(chǎn)品運(yùn)營(yíng)、互聯(lián)網(wǎng)、大數(shù)據(jù)等方面的知識(shí),需要構(gòu)建完整廣泛的知識(shí)體系,才能支撐解決日常遇到的不同類型的商業(yè)問(wèn)題。
推薦書籍:
1、《消費(fèi)者行為學(xué)》第10版,希夫曼等人著,江林等翻譯,中國(guó)人民大學(xué)出版社,現(xiàn)在應(yīng)該更新到更高的版本。
2、《怪誕行為學(xué)》升級(jí)版,艾瑞里著,趙德亮等翻譯,中信出版社
3、《營(yíng)銷管理》,科特勒等著,梅清豪翻譯,格致出版社和上海人民出版社聯(lián)合出版
4、《互聯(lián)網(wǎng)思維—獨(dú)孤九劍》,趙大偉主編,機(jī)械出版社
5、《大數(shù)據(jù)時(shí)代—生活、工作與思維的大變革》,舍恩伯格等著,周濤等翻譯,浙江人民出版社
四、關(guān)于數(shù)據(jù)分析師的職業(yè)發(fā)展:
1、數(shù)據(jù)分析師通常分兩類,分工不同,但各有優(yōu)勢(shì)。
一類是在專門的挖掘團(tuán)隊(duì)里面從事數(shù)據(jù)挖掘和分析工作的。如果你能在這類專業(yè)團(tuán)隊(duì)學(xué)習(xí)成長(zhǎng),那是幸運(yùn)的,但進(jìn)入這類團(tuán)隊(duì)的門檻較高,需要扎實(shí)的數(shù)據(jù)挖掘知識(shí)、挖掘工具應(yīng)用經(jīng)驗(yàn)和編程能力。該類分析師更偏向技術(shù)線條,未來(lái)的職業(yè)通道可能走專家的技術(shù)路線。
另一類是下沉到各業(yè)務(wù)團(tuán)隊(duì)或者運(yùn)營(yíng)部門的數(shù)據(jù)分析師,成為業(yè)務(wù)團(tuán)隊(duì)的一員。他們工作是支撐業(yè)務(wù)運(yùn)營(yíng),包括日常業(yè)務(wù)的異常監(jiān)控、客戶和市場(chǎng)研究、參與產(chǎn)品開發(fā)、建立數(shù)據(jù)模型提升運(yùn)營(yíng)效率等。該類型分析師偏向產(chǎn)品和運(yùn)營(yíng),可以轉(zhuǎn)向做運(yùn)營(yíng)和產(chǎn)品。
2、數(shù)據(jù)分析師的理想行業(yè)在互聯(lián)網(wǎng),但條條大道通羅馬,走合適你的路線。
從行業(yè)的角度來(lái)看:
1)互聯(lián)網(wǎng)行業(yè)是數(shù)據(jù)分析應(yīng)用最廣的行業(yè),其中的電商企業(yè),更是目前最火的,而且企業(yè)也更重視數(shù)據(jù)分析的價(jià)值,是數(shù)據(jù)分析師理想的成長(zhǎng)平臺(tái)。
2)其次是咨詢公司(比如專門的數(shù)據(jù)挖掘公司Teradata、尼爾森等市場(chǎng)研究公司),他們需要數(shù)據(jù)分析人才,而且相對(duì)來(lái)說(shuō),數(shù)據(jù)分析師在咨詢公司成長(zhǎng)的速度更快,專業(yè)也會(huì)更全面。
3)再次是金融行業(yè),比如銀行和證券等行業(yè),該行業(yè)對(duì)數(shù)據(jù)分析的依賴需求,越來(lái)越大。
4)最后是電信行業(yè)(中國(guó)移動(dòng)、聯(lián)通和電信),它們擁有海量的數(shù)據(jù),在嚴(yán)峻的競(jìng)爭(zhēng)下,也越來(lái)越重視數(shù)據(jù)分析,但進(jìn)入這些公司的門檻比較高。
五、什么人適合學(xué)習(xí)數(shù)據(jù)分析?
這個(gè)問(wèn)題的答案跟“什么人適合學(xué)功夫”一樣,毫無(wú)疑問(wèn),功夫是適合任何人學(xué)習(xí)的(排除心術(shù)不正的人),因?yàn)槟軌驈?qiáng)身健體。而功夫的成效,要看習(xí)武者的修煉深淺。常常有人爭(zhēng)論,是詠春拳厲害,還是散打厲害,其實(shí)是顛倒了因果,應(yīng)該看哪個(gè)人練習(xí)得比較好,流派之間沒有高低,只有人修煉的厚薄。
實(shí)際上,問(wèn)題的潛臺(tái)詞是“什么人學(xué)習(xí)數(shù)據(jù)分析,會(huì)更容易取得成功(比如職業(yè)成功)”,這個(gè)要視乎你的興趣、付出和機(jī)遇。但要做到出類拔萃,除了上面三點(diǎn),還需要一點(diǎn)天賦,這里的機(jī)遇是指你遇到的職業(yè)發(fā)展平臺(tái)、商業(yè)環(huán)境、導(dǎo)師和同事。借用管理大師德魯克的話“管理是可以習(xí)得的”,管理并非是天生的,而數(shù)據(jù)分析能力,也可以后天提升。或許做到優(yōu)秀,只需要你更加的努力+興趣,而這個(gè)努力的過(guò)程,也包括你尋找機(jī)遇的部分。
六、關(guān)于如何學(xué)習(xí):
學(xué)習(xí)方法千萬(wàn)種,關(guān)鍵是找到適合自己的,最好能夠結(jié)合你的工作遇到的問(wèn)題來(lái)學(xué)習(xí)。
1、搜集書籍、案例庫(kù)和視頻,先弄懂理論,然后學(xué)會(huì)軟件操作,自己制作屬于自己的教程。
比如,你學(xué)習(xí)聚類分析模型。
1)搜集相關(guān)的聚類分析模型的書籍、案例和教學(xué)視頻,了解聚類分析的原理,主要有哪幾種算法(劃分、層次、密度、網(wǎng)格)、模型適用的范圍和前提、如何評(píng)估模型的精確度等。
2)自己學(xué)會(huì)用軟件來(lái)實(shí)現(xiàn)。
3)總結(jié)整理成一份PPT和制作操作視頻,成為自己的學(xué)習(xí)教程,不斷完善。
4)學(xué)習(xí)到一定程度后,可以在博客、微信等渠道分享,授人與漁,而自己也會(huì)有所收獲。
下圖是我自己整理的聚類分析和判別分析的專題
2、關(guān)注名人、名博、網(wǎng)站,多渠道學(xué)習(xí)。
1)關(guān)注專業(yè)的數(shù)據(jù)分析、咨詢公司網(wǎng)站和論壇,特別強(qiáng)調(diào),統(tǒng)計(jì)軟件公司的網(wǎng)站如SPSS的官網(wǎng)有很多案例庫(kù),值得關(guān)注。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03