
寫給喜歡數(shù)據(jù)分析的初學(xué)者
在耀眼的職業(yè)光環(huán)下,數(shù)據(jù)分析師自身的成長,幾乎是與孤寂相伴,在高級(jí)打雜中,鍛造而成。
最近接到一個(gè)職業(yè)訪談的邀請,要給對數(shù)據(jù)分析感興趣的新人Y(目前在知名電商從事系統(tǒng)開發(fā)和維護(hù))一些建議,才突然發(fā)現(xiàn)自己在這個(gè)領(lǐng)域打滾了一段時(shí)間,一陣感嘆后,寫下自己的一些體會(huì),盡管不全面,但或許能夠給新人一些借鑒。如有不妥地方,請各位數(shù)據(jù)大牛輕拍。
一、數(shù)據(jù)分析師有哪些要求?
1、理論要求及對數(shù)字的敏感性,包括統(tǒng)計(jì)知識(shí)、市場研究、模型原理等。
2、工具使用,包括挖掘工具、數(shù)據(jù)庫、常用辦公軟件(excel、PPT、word、腦圖)等。
3、業(yè)務(wù)理解能力和對商業(yè)的敏感性。對商業(yè)及產(chǎn)品要有深刻的理解,因?yàn)閿?shù)據(jù)分析的出發(fā)點(diǎn)就是要解決商業(yè)的問題,只有理解了商業(yè)問題,才能轉(zhuǎn)換成數(shù)據(jù)分析的問題,從而滿足部門的要求。
4、匯報(bào)和圖表展現(xiàn)能力。這是臨門一腳,做得再好的分析模型,如果不能很好地展示給領(lǐng)導(dǎo)和客戶,成效就大打折扣,也會(huì)影響到數(shù)據(jù)分析師的職業(yè)晉升。
二、請把數(shù)據(jù)分析作為一種能力來培養(yǎng)
從廣義來說,現(xiàn)在大多數(shù)的工作都需要用到分析能力,特別是數(shù)據(jù)化運(yùn)營理念深入的今天,像BAT這樣的公司強(qiáng)調(diào)全員參與數(shù)據(jù)化運(yùn)營,所以,把它作為一種能力培訓(xùn),將會(huì)讓你終生受益。
三、從數(shù)據(jù)分析的四個(gè)步驟來看清數(shù)據(jù)分析師需具備的能力和知識(shí):
數(shù)據(jù)分析的四個(gè)步驟(這有別于數(shù)據(jù)挖掘流程:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、模型搭建、模型評(píng)估、模型部署),是從更宏觀地展示數(shù)據(jù)分析的過程:獲取數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)、呈現(xiàn)數(shù)據(jù)。
(一) 獲取數(shù)據(jù)
獲取數(shù)據(jù)的前提是對商業(yè)問題的理解,把商業(yè)問題轉(zhuǎn)化成數(shù)據(jù)問題,要通過現(xiàn)象發(fā)現(xiàn)本質(zhì),確定從哪些緯度來分析問題,界定問題后,進(jìn)行數(shù)據(jù)的采集。此環(huán)節(jié),需要數(shù)據(jù)分析師具備結(jié)構(gòu)化的思維和對商業(yè)問題的理解能力。
推薦書籍:《金字塔原理》、麥肯錫三部曲:《麥肯錫意識(shí)》、《麥肯錫工具》、《麥肯錫方法》
工具:思維導(dǎo)圖、mindmanager軟件
(二) 處理數(shù)據(jù)
一個(gè)數(shù)據(jù)分析項(xiàng)目,通常數(shù)據(jù)處理時(shí)間占70%以上,使用先進(jìn)的工具有利于提升效率,所以盡量學(xué)習(xí)最新最有效的處理工具,以下介紹的是最傳統(tǒng)的,但卻很有效率的工具:
Excel:日常在做通報(bào)、報(bào)告和抽樣分析中經(jīng)常用到,其圖表功能很強(qiáng)大,處理10萬級(jí)別的數(shù)據(jù)很輕松。
UltraEdit:文本工具,比TXT工具好用,打開和運(yùn)行速度都比較快。
ACCESS:桌面數(shù)據(jù)庫,主要是用于日常的抽樣分析(做全量統(tǒng)計(jì)分析,消耗資源和時(shí)間較多,通常分析師會(huì)隨機(jī)抽取部分?jǐn)?shù)據(jù)進(jìn)行分析),使用SQL語言,處理100萬級(jí)別的數(shù)據(jù)還是很快捷。
Orcle、SQL sever:處理千萬級(jí)別的數(shù)據(jù)需要用到這兩類數(shù)據(jù)庫。
當(dāng)然,在自己能力和時(shí)間允許的情況下,學(xué)習(xí)新流行的分布式數(shù)據(jù)庫及提升自身的編程能力,對未來的職業(yè)發(fā)展也有很大幫助。
分析軟件主要推薦:
SPSS系列:老牌的統(tǒng)計(jì)分析軟件,SPSS Statistics(偏統(tǒng)計(jì)功能、市場研究)、SPSS Modeler(偏數(shù)據(jù)挖掘),不用編程,易學(xué)。
SAS:老牌經(jīng)典挖掘軟件,需要編程。
R:開源軟件,新流行,對非結(jié)構(gòu)化數(shù)據(jù)處理效率上更高,需編程。
隨著文本挖掘技術(shù)進(jìn)一步發(fā)展,對非結(jié)構(gòu)化數(shù)據(jù)的分析需求也越來越大,需要進(jìn)一步關(guān)注文本挖掘工具的使用。
(三) 分析數(shù)據(jù)
分析數(shù)據(jù),需要用到各類的模型,包括關(guān)聯(lián)規(guī)則、聚類、分類、預(yù)測模型等,其中一個(gè)最重要的思想是對比,任何的數(shù)據(jù)需要在參照系下進(jìn)行對比,結(jié)論才有意義。
推薦的書籍:
1、《數(shù)據(jù)挖掘與數(shù)據(jù)化運(yùn)營實(shí)戰(zhàn),思路、方法、技巧與應(yīng)用》,盧輝著,機(jī)械出版社。這本書是近年國內(nèi)寫得最好的,務(wù)必把它當(dāng)作圣經(jīng)一樣來讀。
2、《誰說菜鳥不會(huì)數(shù)據(jù)分析(入門篇)》和《誰說菜鳥不會(huì)數(shù)據(jù)分析(工具篇)》,張文霖等編著。屬于入門級(jí)的書,適合初學(xué)者。
3、《統(tǒng)計(jì)學(xué)》第五版,賈俊平等編著,中國人民大學(xué)出版社。比較好的一本統(tǒng)計(jì)學(xué)的書。
4、《數(shù)據(jù)挖掘導(dǎo)論》完整版,[美]Pang-Ning Tan等著,范明等翻譯,人民郵電出版社。
5、《數(shù)據(jù)挖掘概念與技術(shù)》,Jiawei Han等著,范明等翻譯,機(jī)械工業(yè)出版社。這本書相對難一些。
6、《市場研究定量分析方法與應(yīng)用》,簡明等編著,中國人民大學(xué)出版社。
7、《問卷統(tǒng)計(jì)分析實(shí)務(wù)—SPSS操作與應(yīng)用》,吳明隆著,重慶大學(xué)出版社。在市場調(diào)查領(lǐng)域比較出名的一本書,對問卷調(diào)查數(shù)據(jù)分析講解比較詳細(xì)。
(四) 呈現(xiàn)數(shù)據(jù)
該部分需要把數(shù)據(jù)結(jié)果進(jìn)行有效的呈現(xiàn)和演講匯報(bào),需要用到金字塔原理、圖表及PPT、word的呈現(xiàn),培養(yǎng)良好的演講能力。
推薦書籍:
1、《說服力讓你的PPT會(huì)說話》,張志等編著,人民郵電出版社。
2、《別告訴我你懂ppt》加強(qiáng)版,李治著,北京大學(xué)出版社。
3、《用圖表說話》,基恩。澤拉茲尼著,馬曉路等翻譯,清華大學(xué)出版社。
(五) 其他的知識(shí)結(jié)構(gòu)
數(shù)據(jù)分析師除了具備數(shù)學(xué)知識(shí)外,還要具備市場研究、營銷管理、心理學(xué)、行為學(xué)、產(chǎn)品運(yùn)營、互聯(lián)網(wǎng)、大數(shù)據(jù)等方面的知識(shí),需要構(gòu)建完整廣泛的知識(shí)體系,才能支撐解決日常遇到的不同類型的商業(yè)問題。
推薦書籍:
1、《消費(fèi)者行為學(xué)》第10版,希夫曼等人著,江林等翻譯,中國人民大學(xué)出版社,現(xiàn)在應(yīng)該更新到更高的版本。
2、《怪誕行為學(xué)》升級(jí)版,艾瑞里著,趙德亮等翻譯,中信出版社
3、《營銷管理》,科特勒等著,梅清豪翻譯,格致出版社和上海人民出版社聯(lián)合出版
4、《互聯(lián)網(wǎng)思維—獨(dú)孤九劍》,趙大偉主編,機(jī)械出版社
5、《大數(shù)據(jù)時(shí)代—生活、工作與思維的大變革》,舍恩伯格等著,周濤等翻譯,浙江人民出版社
四、關(guān)于數(shù)據(jù)分析師的職業(yè)發(fā)展:
1、數(shù)據(jù)分析師通常分兩類,分工不同,但各有優(yōu)勢。
一類是在專門的挖掘團(tuán)隊(duì)里面從事數(shù)據(jù)挖掘和分析工作的。如果你能在這類專業(yè)團(tuán)隊(duì)學(xué)習(xí)成長,那是幸運(yùn)的,但進(jìn)入這類團(tuán)隊(duì)的門檻較高,需要扎實(shí)的數(shù)據(jù)挖掘知識(shí)、挖掘工具應(yīng)用經(jīng)驗(yàn)和編程能力。該類分析師更偏向技術(shù)線條,未來的職業(yè)通道可能走專家的技術(shù)路線。
另一類是下沉到各業(yè)務(wù)團(tuán)隊(duì)或者運(yùn)營部門的數(shù)據(jù)分析師,成為業(yè)務(wù)團(tuán)隊(duì)的一員。他們工作是支撐業(yè)務(wù)運(yùn)營,包括日常業(yè)務(wù)的異常監(jiān)控、客戶和市場研究、參與產(chǎn)品開發(fā)、建立數(shù)據(jù)模型提升運(yùn)營效率等。該類型分析師偏向產(chǎn)品和運(yùn)營,可以轉(zhuǎn)向做運(yùn)營和產(chǎn)品。
2、數(shù)據(jù)分析師的理想行業(yè)在互聯(lián)網(wǎng),但條條大道通羅馬,走合適你的路線。
從行業(yè)的角度來看:
1)互聯(lián)網(wǎng)行業(yè)是數(shù)據(jù)分析應(yīng)用最廣的行業(yè),其中的電商企業(yè),更是目前最火的,而且企業(yè)也更重視數(shù)據(jù)分析的價(jià)值,是數(shù)據(jù)分析師理想的成長平臺(tái)。
2)其次是咨詢公司(比如專門的數(shù)據(jù)挖掘公司Teradata、尼爾森等市場研究公司),他們需要數(shù)據(jù)分析人才,而且相對來說,數(shù)據(jù)分析師在咨詢公司成長的速度更快,專業(yè)也會(huì)更全面。
3)再次是金融行業(yè),比如銀行和證券等行業(yè),該行業(yè)對數(shù)據(jù)分析的依賴需求,越來越大。
4)最后是電信行業(yè)(中國移動(dòng)、聯(lián)通和電信),它們擁有海量的數(shù)據(jù),在嚴(yán)峻的競爭下,也越來越重視數(shù)據(jù)分析,但進(jìn)入這些公司的門檻比較高。
五、什么人適合學(xué)習(xí)數(shù)據(jù)分析?
這個(gè)問題的答案跟“什么人適合學(xué)功夫”一樣,毫無疑問,功夫是適合任何人學(xué)習(xí)的(排除心術(shù)不正的人),因?yàn)槟軌驈?qiáng)身健體。而功夫的成效,要看習(xí)武者的修煉深淺。常常有人爭論,是詠春拳厲害,還是散打厲害,其實(shí)是顛倒了因果,應(yīng)該看哪個(gè)人練習(xí)得比較好,流派之間沒有高低,只有人修煉的厚薄。
實(shí)際上,問題的潛臺(tái)詞是“什么人學(xué)習(xí)數(shù)據(jù)分析,會(huì)更容易取得成功(比如職業(yè)成功)”,這個(gè)要視乎你的興趣、付出和機(jī)遇。但要做到出類拔萃,除了上面三點(diǎn),還需要一點(diǎn)天賦,這里的機(jī)遇是指你遇到的職業(yè)發(fā)展平臺(tái)、商業(yè)環(huán)境、導(dǎo)師和同事。借用管理大師德魯克的話“管理是可以習(xí)得的”,管理并非是天生的,而數(shù)據(jù)分析能力,也可以后天提升。或許做到優(yōu)秀,只需要你更加的努力+興趣,而這個(gè)努力的過程,也包括你尋找機(jī)遇的部分。
六、關(guān)于如何學(xué)習(xí):
學(xué)習(xí)方法千萬種,關(guān)鍵是找到適合自己的,最好能夠結(jié)合你的工作遇到的問題來學(xué)習(xí)。
1、搜集書籍、案例庫和視頻,先弄懂理論,然后學(xué)會(huì)軟件操作,自己制作屬于自己的教程。
比如,你學(xué)習(xí)聚類分析模型。
1)搜集相關(guān)的聚類分析模型的書籍、案例和教學(xué)視頻,了解聚類分析的原理,主要有哪幾種算法(劃分、層次、密度、網(wǎng)格)、模型適用的范圍和前提、如何評(píng)估模型的精確度等。
2)自己學(xué)會(huì)用軟件來實(shí)現(xiàn)。
3)總結(jié)整理成一份PPT和制作操作視頻,成為自己的學(xué)習(xí)教程,不斷完善。
4)學(xué)習(xí)到一定程度后,可以在博客、微信等渠道分享,授人與漁,而自己也會(huì)有所收獲。
下圖是我自己整理的聚類分析和判別分析的專題
2、關(guān)注名人、名博、網(wǎng)站,多渠道學(xué)習(xí)。
1)關(guān)注專業(yè)的數(shù)據(jù)分析、咨詢公司網(wǎng)站和論壇,特別強(qiáng)調(diào),統(tǒng)計(jì)軟件公司的網(wǎng)站如SPSS的官網(wǎng)有很多案例庫,值得關(guān)注。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10