
互聯(lián)網(wǎng)數(shù)據(jù)分析能力的養(yǎng)成,你只需要一份七周的提綱
我會按照提綱針對性的增加互聯(lián)網(wǎng)側(cè)的內(nèi)容,比如網(wǎng)站分析,用戶行為序列等。我也不想留于表面,而是系統(tǒng)性講述。比如什么是產(chǎn)品埋點?在獲得埋點數(shù)據(jù)后,怎么利用Python / Pandas的shift ( )函數(shù)將其清洗為用戶行為session,進而計算出用戶在各頁面的停留時間,后續(xù)如何轉(zhuǎn)換成統(tǒng)計寬表,如何以此建立用戶標簽等。
下面是各周的學習概述。
第一周:Excel學習掌握
如果Excel玩的順溜,你可以略過這一周。不過介于我入行時也不會vlookup,所以有必要講下。
重點是了解各種函數(shù),包括但不限于sum,count,sumif,countif,find,if,left/right,時間轉(zhuǎn)換等。
Excel函數(shù)不需要學全,重要的是學會搜索。即如何將遇到的問題在搜索引擎上描述清楚。
我認為掌握vlookup和數(shù)據(jù)透視表足夠,是最具性價比的兩個技巧。
學會vlookup,SQL中的join,Python中的merge很容易理解。
學會數(shù)據(jù)透視表,SQL中的group,Python中的pivot_table也是同理。
這兩個搞定,基本10萬條以內(nèi)的數(shù)據(jù)統(tǒng)計沒啥難度,80%的辦公室白領(lǐng)都能秒殺。
Excel是熟能生巧,多找練習題。還有需要養(yǎng)成好習慣,不要合并單元格,不要過于花哨。表格按照原始數(shù)據(jù)(sheet1)、加工數(shù)據(jù)(sheet2),圖表(sheet3)的類型管理。
下面是為了以后更好的基礎而附加的學習任務:
了解單元格格式,后期的數(shù)據(jù)類型包括各類timestamp,date,string,int,bigint,char,factor,float等。
了解數(shù)組,以及怎么用(excel的數(shù)組挺難用),Python和R也會涉及到 list。
了解函數(shù)和參數(shù),當進階為編程型的數(shù)據(jù)分析師時,會讓你更快的掌握。
了解中文編碼,UTF8和ASCII,包括CSV的delimiter等,以后你會回來感謝我的。
這一周的內(nèi)容我會拆分成兩部分:函數(shù)篇和技巧篇。
這是一道練習題,我給你1000個身份證號碼,告訴我里面有多少男女,各省市人口的分布,這些人的年齡和星座。如果能完成上述過程,那么這一周就直接略過吧。(身份證號碼規(guī)律可以網(wǎng)上搜索)
第二周:數(shù)據(jù)可視化
數(shù)據(jù)分析界有一句經(jīng)典名言,字不如表,表不如圖。數(shù)據(jù)可視化是數(shù)據(jù)分析的主要方向之一。除掉數(shù)據(jù)挖掘這類高級分析,不少數(shù)據(jù)分析就是監(jiān)控數(shù)據(jù)觀察數(shù)據(jù)。
數(shù)據(jù)分析的最終都是要兜售自己的觀點和結(jié)論的。兜售的最好方式就是做出觀點清晰數(shù)據(jù)詳實的PPT給老板看。如果沒人認同分析結(jié)果,那么分析也不會被改進和優(yōu)化,不落地的數(shù)據(jù)分析價值又在哪里?
首先要了解常用的圖表:
Excel的圖表可以100%完成上面的圖形要求,但這只是基礎。后續(xù)的進階可視化,勢必要用到編程繪制。為什么?比如常見的多元分析,你能用Excel很輕松的完成?但是在IPython只需要一行代碼。
其次掌握BI,下圖是微軟的BI。
BI(商業(yè)智能)和圖表的區(qū)別在于BI擅長交互和報表,更擅長解釋已經(jīng)發(fā)生和正在發(fā)生的數(shù)據(jù)。將要發(fā)生的數(shù)據(jù)是數(shù)據(jù)挖掘的方向。
BI的好處在于很大程度解放數(shù)據(jù)分析師的工作,推動全部門的數(shù)據(jù)意識,另外降低其他部門的數(shù)據(jù)需求(萬惡的導數(shù)據(jù))。
BI市面上的產(chǎn)品很多,基本都是建立儀表盤Dashboard,通過維度的聯(lián)動和鉆取,獲得可視化的分析。
最后需要學習可視化和信息圖的制作。
這是安(裝)身(逼)立(加)命(薪)之本。這和數(shù)據(jù)本事沒有多大關(guān)系,更看重審美、解讀、PPT、信息化的能力。但值得花一點時間去學習。
數(shù)據(jù)可視化的學習就是三個過程:
了解數(shù)據(jù)(圖表)
整合數(shù)據(jù)(BI)
展示數(shù)據(jù)(信息化)
第三周:分析思維的訓練
這周輕松一下,學學理論知識。
好的數(shù)據(jù)分析首先要有結(jié)構(gòu)化的思維,也就是我們俗稱的金字塔思維。思維導圖是必備的工具。
之后再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經(jīng)典。
分析也是有框架和方法論的,主要圍繞三個要點展開:
一個業(yè)務沒有指標,則不能增長和分析;
好的指標應該是比率或比例;
好的分析應該對比或關(guān)聯(lián)。
舉一個例子:我告訴你一家超市今天有1000人的客流量,你會怎么分析?
這1000人的數(shù)量,和附近其他超市比是多是少?(對比)
這1000人的數(shù)量比昨天多還是少?(對比)
1000人有多少產(chǎn)生了實際購買?(轉(zhuǎn)化比例)
路過超市,超市外的人流是多少?(轉(zhuǎn)化比例)
這是一個快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結(jié)果。
優(yōu)秀的數(shù)據(jù)分析師會拷問別人的數(shù)據(jù),而他本身的分析也是經(jīng)得起拷問,這就是分析思維能力。需要確切明白的是,一周時間鍛煉不出數(shù)據(jù)思維,只能做到了解。數(shù)據(jù)思維是不斷練習的結(jié)果,我只是盡量縮短這個過程。
第四周:數(shù)據(jù)庫學習
Excel對十萬條以內(nèi)的數(shù)據(jù)處理起來沒有問題,但是互聯(lián)網(wǎng)行業(yè)就是不缺數(shù)據(jù)。但凡產(chǎn)品有一點規(guī)模,數(shù)據(jù)都是百萬起。這時候就需要學習數(shù)據(jù)庫。
越來越多的產(chǎn)品和運營崗位,會在招聘條件中,將會SQL作為優(yōu)先的加分項。
SQL是數(shù)據(jù)分析的核心技能之一,從Excel到SQL絕對是數(shù)據(jù)處理效率的一大進步。
學習圍繞Select展開。增刪改、約束、索引、數(shù)據(jù)庫范式均可以跳過。
主要了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉(zhuǎn)換函數(shù)等。
如果想要跟進一步,可以學習row_number,substr,convert,contact等。另外不同數(shù)據(jù)平臺的函數(shù)會有差異,例如Presto和phpMyAdmin。
再有點追求,就去了解Explain優(yōu)化,了解SQL的工作原理,了解數(shù)據(jù)類型,了解IO。以后就可以和技術(shù)研發(fā)們談笑風生,畢竟將“這里有bug”的說話,換成“這塊的數(shù)據(jù)死鎖了”,逼格大大的不同。
SQL的學習主要是多練,網(wǎng)上尋找相關(guān)的練習題,刷一遍就差不多了。
第五周:統(tǒng)計知識學習
很遺憾,統(tǒng)計知識也是我薄弱的地方,可這是數(shù)據(jù)分析的基礎。
我看過很多產(chǎn)品和運營相關(guān)的數(shù)據(jù)分析文章,沒有多少提及統(tǒng)計知識。這是不嚴謹?shù)摹?/span>
比如產(chǎn)品的AB測試,如果產(chǎn)品經(jīng)理并不清楚置信度的含義和概念,那么好的效果并不意味著真正的好。尤其是5%這種非顯著的提高。
比如運營一次活動,運營若不了解檢驗相關(guān)的概念,那么如何去判別活動在數(shù)據(jù)上是有效果還是沒有效果?別說平均數(shù)。
再討論一下經(jīng)典的概率問題,如果一個人獲流感,實驗結(jié)果為陽性的概率為90%;如果沒有獲流感,實驗結(jié)果為陽性的概率為9%。現(xiàn)在這個人檢驗結(jié)果為陽性,他有多少幾率是得了流感?
如果你覺得幾率有50%、60%、70%等等,那么都犯了直覺性的錯誤。它還和得病的基礎概率有關(guān)。
統(tǒng)計知識會教我們以另一個角度看待數(shù)據(jù)。如果大家了解過《統(tǒng)計數(shù)據(jù)會撒謊》,那么就知道很多數(shù)據(jù)分析的決策并不牢靠。
我們需要花一周的時間掌握描述性統(tǒng)計,包括均值、中位數(shù)、標準差、方差、概率、假設檢驗、顯著性、總體和抽樣等概念。
不需要學習更高階的統(tǒng)計知識,誰讓我們是速成呢。只要做到不會被數(shù)據(jù)欺騙,不犯錯誤就好。
以Excel的分析工具庫舉例(圖片網(wǎng)上找來)。在初級的統(tǒng)計學習中,需要了解列1的各名詞含義,而不是停留在平均數(shù)這個基礎上。
第六周:業(yè)務知識(用戶行為、產(chǎn)品、運營)
這一周需要了解業(yè)務。對于數(shù)據(jù)分析師來說,業(yè)務的了解比數(shù)據(jù)方法論更重要。當然很遺憾,業(yè)務學習沒有捷徑。
我舉一個數(shù)據(jù)沙龍上的例子,一家O2O配送公司發(fā)現(xiàn)在重慶地區(qū),外賣員的送貨效率低于其他城市,導致用戶的好評率降低??偛康臄?shù)據(jù)分析師建立了各個指標去分析原因,都沒有找出來問題。后來在訪談中發(fā)覺,因為重慶是山城,路面高低落差比較夸張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。
這個案例中,我們只知道送貨員的送貨水平距離,即POI數(shù)據(jù),根本不可能知道垂直距離的數(shù)據(jù)。這就是數(shù)據(jù)的局限,也是只會看數(shù)據(jù)的分析師和接地氣分析師的最大差異。
對業(yè)務市場的了解是數(shù)據(jù)分析在工作經(jīng)驗上最大的優(yōu)勢之一。不同行業(yè)領(lǐng)域的業(yè)務知識都不一樣,我就不獻丑了。在互聯(lián)網(wǎng)行業(yè),有幾個寬泛的業(yè)務數(shù)據(jù)需要了解。
產(chǎn)品數(shù)據(jù)分析,以經(jīng)典的AAARR框架學習,了解活躍留存的指標和概念(這些內(nèi)容,我的歷史文章已經(jīng)涉及了部分)。
并且數(shù)據(jù)分析師需要知道如何用SQL計算。因為在實際的分析過程中,留存只是一個指標,通過userId 關(guān)聯(lián)和拆分才是常見的分析策略。
網(wǎng)站數(shù)據(jù)分析,可以抽象吃一個哲學問題:
用戶從哪里來(SEO/SEM),用戶到哪里去(訪問路徑),用戶是誰(用戶畫像/用戶行為路徑)。
雖然網(wǎng)站已經(jīng)不是互聯(lián)網(wǎng)的主流,但現(xiàn)在有很多APP+Web的復合框架,朋友圈的傳播活動肯定需要用到網(wǎng)頁的指標去分析。
用戶數(shù)據(jù)分析,這是數(shù)據(jù)化運營的一種應用。
在產(chǎn)品早期,可以通過埋點計算轉(zhuǎn)化率,利用AB測試達到快速迭代的目的,在積累到用戶量的后期,利用埋點去分析用戶行為,并且以此建立用戶分層用戶畫像等。
例如用貝葉斯算法計算用戶的性別概率,用K聚類算法劃分用戶的群體,用行為數(shù)據(jù)作為特征建立響應模型等。不過快速入門不需要掌握這些,只需要有一個大概的框架概念。
除了業(yè)務知識,業(yè)務層面的溝通也很重要。在業(yè)務線足夠長的時候,我不止一次遇到產(chǎn)品和運營沒有掌握所有的業(yè)務要點,尤其涉及跨部門的分析。良好的業(yè)務溝通能力是數(shù)據(jù)分析的基礎能力。
第七周:Python/R 學習
終于到第七周,也是最痛苦的一周。這時應該學習編程技巧。
是否具備編程能力,是初級數(shù)據(jù)分析和高級數(shù)據(jù)分析的風水嶺。數(shù)據(jù)挖掘,爬蟲,可視化報表都需要用到編程能力(例如上文的多元散點圖)。掌握一門優(yōu)秀的編程語言,可以讓數(shù)據(jù)分析師事半功倍,升職加薪,迎娶白富美。
以時下最熱門的R語言和Python為學習支線,速成只要學習一條。
我剛好兩類都學過。R的優(yōu)點是統(tǒng)計學家編寫的,缺點也是統(tǒng)計學家編寫。如果是各類統(tǒng)計函數(shù)的調(diào)用,繪圖,分析的前驗性論證,R無疑有優(yōu)勢。但是大數(shù)據(jù)量的處理力有不逮,學習曲線比較陡峭。Python則是萬能的膠水語言,適用性強,可以將各類分析的過程腳本化。Pandas,SKLearn等各包也已經(jīng)追平R。
學習R,需要了解數(shù)據(jù)結(jié)構(gòu)(matrix,array,data.frame,list等)、數(shù)據(jù)讀取,圖形繪制( ggplot2)、數(shù)據(jù)操作、統(tǒng)計函數(shù)(mean,median,sd,var,scale等)。高階的統(tǒng)計暫時不用去涉及,這是后續(xù)的學習任務。
R語言的開發(fā)環(huán)境建議用RStudio。
學習Python有很多分支,我們專注數(shù)據(jù)分析這塊。需要了解調(diào)用包、函數(shù)、數(shù)據(jù)類型(list,tuple,dict),條件判斷,迭代等。高階的Numpy和Pandas在有精力的情況下涉及。
Python的開發(fā)環(huán)境建議Anaconda,可以規(guī)避掉環(huán)境變量、包安裝等大部分新手問題。Mac自帶Python2.7,但現(xiàn)在Python 3已經(jīng)比幾年前成熟,沒有編碼問題,就不要抱成守舊了。
對于沒有技術(shù)基礎的運營和產(chǎn)品,第七周最吃力,雖然SQL+Excel足夠應付入門級數(shù)據(jù)分析,但是涉及到循環(huán)迭代、多元圖表的分析部分,復雜度就呈幾何上升。更遑論數(shù)據(jù)挖掘這種高階玩法。
我也相信,未來了解數(shù)據(jù)挖掘的產(chǎn)品和運營會有極強的競爭力。
到這里,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會貫通,畢竟這只是目的性極強的速成,是開始,而不是數(shù)據(jù)分析的畢業(yè)典禮。
如果希望數(shù)據(jù)分析能力更近一步,或者成為優(yōu)秀的數(shù)據(jù)分析師,每一周的內(nèi)容都能繼續(xù)學習至精通。實際上,業(yè)務知識、統(tǒng)計知識僅靠兩周是非常不牢固的。
再往后的學習,會有許多分支。比如偏策劃的數(shù)據(jù)產(chǎn)品經(jīng)理,比如偏統(tǒng)計的機器學習,比如偏商業(yè)的市場分析師,比如偏工程的大數(shù)據(jù)工程師。這是后話了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03