超詳細(xì)的大數(shù)據(jù)分析師職業(yè)規(guī)劃
最近有不少同學(xué)咨詢(xún)有關(guān)數(shù)據(jù)分析職業(yè)發(fā)展的問(wèn)題,由此可見(jiàn),隨著大數(shù)據(jù)的飛速發(fā)展,數(shù)據(jù)分析職業(yè)也成為很多同學(xué)關(guān)注的目標(biāo)。不要急,這就給大家介紹數(shù)據(jù)分析的職業(yè)發(fā)展。
入門(mén)和職業(yè)規(guī)劃應(yīng)該從兩個(gè)角度考慮:領(lǐng)域和路線。
領(lǐng)域是不少新人常忽略的要素,其實(shí)數(shù)據(jù)分析不會(huì)脫離業(yè)務(wù)存在。你進(jìn)入哪個(gè)行業(yè),很大程度會(huì)決定你初期的技能樹(shù)和技能點(diǎn)。譬如金融領(lǐng)域的風(fēng)控模型、營(yíng)銷(xiāo)領(lǐng)域的生命周期、廣告領(lǐng)域的點(diǎn)擊率預(yù)估等,各有各的特色。
如果是一位應(yīng)屆生,不妨多了解自己感興趣的領(lǐng)域,和專(zhuān)業(yè)相關(guān)是最好的,并且積累相關(guān)的經(jīng)驗(yàn),為面試做準(zhǔn)備。
如果已經(jīng)有一定行業(yè)履歷,只是想要轉(zhuǎn)崗數(shù)據(jù)分析師,那么跨崗不跨行,避免跳到一個(gè)陌生的領(lǐng)域。
領(lǐng)域經(jīng)驗(yàn)太寬泛,我給不了太多的指點(diǎn),主要也就三點(diǎn):1.自己感興趣的,2.自己擅長(zhǎng)的,3.有錢(qián)途的。從職場(chǎng)生涯看,成為某領(lǐng)域的數(shù)據(jù)專(zhuān)家,會(huì)是一個(gè)更好的籌碼。
而路線大致可以劃分成四大方向:數(shù)據(jù)分析,
數(shù)據(jù)挖掘,數(shù)據(jù)產(chǎn)品,數(shù)據(jù)工程。
(一)數(shù)據(jù)分析/數(shù)據(jù)運(yùn)營(yíng)/
商業(yè)分析
這是業(yè)務(wù)方向的數(shù)據(jù)分析師。
絕大部分人,都是從這個(gè)崗位開(kāi)始自己的數(shù)據(jù)之路,也是基數(shù)最大的崗位。
因?yàn)榛鶖?shù)大,所以這類(lèi)崗位通常魚(yú)龍混雜。有些雖然叫數(shù)據(jù)分析師,但是每天只需要和Excel打交道,完成leader布置的表格整理工作就行?;靷€(gè)幾年,成為一位數(shù)據(jù)分析主管,給下面的新人繼續(xù)布置Excel任務(wù)。
都叫數(shù)據(jù)分析師,其實(shí)天差地別。
這里更多指互聯(lián)網(wǎng)行業(yè),偏業(yè)務(wù)的數(shù)據(jù)分析師,一般屬于運(yùn)營(yíng)部門(mén)。不少公司也稱(chēng)數(shù)據(jù)運(yùn)營(yíng)或者
商業(yè)分析。
這類(lèi)崗位的職位描述一般是:
負(fù)責(zé)和支撐各部門(mén)相關(guān)的報(bào)表;
建立和優(yōu)化指標(biāo)體系;
監(jiān)控?cái)?shù)據(jù)的波動(dòng)和異常,找出問(wèn)題;
優(yōu)化和驅(qū)動(dòng)業(yè)務(wù),推動(dòng)數(shù)據(jù)化運(yùn)營(yíng);
找出可增長(zhǎng)的市場(chǎng)或產(chǎn)品優(yōu)化空間;
輸出專(zhuān)題分析報(bào)告;
實(shí)際情況是,不少業(yè)務(wù)端的數(shù)據(jù)分析師,主要工作只做第一點(diǎn)。別管它用匯總、分析、數(shù)據(jù)支持什么修飾詞,基本是跑
SQL,做報(bào)表。硬生生活成了業(yè)務(wù)端的表哥。
這是很常見(jiàn)的情況,也是入門(mén)新人的第一個(gè)坑。因?yàn)閺念^到尾,這類(lèi)分析師,都沒(méi)有解決問(wèn)題。
業(yè)務(wù)部門(mén)往往更關(guān)心,某個(gè)指標(biāo)為什么下跌或者上升。產(chǎn)品的用戶(hù)是什么樣的?怎么能更好的完成自己的KPI。
以活躍指標(biāo)的下跌舉例:
活躍指標(biāo)下跌了多少?是屬于合理的數(shù)據(jù)波動(dòng),還是突發(fā)式?
什么時(shí)候開(kāi)始的下跌?
是整體的活躍用戶(hù)下跌,還是部分用戶(hù)?
為什么下跌?是產(chǎn)品版本,還是運(yùn)營(yíng)失誤?
怎么解決下跌的問(wèn)題
這是一套標(biāo)準(zhǔn)的解決思維。分別對(duì)應(yīng)what、when、who、why、how,每一部分都不是三言?xún)烧Z(yǔ)可以解釋清楚。不要看它簡(jiǎn)單,例如你通過(guò)多維分析,發(fā)現(xiàn)某個(gè)地區(qū)的活躍下跌了,不要急著把它作為分析的結(jié)論,這是不合格的數(shù)據(jù)分析。某地區(qū)的活躍下跌,只是現(xiàn)象,不是原因,把它作為結(jié)論提交,肯定會(huì)被罵的。
你要解決的是,為什么這個(gè)地區(qū)的活躍下跌了。是該地渠道,是該地競(jìng)爭(zhēng)對(duì)手,是該地市場(chǎng)環(huán)境?這些問(wèn)題都是細(xì)化深入的范疇。并且,它們要能以量化解釋?zhuān)皇俏艺J(rèn)為。
做好了這點(diǎn),才是一個(gè)真正的業(yè)務(wù)端的數(shù)據(jù)分析師。
解決問(wèn)題是一方面工作,另外一方面,數(shù)據(jù)分析師的職責(zé)是將業(yè)務(wù)數(shù)據(jù)體系化,建立一套指標(biāo)框架?;钴S下跌的問(wèn)題,本質(zhì)上也是指標(biāo)問(wèn)題。什么時(shí)候開(kāi)始下跌,哪部分下跌,都能轉(zhuǎn)化成對(duì)應(yīng)指標(biāo),如日活躍用戶(hù)數(shù),新老用戶(hù)活躍數(shù),地區(qū)活躍數(shù)。
你不能衡量它,就無(wú)法增長(zhǎng)它,指的就是指標(biāo)體系。指標(biāo)體系可以是業(yè)務(wù)部門(mén)建立,但數(shù)據(jù)分析師也挺合適。一方面他們比
數(shù)據(jù)挖掘這類(lèi)技術(shù)崗位更貼合業(yè)務(wù),一方面不像業(yè)務(wù)崗位對(duì)數(shù)據(jù)抓瞎。
兩者結(jié)合,這崗位也能稱(chēng)為數(shù)據(jù)運(yùn)營(yíng)。
指標(biāo)體系如果工程化自動(dòng)化,也就是BI,所以數(shù)據(jù)分析師可以算半個(gè)BI分析師,這里不包括BI報(bào)表開(kāi)發(fā)。BI如果采購(gòu)第三方,數(shù)據(jù)分析師負(fù)責(zé)BI沒(méi)問(wèn)題,如果自有開(kāi)發(fā),那么BI崗技術(shù)的色彩更濃厚。
數(shù)據(jù)分析思維和業(yè)務(wù)的理解,是分析師賴(lài)以生存的技能。很多時(shí)候,工具是錦上添花的作用。掌握Excel+
SQL/hive,了解描述統(tǒng)計(jì)學(xué),知道常見(jiàn)的可視化表達(dá),足夠完成大部分任務(wù)。
機(jī)器學(xué)習(xí)這類(lèi)能力,對(duì)此類(lèi)數(shù)據(jù)分析師不是必須的,Python也一樣,只是加分項(xiàng)。畢竟為什么下跌,你無(wú)法用
數(shù)據(jù)挖掘解答。
數(shù)據(jù)分析師是一個(gè)基礎(chǔ)崗位,如果專(zhuān)精于業(yè)務(wù),更適合往管理端發(fā)展,單純的工具和技巧很難拉開(kāi)差距。數(shù)據(jù)分析的管理崗,比較常見(jiàn)的有數(shù)據(jù)運(yùn)營(yíng)經(jīng)理/總監(jiān),數(shù)據(jù)分析經(jīng)理等,相對(duì)應(yīng)的能力是能建立指標(biāo)體系,并且解決日常的各類(lèi)「為什么」問(wèn)題。
商業(yè)/市場(chǎng)分析是另外一個(gè)方向,更多見(jiàn)于傳統(tǒng)行業(yè)。你要開(kāi)一家超市,你得考慮哪里開(kāi),這就要考慮居民密度,居民消費(fèi)能力,競(jìng)爭(zhēng)對(duì)手的多寡,步行交通距離,開(kāi)車(chē)交通距離等。這些數(shù)據(jù)是宏觀的大指標(biāo),往往靠搜索和調(diào)研完成,這是和互聯(lián)網(wǎng)數(shù)據(jù)分析師最大的差異。
新人,比較普適的發(fā)展路線是先成為一位數(shù)據(jù)分析師。積累相關(guān)的經(jīng)驗(yàn),在一兩年后,決定往后的發(fā)展,是
數(shù)據(jù)挖掘,還是專(zhuān)精數(shù)據(jù)分析成為管理崗。
這是技術(shù)向的數(shù)據(jù)崗,有些歸類(lèi)在研發(fā)部門(mén),有些則單獨(dú)成立數(shù)據(jù)部門(mén)。
除此之外,還有一個(gè)領(lǐng)域,屬于最優(yōu)化問(wèn)題的運(yùn)籌學(xué)?,F(xiàn)實(shí)中的問(wèn)題往往有很多約束,比如護(hù)士排班,一共有三班(早、中、晚),現(xiàn)在要求每班滿(mǎn)足最低護(hù)士人數(shù),每位護(hù)士盡量不能連班,每位護(hù)士不能連續(xù)工作5天。每位護(hù)士的夜班數(shù)要均衡,每位護(hù)士每月的班數(shù)要均衡…這些問(wèn)題很難用
機(jī)器學(xué)習(xí)的方法完成,而在最優(yōu)化領(lǐng)域,則有遺傳算法、模擬退火算法、蟻群算法等。
實(shí)際的應(yīng)用場(chǎng)景中,如外賣(mài)行業(yè),如何尋找騎手效率最大化的最優(yōu)路徑,同樣屬于最優(yōu)化,也是
數(shù)據(jù)挖掘的工作范疇。
數(shù)據(jù)挖掘工程師,除了掌握算法,同樣需要編程能力去實(shí)現(xiàn),不論R、Python、Scala/Java,至少掌握一種。模型的實(shí)施,往往也要求
Hadoop/Spark的工程實(shí)踐經(jīng)驗(yàn),精通
SQL/
Hive是必須的。
定義問(wèn)題
數(shù)據(jù)抽取
數(shù)據(jù)模型
數(shù)據(jù)驗(yàn)證
迭代優(yōu)化
單看環(huán)節(jié),
數(shù)據(jù)挖掘對(duì)分析能力沒(méi)有業(yè)務(wù)型那么高。這不代表業(yè)務(wù)不重要,尤其在
特征選取方面,對(duì)業(yè)務(wù)的理解很大程度會(huì)影響
特征怎么選取,進(jìn)而影響模型質(zhì)量。用戶(hù)流失是一個(gè)經(jīng)典的考題,如何選取合適的
特征,預(yù)測(cè)用戶(hù)會(huì)否流失,能夠考察對(duì)業(yè)務(wù)是否深刻洞察。
因?yàn)橐蟾撸?a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘的平均薪資高于數(shù)據(jù)分析師。
一個(gè)分工明確的團(tuán)隊(duì),數(shù)據(jù)分析師負(fù)責(zé)將業(yè)務(wù)需求抽象成一個(gè)具體的數(shù)據(jù)假設(shè)或者模型。比如,運(yùn)營(yíng)希望減少用戶(hù)流失,那么設(shè)立一個(gè)流失指標(biāo),現(xiàn)在需要預(yù)測(cè)用戶(hù)流失率的模型。模型可以是數(shù)據(jù)分析師完成,也能是
數(shù)據(jù)挖掘工程師。最終由
數(shù)據(jù)挖掘團(tuán)隊(duì)部署到線上。
在一些公司,高級(jí)數(shù)據(jù)分析師會(huì)等價(jià)于
數(shù)據(jù)挖掘工程師(其實(shí)行業(yè)內(nèi),對(duì)Title并沒(méi)有嚴(yán)格的標(biāo)準(zhǔn)),只是工程能力可以稍弱,模型部署由專(zhuān)門(mén)的工程團(tuán)隊(duì)完成。
數(shù)據(jù)挖掘工程師,往后發(fā)展,稱(chēng)為算法專(zhuān)家。后者對(duì)理論要求更嚴(yán)苛,幾乎都要閱讀國(guó)外的前沿論文。方向不局限于簡(jiǎn)單的分類(lèi)或者回歸,還包括圖像識(shí)別、自然語(yǔ)言處理、智能量化投顧這種復(fù)合領(lǐng)域。這里開(kāi)始會(huì)對(duì)從業(yè)者的學(xué)校和學(xué)歷提出要求,名校+碩士無(wú)疑是一個(gè)大優(yōu)勢(shì),也有很多人直接做
數(shù)據(jù)挖掘。
算法專(zhuān)家和
深度學(xué)習(xí)專(zhuān)家,薪資level會(huì)更高一級(jí),一般對(duì)應(yīng)于業(yè)務(wù)型的數(shù)據(jù)運(yùn)營(yíng)/分析總監(jiān)。
數(shù)據(jù)科學(xué)家是上述崗位的最終形態(tài)之一,要么理論能力非常強(qiáng),往往擔(dān)任研究院的一把手。要么工程能力突出,上述的系統(tǒng)都能完成平臺(tái)化的部署。
(三)數(shù)據(jù)產(chǎn)品經(jīng)理
這個(gè)崗位比較新興,它有兩種理解,一種是具備強(qiáng)數(shù)據(jù)分析能力的PM,一種是公司數(shù)據(jù)產(chǎn)品的規(guī)劃者。
前者,以數(shù)據(jù)導(dǎo)向優(yōu)化和改進(jìn)產(chǎn)品。在產(chǎn)品強(qiáng)勢(shì)的公司,數(shù)據(jù)分析也會(huì)劃歸到產(chǎn)品部門(mén),甚至運(yùn)營(yíng)也屬于產(chǎn)品部。這類(lèi)產(chǎn)品經(jīng)理有更多的機(jī)會(huì)接觸業(yè)務(wù),屬于順便把分析師的活也干了,一專(zhuān)多能的典型。
他們會(huì)運(yùn)用不同的數(shù)據(jù)源,對(duì)用戶(hù)的行為
特征分析和挖掘,達(dá)到改進(jìn)產(chǎn)品。最典型的場(chǎng)景就是AB測(cè)試。大到頁(yè)面布局、路徑規(guī)劃、小到按鈕的顏色和樣式,均可以通過(guò)數(shù)據(jù)指標(biāo)評(píng)估。
俗話(huà)說(shuō),再優(yōu)秀的產(chǎn)品經(jīng)理也跑不過(guò)一半AB測(cè)試。此類(lèi)數(shù)據(jù)產(chǎn)品經(jīng)理,更多是注重?cái)?shù)據(jù)分析能力,擅長(zhǎng)用分析進(jìn)行決策。數(shù)據(jù)是能力的一部分。
后者,是真正意義上的數(shù)據(jù)產(chǎn)品經(jīng)理。在公司邁大邁強(qiáng)后,數(shù)據(jù)量與日俱增,此時(shí)會(huì)有不少數(shù)據(jù)相關(guān)的產(chǎn)品項(xiàng)目:包括大數(shù)據(jù)平臺(tái)、埋點(diǎn)采集系統(tǒng)、BI、
推薦系統(tǒng)、廣告平臺(tái)等。這些當(dāng)然也是產(chǎn)品,自然需要提煉需求、設(shè)計(jì)、規(guī)劃、項(xiàng)目排期,乃至落地。
我們不妨看幾個(gè)數(shù)據(jù)產(chǎn)品經(jīng)理要求:
負(fù)責(zé)大數(shù)據(jù)產(chǎn)品的設(shè)計(jì),輸出需求文檔、產(chǎn)品原型;
負(fù)責(zé)推薦算法的產(chǎn)品策略,完成相關(guān)推薦及個(gè)性化推薦產(chǎn)品的需求分析;
負(fù)責(zé)分析和挖掘用戶(hù)消費(fèi)內(nèi)容的行為數(shù)據(jù),為改進(jìn)算法策略提供依據(jù);
負(fù)責(zé)客戶(hù)端數(shù)據(jù)需求的對(duì)接,制定相關(guān)埋點(diǎn)規(guī)范及口徑,相關(guān)業(yè)務(wù)指標(biāo)驗(yàn)證;
報(bào)表展示工具的落地和應(yīng)用;
和C端注重用戶(hù)體驗(yàn)不同,數(shù)據(jù)產(chǎn)品,更注重整體的分析能力和邏輯。除了產(chǎn)品經(jīng)理最基礎(chǔ)的Axure、Visio、MindManager等工具。往往還需要很多技術(shù)型的能力。比如了解BI/DW原理和實(shí)施、了解常用的推薦算法、了解
機(jī)器學(xué)習(xí)模型等。這也很容易理解,C端要求你了解用戶(hù)需求,而在數(shù)據(jù)端,主要用戶(hù)就是數(shù)據(jù)。
這當(dāng)然不是說(shuō),用戶(hù)體驗(yàn)不重要,拿推薦算法來(lái)說(shuō),除了滿(mǎn)足用戶(hù)最基本的感興趣,也要考慮時(shí)效性,考慮新興趣的挖掘,考慮無(wú)數(shù)據(jù)時(shí)的冷啟動(dòng)問(wèn)題…這些一樣是用戶(hù)體驗(yàn),只是解決方案也得從數(shù)據(jù)出發(fā)。再多思考一步,模型是離線還是實(shí)時(shí),實(shí)時(shí)怎么實(shí)現(xiàn)它?技術(shù)細(xì)則不用多考慮,但你要知道會(huì)有這些坑。后端的數(shù)據(jù)產(chǎn)品,如報(bào)表,用戶(hù)往往是你隔壁工位的小秦或小路,設(shè)計(jì)得丑一點(diǎn)不要緊,要是數(shù)據(jù)指標(biāo)口徑不統(tǒng)一,那才會(huì)分分鐘罵街。
雖然數(shù)據(jù)PM需要熟悉各類(lèi)數(shù)據(jù)模型、指標(biāo)、
數(shù)據(jù)挖掘和數(shù)據(jù)工程的實(shí)現(xiàn),但是聚焦點(diǎn)是把它作為一個(gè)項(xiàng)目去實(shí)現(xiàn),故而不用精通。
數(shù)據(jù)產(chǎn)品經(jīng)理是一個(gè)比較新興的崗位,所以有豐富經(jīng)驗(yàn)的從業(yè)者并不多,我個(gè)人認(rèn)為,還是存在比較大的職業(yè)缺口。當(dāng)然也有其他問(wèn)題,一是因?yàn)樾屡d,部門(mén)負(fù)責(zé)人本身也沒(méi)有想好他們能干什么,不少數(shù)據(jù)PM還從事表哥的工作。二是數(shù)據(jù)產(chǎn)品本身可借鑒的經(jīng)驗(yàn)不多,像APP產(chǎn)品,可以下載體驗(yàn),總歸有一個(gè)學(xué)習(xí)的過(guò)程。然而
用戶(hù)畫(huà)像、BI、算法策略,都是其他公司的內(nèi)部機(jī)密,無(wú)從參考,我就遇到不少對(duì)
用戶(hù)畫(huà)像實(shí)現(xiàn)非常感興趣的數(shù)據(jù)PM。
從職業(yè)發(fā)展上看,數(shù)據(jù)分析師做數(shù)據(jù)產(chǎn)品經(jīng)理更合適。普通的產(chǎn)品經(jīng)理,對(duì)前端、后端的技術(shù)棧尚未熟悉,何況日新月異的數(shù)據(jù)棧。這個(gè)崗位,適合對(duì)數(shù)據(jù)特別感興趣,但是數(shù)理天賦不高的職場(chǎng)人,那么以溝通、項(xiàng)目管理和需求規(guī)劃為能力,也不錯(cuò)。
(四)數(shù)據(jù)工程師
數(shù)據(jù)工程師其實(shí)更偏技術(shù),從職業(yè)道路上看,程序員走這條路更開(kāi)闊。
在很多中小型的公司,一方面數(shù)據(jù)是無(wú)序的、缺失的、原始的,另外一方面各種業(yè)務(wù)報(bào)表又嗷嗷待哺。沒(méi)辦法,分析師只能自己擼起袖子,一個(gè)人當(dāng)三個(gè)人用。兼做
數(shù)據(jù)清洗+
ETL+BI。
經(jīng)歷過(guò)的大概都懂,數(shù)據(jù)分析踏上數(shù)據(jù)工程的不歸路如下:
每天都要從五六張表上join,那么不妨加工成一張中間表;
ETL的依賴(lài)關(guān)系越來(lái)越復(fù)雜,嘗試用kettle/airflow等框架搞定,弄個(gè)DAG美滋滋;
運(yùn)營(yíng)部門(mén)的周報(bào)次次都要這幾個(gè)指標(biāo),看看能否做一個(gè)自動(dòng)化BI;
數(shù)據(jù)量逐日增多,最近T+1的日?qǐng)?bào)需要幾個(gè)小時(shí)完成,研究下查詢(xún)語(yǔ)句的優(yōu)化;
查詢(xún)語(yǔ)句的優(yōu)化空間也不大了,開(kāi)始遷移到
Hadoop/Spark分布式平臺(tái),新技術(shù)棧的學(xué)習(xí);
新平臺(tái),原有的工具也不管用了,某大牛說(shuō)apache上有工具能解決這個(gè)問(wèn)題,于是閱讀文檔;
公司部署了私有化的埋點(diǎn)采集,數(shù)據(jù)缺失比較厲害,業(yè)務(wù)部門(mén)天天罵娘,繼續(xù)埋Flume/
Kafka的坑;
等等…
這也是一個(gè)不錯(cuò)的發(fā)展方向,因?yàn)?a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘需要了解算法/模型,理論知識(shí)要求過(guò)高,不少碩士和博士還過(guò)來(lái)?yè)岋埻耄约翰簧瞄L(zhǎng)容易遇到天花板。選擇更底層的工程實(shí)現(xiàn)和架構(gòu),也是出路,薪資也不會(huì)低于
數(shù)據(jù)挖掘/算法專(zhuān)家。
部分歸屬到技術(shù)部的數(shù)據(jù)分析師,雖然Title叫數(shù)據(jù)分析(其實(shí)應(yīng)該叫數(shù)據(jù)分析開(kāi)發(fā)工程師),很多工作也是圍繞
ETL/DW/BI進(jìn)行,那么這就是標(biāo)準(zhǔn)的數(shù)據(jù)工程路線。
部分公司會(huì)將
機(jī)器學(xué)習(xí)模型的部署和實(shí)現(xiàn)交給數(shù)據(jù)工程團(tuán)隊(duì),這要求數(shù)據(jù)工程師熟悉
sparkMLlib、Mahout此類(lèi)框架。
數(shù)據(jù)工程師,可以從數(shù)據(jù)分析師的
SQL技能,往數(shù)據(jù)的底層收集、存儲(chǔ)、計(jì)算、運(yùn)維拓展。往后發(fā)展則是數(shù)據(jù)總監(jiān)、或者
數(shù)據(jù)架構(gòu)師。因?yàn)閿?shù)據(jù)分析出身,與純技術(shù)棧的程序員比,思考會(huì)更貼合業(yè)務(wù),比如指標(biāo)背后的數(shù)據(jù)模型,但是技術(shù)底子的薄弱需要彌補(bǔ)。
另外,DBA、BI這些傳統(tǒng)的數(shù)據(jù)庫(kù)從業(yè)者,也是能按這條路線進(jìn)階,或者選擇數(shù)據(jù)產(chǎn)品經(jīng)理方向。
(五)總結(jié):
以上四個(gè)崗位就是數(shù)據(jù)分析的發(fā)展方向,它們互有關(guān)聯(lián),如果從整個(gè)架構(gòu)來(lái)看,
我們可以將其劃分為數(shù)據(jù)收集—數(shù)據(jù)加工—數(shù)據(jù)運(yùn)營(yíng)—數(shù)據(jù)觸達(dá)。
數(shù)據(jù)收集負(fù)責(zé)收集各種各樣的原始數(shù)據(jù),比如用戶(hù)何時(shí)何地做了什么事情。它依賴(lài)于埋點(diǎn)采集系統(tǒng),而埋點(diǎn)采集,需要收集什么類(lèi)型數(shù)據(jù),往往由數(shù)據(jù)產(chǎn)品經(jīng)理確定規(guī)范(還是看公司,數(shù)據(jù)運(yùn)營(yíng)和數(shù)據(jù)分析師也能負(fù)責(zé))。
收集上來(lái)的數(shù)據(jù)需要存儲(chǔ),往往因?yàn)楦咄掏铝?,需要保證數(shù)據(jù)和日志的穩(wěn)定性,會(huì)采用Flume+
Kafka,如果有實(shí)時(shí)統(tǒng)計(jì)要求,也得考慮流數(shù)據(jù)。這塊則是數(shù)據(jù)工程的范疇,包括原始數(shù)據(jù)的再加工,
數(shù)據(jù)清洗,都是專(zhuān)門(mén)的數(shù)據(jù)團(tuán)隊(duì)完成。
當(dāng)獲得數(shù)據(jù)后,首先第一點(diǎn)是講各種明細(xì)數(shù)據(jù)加工業(yè)務(wù)指標(biāo),沒(méi)有指標(biāo)不成方圓,這里由數(shù)據(jù)分析師定義的。有了指標(biāo),配合各種數(shù)據(jù)產(chǎn)品輸出,如
用戶(hù)畫(huà)像用戶(hù)標(biāo)簽、BI報(bào)表,這些數(shù)據(jù)產(chǎn)品都由數(shù)據(jù)PM統(tǒng)籌排期…另外一方面,
數(shù)據(jù)挖掘工程師和算法專(zhuān)家則憑各種數(shù)據(jù)建立模型,進(jìn)行實(shí)時(shí)或離線運(yùn)算。
模型可能會(huì)預(yù)測(cè)用戶(hù)會(huì)不會(huì)購(gòu)買(mǎi)某個(gè)商品,可能是做出一系列的推薦,可能是判斷用戶(hù)屬于哪個(gè)類(lèi)型,不一而足。
更上面一層是業(yè)務(wù)相關(guān),數(shù)據(jù)分析師會(huì)監(jiān)控和分析BI上指標(biāo)的波動(dòng)、
數(shù)據(jù)挖掘工程是通過(guò)用戶(hù)反饋數(shù)據(jù),衡量算法的優(yōu)劣、數(shù)據(jù)PM按AB測(cè)試的結(jié)果改進(jìn)產(chǎn)品。數(shù)據(jù)工程師保證系統(tǒng)的穩(wěn)定。
所有層次一環(huán)扣一環(huán),每個(gè)崗位在其中都發(fā)揮特有的作用。數(shù)據(jù)工程偏底層技術(shù),數(shù)據(jù)分析偏上層業(yè)務(wù),
數(shù)據(jù)挖掘和數(shù)據(jù)產(chǎn)品處于中間形態(tài)。不同公司雖然業(yè)務(wù)形態(tài)不一致,架構(gòu)會(huì)有差異,但是職責(zé)不會(huì)
偏差太大。這也是
數(shù)據(jù)分析為什么會(huì)有四個(gè)方向。