
數(shù)據(jù)分析到底是什么?很多人都在嘴邊討論它們,卻沒有幾個人真正見過它。這是當下科技行業(yè)最為火爆的職位,今天就讓我們走進 Twitter 的數(shù)據(jù)分析世界,看看科技公司對于一個數(shù)據(jù)分析師的要求是什么?他們的實際工作內(nèi)容究竟是哪些?
到了今年 6 月 17 日,Robert Chang 就在 Twitter 工作兩年了。根據(jù)他個人的工作經(jīng)歷,Twitter 數(shù)據(jù)分析(以下簡稱為 DS)有了下面三個層面的變化:
1. 機器學習已經(jīng)在 Twitter 多個核心產(chǎn)品中扮演越來越重要的角色,而這之前完全是「機器學習」的禁區(qū)。最典型的例子就是「當你離開時」這個功能。當用戶離開頁面或者電腦,去干別的事情后再次返回頁面,電腦會立刻給你推送出來某些由你關(guān)注的人所發(fā)出,而有可能被你錯過的「優(yōu)質(zhì)內(nèi)容」。
2. 開發(fā)工具越來越優(yōu)秀了。整個團隊擺脫了對 Pig 的依賴,全新的數(shù)據(jù)管道是在 Scalding 中寫出來的。
3. 從團隊組織上而言,Twitter 已經(jīng)轉(zhuǎn)向了一個嵌入式的模型中。其中數(shù)據(jù)分析比以往更加緊密地與產(chǎn)品/工程團隊發(fā)生著聯(lián)系。
在 Twitter 的工作確實是令人興奮的,因為你能站在這個平臺上,引領(lǐng)目前世界最前沿的數(shù)據(jù)科技,打造最具競爭力的優(yōu)勢。而同時,人們對于大數(shù)據(jù)的渴望也一天比一天高。
Dan Ariely 曾經(jīng)有一句話說得特別好:
「大數(shù)據(jù)其實有點兒像青少年的性。每一個人都興致勃勃地談論它,但是沒有任何一個人真的知道該怎么做。每一個人都覺得身邊的人都在嘗試,為了不落人后,于是每個人都在外面宣城自己也已經(jīng)有『伴兒』了」
現(xiàn)如今,有太多的人在如何成為一名優(yōu)秀稱職的數(shù)據(jù)分析師上表達著看法,給出自己的建議。Robert Chang 毫無疑問也是受益者。但是他回過頭來再想想大家的討論,會覺得人們往往更加側(cè)重于去談「技術(shù)」、「工具」、「技能組合」,而在 Chang 看來,那些東西確實很重要,但是讓新人們知道數(shù)據(jù)分析師每一天的生活到底是什么樣子的,具體的工作內(nèi)容都是什么,這也非常重要。
于是,Chang 憑借著自己在 Twitter 工作兩年的經(jīng)歷,以自己作為例子,首次打開 Twitter 數(shù)據(jù)分析師這扇神秘的大門。
A 型數(shù)據(jù)分析師 VS B 型數(shù)據(jù)分析師
Chang 在沒來 Twitter 之前,總覺得數(shù)據(jù)分析師一定是在任何領(lǐng)域都能看堪稱「獨角獸」,不管是數(shù)據(jù)還是數(shù)學專業(yè),都是頂尖人才。除了技術(shù)上很牛之外,書面寫作和口頭交流的能力也會特別強。更重要的是他們能夠分清楚當下工作的輕重緩急,領(lǐng)導和管理一個項目團隊。是啊,如今本身就是以數(shù)據(jù)為主導的文化,作為「數(shù)據(jù)分析師」,當然要給這個文化注入靈魂與活力啊!
在 Chang 加入 Twitter 的幾個月后,他逐漸意識到:符合上述形容的「獨角獸」確實存在,但是對于大部分人來說,上述的要求未免有點兒太不切實際了。人們沒有辦法做到面面俱到。后來,Chang 通過 Quora 中的一篇回答,更深刻地理解了數(shù)據(jù)分析師的角色。在那篇文章中,數(shù)據(jù)分析師分成了兩種類型:
A 型數(shù)據(jù)分析師: 他們主要負責「分析」。他們最關(guān)心數(shù)據(jù)背后的意義,往往使用統(tǒng)計等方式探知真相。其實他們的工作有點兒像「統(tǒng)計學家」,但是不一樣的地方是,統(tǒng)計學專業(yè)涉及的內(nèi)容他們統(tǒng)統(tǒng)掌握,但是他們還會一些統(tǒng)計學課本里面壓根不曾出現(xiàn)的內(nèi)容:比如數(shù)據(jù)清洗,如何處理超大數(shù)據(jù)組,數(shù)據(jù)視覺化,有關(guān)數(shù)據(jù)層面的報告撰寫等等。
B 型數(shù)據(jù)分析師:B 型負責「建造」。他們跟前一種分析師有著相似的統(tǒng)計學背景,但他們同時還是非常牛叉的程序員,又或者是訓練有素的軟件工程師。B 型數(shù)據(jù)分析師往往感興趣于「如何利用數(shù)據(jù)來生產(chǎn)」。他們建立一些能夠與用戶互動的模型,往往以「推薦/推送」的形式出現(xiàn),比如「你也許會認識的人」,「廣告」,「電影」,「搜索結(jié)果」等等功能。
Chang 看到這樣清楚的劃分,非常后悔如果早幾年有這么清楚的概念認識該多好啊。這樣他就能夠有選擇性的發(fā)力,擇其一方向來繼續(xù)發(fā)展。這是數(shù)據(jù)分析師職場規(guī)劃首先要考慮的標準。
Chang 的個人專業(yè)背景是「數(shù)學」、「運營研究」、「統(tǒng)計學」。所以他更傾向于把自己定位于 A 型數(shù)據(jù)分析師,但是與此同時他對 B 型分析師能夠涉及那么多的工程開發(fā)工作而向往不已。
初創(chuàng)公司早期、快速發(fā)展的初創(chuàng)公司、以及實現(xiàn)規(guī)模化發(fā)展的初創(chuàng)公司中的數(shù)據(jù)分析師職位區(qū)別
在選擇投身于科技行業(yè)的時候,最經(jīng)常遇到的一個問題就是到底是加入一個大的科技公司好呢?還是加入一個小的科技公司好。在這個話題上已經(jīng)有很多爭論了,但是在「數(shù)據(jù)分析」上面的爭論并不是很多。所以在本章節(jié)要具體談到的是,不同公司的規(guī)模、發(fā)展階段中,數(shù)據(jù)分析師不同的角色定位。
處于不同發(fā)展階段的科技公司生產(chǎn)數(shù)據(jù)的量與速度都是不一樣的。一個還在嘗試著尋找到「產(chǎn)品市場契合點」的初創(chuàng)公司完全不需要 Hadoop,因為公司本身就不存在多少的數(shù)據(jù)需要處理;而一個處在快速發(fā)展中的初創(chuàng)公司往往會遭遇更頻密的數(shù)據(jù)沖擊,也許 PostgreSQL 或者 Vertica 更適合這家公司的需要;而像 Twitter 這樣的公司如果不借助 Hadoop 或者 Map-Reduce 框架,就完全無法有效地處理所有數(shù)據(jù)。
Chang 在 Twitter 學到的最有價值的一點內(nèi)容就是:數(shù)據(jù)分析師從數(shù)據(jù)中提取出價值的能力,往往跟公司本身數(shù)據(jù)平臺的成熟度有著密不可分的關(guān)系。如果你想要明白自己從事的是哪種類型的數(shù)據(jù)分析工作,首先去做做調(diào)研,看看你意向中的這家公司的底層系統(tǒng)架構(gòu)能夠在多大程度上支持你的目標,這不僅僅對你好,也對公司好,借此看你個人的職業(yè)發(fā)展目標是否跟公司的需要契合起來。
在初創(chuàng)公司早期,最主要的分析重點是為了實現(xiàn) ETL 進程,模塊化數(shù)據(jù),并且設(shè)計基模架構(gòu),將數(shù)據(jù)記錄應用到上面。這樣數(shù)據(jù)就能夠追蹤并存儲。此處的目標是打下分析工具的基礎(chǔ),而不是分析本身。
在快速發(fā)展的初創(chuàng)公司的中期,因為公司在快速發(fā)展,那么數(shù)據(jù)也在不斷的增長。數(shù)據(jù)平臺需要適應不斷發(fā)展的新形勢,新條件,在已經(jīng)打好基礎(chǔ)的前提下,開始逐漸實現(xiàn)向分析領(lǐng)域的過渡。一般來說,此時的分析工作主要圍繞著制定 KPI,推動增長,尋找下一次增長機會等工作展開。
實現(xiàn)了規(guī)模增長的公司。當公司實現(xiàn)了規(guī)?;鲩L,數(shù)據(jù)也開始呈幾何倍數(shù)的增長。此時公司需要利用數(shù)據(jù)來創(chuàng)造,或者保持某種競爭性優(yōu)勢,比如更好的搜索結(jié)果,更加相關(guān)的推薦內(nèi)容,物流或者運營更加的高效合理。這個時候,諸如 ML 工程師,優(yōu)化專家,實驗設(shè)計師都可以參與進來一展拳腳了。
在 Chang 加入 Twitter 的時候,Twitter 已經(jīng)有了非常成熟的平臺以及非常穩(wěn)定的底層結(jié)構(gòu)。整個數(shù)據(jù)庫內(nèi)容都是非常干凈,可靠的。ETL 進程每天輕松處理著數(shù)百個「任務調(diào)度」工作。(Map-Reduce)。更重要的是,在數(shù)據(jù)分析領(lǐng)域的人才都在數(shù)據(jù)平臺、產(chǎn)品分析、用戶增長、實驗研究等多個領(lǐng)域,多個重點工作齊頭并進一起展開。
關(guān)于 Chang 本人的經(jīng)歷
他是在用戶增長領(lǐng)域安排的第一名專職數(shù)據(jù)分析師。事實上,這花了他們好幾個月來研究產(chǎn)品、工程、還有數(shù)據(jù)分析到底該如何融合,才能實現(xiàn)這樣一個崗位角色。Chang 的工作與產(chǎn)品團隊緊密連接,根據(jù)這方面的工作經(jīng)驗,他將自己的工作職責劃分成為了下面幾類內(nèi)容:
數(shù)據(jù)傳輸通道
實驗(A/B 測試)
建模
下面將會按照排列次序逐一解釋
對于一家消費級科技公司來說,產(chǎn)品分析意味著利用數(shù)據(jù)來更好地理解用戶的聲音和偏好。不管什么時候用戶與產(chǎn)品進行著互動,Twitter 都會記錄下來最有用的數(shù)據(jù),存儲好它們,以待未來某一天分析之用。
這個過程被稱之為「記錄」(logging)或者「工具化」(instrumentation),而且它還不斷地自我演進。通常情況下,數(shù)據(jù)分析往往很難實現(xiàn)某個具體的分析,因為數(shù)據(jù)要么是不太對,要么是缺失,要么是格式錯誤的。在這里,跟工程師保持非常好的關(guān)系非常有必要,因為數(shù)據(jù)分析能夠幫助工程師確認 bug 的位置,或者系統(tǒng)中一些非預期的行為。反過來,工程師可以幫助數(shù)據(jù)分析彌補「數(shù)據(jù)鴻溝」,使得數(shù)據(jù)內(nèi)容變得豐富,彼此相關(guān),更加準確。
下面舉出來了 Chang 在 Twitter 展開的幾項與產(chǎn)品有關(guān)的分析案例:
推送通知分析:有多少用戶能用得到「推送通知」?不同類型的推送通知具體的點擊率都分別是多少?
SMS 發(fā)送率:在不同的數(shù)字載體上,Twitter 的 SMS 發(fā)送率都是怎么計算的?是不是在發(fā)展中國家這個發(fā)送率相對比較低?我們該怎樣提升這個數(shù)字?
多賬戶:為什么在某些國家,一個人持有多個賬戶的比例會相對較高?背后是什么動機讓一個人持有多個賬戶?
分析會以多種形式展開。有些時候公司會要求你對一次簡單的數(shù)據(jù)拉取進行最直白的解讀,又或者你需要想出一些新的方式方法來機選一個全新,且重要的運營指標。(比如 SMS 發(fā)送率),最后你會更加深刻地理解用戶的行為。(比如一個人擁有多個賬戶)
在產(chǎn)品分析中不斷研究,得到真知灼見,這是一個不斷迭代演進的過程。它需要不斷地提出問題,不斷地理解商業(yè)情境,找出最正確的數(shù)據(jù)組來回答相應的問題。隨著時間的累積,你將成為數(shù)據(jù)領(lǐng)域的專家,你會正確地估計出來執(zhí)行一次分析大概得花多長時間。更重要的是,你將逐漸從一個被動響應的狀態(tài),逐漸過渡到主動采取行動的狀態(tài),這其中會牽連出來很多有趣的分析,這些內(nèi)容都是產(chǎn)品負責人曾經(jīng)壓根沒有考慮過的,因為他們不知道這些數(shù)據(jù)存在,又或者不同類型的數(shù)據(jù)以某種特殊的方式組合到一起竟然會得出如此驚人的結(jié)論。
此處需要的技能:
保存和工具化:確認數(shù)據(jù)鴻溝。與工程部門建立良好的協(xié)作關(guān)系;
有能力引導和確認相關(guān)的數(shù)據(jù)組,知道正確使用它們的方式;
理解不同形式的分析,能夠在不同的分析執(zhí)行之前就正確地估算出難易程度,所需時間長短;
掌握你的查詢語言。一般來說是利用 R 或者 Python 來實現(xiàn)數(shù)據(jù)再加工;
數(shù)據(jù)管道
即使 A 型數(shù)據(jù)分析師不太可能自己編寫代碼,直接應用到用戶那里,但是出乎很多人意料的是,包括 Chang 在內(nèi)的很多 A 型數(shù)據(jù)分析師確實在給代碼庫寫東西,目的只有一個:為了數(shù)據(jù)管道處理。
如果你從 Unix 那里聽說過「對一系列命令的執(zhí)行」,那么一個數(shù)據(jù)管道就意味著多個系列命令的執(zhí)行,我們能夠不斷周而復始地自動捕捉,篩選,集合數(shù)據(jù)。
在來到 Twitter 之前,Chang 的分析絕大部分都是點對點的。在 Chang 的本地機器上,代碼執(zhí)行上一次或者幾次。這些代碼很少得到審查,也不太可能實現(xiàn)版本控制。但是當一個數(shù)據(jù)通道出現(xiàn)的時候,一系列的功能就浮出水面:比如「依賴管理」、「調(diào)度」、「源頭分配」、「監(jiān)控」、「錯誤報告」以及「警告」。
下面介紹了創(chuàng)建一個數(shù)據(jù)管道的標準流程:
你忽然意識到,如果一個數(shù)據(jù)組能夠周而復始地自我重新產(chǎn)出,那么這個世界估計會因此受益;
在確認了需求之后,你開始設(shè)計「生產(chǎn)數(shù)據(jù)組」的「數(shù)據(jù)架構(gòu)」;
開始編寫你的代碼,不管是在 Pig,Scalding,或者 SQL 中。這取決于你的數(shù)據(jù)環(huán)境是什么;
提交代碼,進行代碼審查(code review),準備后得到回饋,并做相應額外的修改。要么是因為你的設(shè)計邏輯不太對,要么是你的代碼出于速度和效率的目的并沒有優(yōu)化到位;
應該有一個「測試」和「試運轉(zhuǎn)」的環(huán)境,確保所有的運行都在既定的軌道上。
將你的代碼融合到主庫中
建立「監(jiān)控」、「錯誤報告」以及「警告」等功能,以防止未來出現(xiàn)預期之外的狀況。
很顯然,數(shù)據(jù)通道比一個點對點的分析工具來說更加復雜,但是優(yōu)勢也非常明顯,因為它是自動化運行著的,它所產(chǎn)出的數(shù)據(jù)能夠進一步強化面板,這樣更多的用戶能夠消費你的數(shù)據(jù)/結(jié)果。
另外,更加重要但是往往被人忽略的一點結(jié)果是,對于如何打造最優(yōu)化的工程設(shè)計,這是一個非常棒的學習過程。如果你在日后需要開發(fā)一個特別定制的數(shù)據(jù)通道,比如機器學習,之前所做的工作就成為了扎實的基礎(chǔ)。
在此處需要用到的技能:
版本控制,目前最流行的就是 Git;
知道如何去做「代碼審核」,并且知道如何有效地給予反饋;
知道如何去測試,如何去試運行,當出現(xiàn)錯誤的時候知道如何「debug」;
「依賴管理,調(diào)度,資源分配,錯誤報告,警告」功能的設(shè)置。
實驗(A/B 測試)
此時此刻,非常有可能你現(xiàn)在使用的 Twitter App 跟我手機上裝的 App 是有一點小小的不同的,并且很有可能你在用著一個我壓根沒有見到過的功能。鑒于 Twitter 的用戶很多,它可以將其中很小的一部分流量(百分之幾)導入到一次實驗中,去測試這個尚未全面公開的功能,去了解這些被選中的用戶如何跟這個全新的功能互動,他們的反響跟那些沒有見到這個功能的用戶進行對比。
這就是 A/B 測試,去讓我們方便測試各種變量,通過 A 和 B 到底哪個方案更好。
Chang 個人的看法是:為一些較大的科技公司做事,能夠享受到的一點優(yōu)勢,就是能夠從事開發(fā)和掌握業(yè)界最神秘的技能:「A/B 測試」。作為一名稱職的數(shù)據(jù)分析師,你必須利用可控制的實驗,在其中進行隨機測試,得到某種確定的因果關(guān)系。而根據(jù) Twitter 負責工程部分 A/B 測試的副總 Alex Roetter 的話來說,「Twitter 的任何一天中,都不可能在沒有做一次實驗的前提下就草率放出某個功能。」A/B 測試就是 Twitter 的 DNA,以及產(chǎn)品開發(fā)模式的基礎(chǔ)。
A/B 測試的循環(huán)周期是這樣的:取樣-> 分組->分別對待-> 評估結(jié)果-> 作出對比。這聽上去是不是覺得挺簡單的?其實事實完全相反。A/B 測試應該是天底下最難操作的分析之一,也是最容易被人低估難度的一項工作。這方面的知識基本上學校是不教的。為了更好的闡述觀點,分了下面五點內(nèi)容,分別是五個階段,其中一些部分有可能是你從事 A/B 測試時會遇到的一些困難和挑戰(zhàn)。
取樣— 我們需要多少的樣本?每一組分多少個用戶?我們是否能夠讓實驗具有足夠的可信度和說服力?
分組— 哪些人適用于出現(xiàn)在這次實驗中?我們從代碼的哪一處開始起手,分出兩個版本?是否會出現(xiàn)數(shù)據(jù)稀釋的情況?(數(shù)據(jù)稀釋的意思就是,有些用戶被納入到了新改動的版本測試中,但是實際上他們卻壓根不打開這個 App,見不到這個新變動的功能。)
區(qū)別對待-整個公司中是否還有其他的團隊在做其他的測試,瞄準的用戶是否跟此時我們鎖定的用戶群發(fā)生重疊?我們該怎樣應對「測試沖突」這種情況,保證我們的數(shù)據(jù)沒有被「污染」?
評估結(jié)果-測試的假設(shè)前提是什么?實驗成功或者失敗的指標是哪些?我們是否能做到有效的追蹤?我們是否要增加一些其他方面的數(shù)據(jù)存儲?
做出比較-假設(shè)某個條件下的用戶數(shù)量發(fā)生了激增,它是不是因為其他的一些因素?我們是如何確保這些統(tǒng)計具有實際的意義?就算具有實際的意義,這個意義對于下面的產(chǎn)品改良又具有多大的指導作用?
不管回答上述的哪一個問題,都需要對統(tǒng)計學很好的掌握才能辦到。就算你一個人能力很強,但是團隊其他同事還是有可能給這個 A/B 實驗添亂子。
一個產(chǎn)品經(jīng)理有可能特別心急,沒等試驗結(jié)束就要偷窺數(shù)據(jù),又或者想當然地,按照他們想象的方式挑選自己想要的結(jié)論。(這是人性,別怪他們)。一個工程師有可能忘記存儲某個特殊的信息,又或者錯誤的寫出測試用的代碼,實驗結(jié)果出現(xiàn)了非常離譜的偏差。
作為數(shù)據(jù)分析師,這個時候不得不對自己和他人嚴厲一些,讓整個團隊都能高效、準確地運轉(zhuǎn),在實驗的每一個細節(jié)上面都不能有任何的差池。時間浪費在一次徒勞無功,設(shè)計錯誤的實驗中,這些時間是找不回來的。甚至還會出現(xiàn)更糟糕的情況,依據(jù)一次錯誤的實驗結(jié)論形成錯誤的決策,最終給整個產(chǎn)品帶來極大的風險。
在此處所需要用到的技能:
假設(shè)條件測試: 統(tǒng)計學測試,統(tǒng)計數(shù)據(jù)可信度,多重測試。
測試中有可能出現(xiàn)的偏差: 按照自己想要的結(jié)果去推斷結(jié)論,延滯效應,數(shù)據(jù)稀釋,分組異常
預測型建模以及機器學習
Chang 在 Twitter 負責開發(fā)的第一個重大項目是將一組「疲勞標準」添加到 Twitter 目前的郵件通知產(chǎn)品中,這樣能夠降低郵箱過濾機制將 Twitter 的信息視為垃圾信息的概率,從而實現(xiàn)讓用戶更頻繁在收件箱中看到 Twitter 發(fā)來的電子郵件。
盡管郵件過濾機制不失為使一次偉大的發(fā)明,但是郵件通知也確實是提升客戶留存率的特別有效的辦法之一。(這個結(jié)論是 Twitter 曾經(jīng)做的一次實驗中無疑中發(fā)現(xiàn)的)。所以,Chang 的目標就是在這其中取得平衡。
在基于上述的觀察和思考之后,Chang 想到了一個點子:觸發(fā)式的郵件發(fā)送機制。也就是只有在用戶與產(chǎn)品之間發(fā)生了某種互動的情況下,這封郵件才會發(fā)送到用戶的電子郵箱。作為剛剛加入團隊的數(shù)據(jù)分析師,Chang 特別想要通過這個項目來證明自己的價值,于是決定利用非常棒的機器語言模型來預測電子郵件的 CTR(點擊率)。他將一大堆用戶級別的功能集合在 Pig 工具中,并建立了一個隨機預測模型來預測郵件點擊。這背后的想法是,如果用戶在過去很長一段時間內(nèi)都對電子郵件有著低點擊率,那么 Twitter 就會保留這封郵件,不再給他發(fā)送。
上述的想法都很好,但是只有一個問題,所有的工作都是放在本地機器的 R 中處理的。人們都很贊賞 Chang 的工作成果,但是他們不知道如何利用這個模型,因為它是無法進一步轉(zhuǎn)化成產(chǎn)品的。Twitter 的系統(tǒng)底層是無法與 Chang 的本地模型展開對話的。
這一課帶來的教訓讓 Chang 終生難忘。
一年之后,Chang 和增長團隊中的兩個人共同捕捉到了一個全新的機會,能夠打造一個用戶流失率預測模型。這一次,Chang 已經(jīng)在開發(fā)數(shù)據(jù)管道上有了非常充足的經(jīng)驗。這一次他們做的非常好,模型能夠針對每一個用戶自動的生成一個用戶流失概率!
幾個星期之后,他們開發(fā)了數(shù)據(jù)管道,并且確認它真的具有很有效的預測能力,他們通過將分數(shù)寫入到 Vertica,HDFS,以及 Twitter 內(nèi)部一個稱之為「曼哈頓」的關(guān)鍵價值商店。這樣大家都知道了它的存在。公司無數(shù)分析師,數(shù)據(jù)分析師,工程服務部門都過來試用,進行查詢,幫其宣傳,評價非常好。這是 Chang 在 Twitter 最值得驕傲的一件事,真正把預測模型納入到了產(chǎn)品當中。
Chang 認為絕大部分杰出的數(shù)據(jù)分析師,尤其是 A 型的數(shù)據(jù)分析師都存在這樣一個問題,他們知道怎樣去建模,但是卻不知道怎樣把這些模型嵌入到產(chǎn)品系統(tǒng)當中。Chang 的建議是好好跟 B 型數(shù)據(jù)分析師聊聊吧,他們在這個話題上有著足夠豐富的經(jīng)驗,發(fā)現(xiàn) A 型和 B 型數(shù)據(jù)分析師職能重合的那一部分,想想接下來需要的一些技能組合是什么,這樣才能讓自己在數(shù)據(jù)分析師的道路上走的更深更遠,更加寬廣。
「機器學習并不等同于 R 腳本。機器學習起源于數(shù)學,表達在代碼中,最后組裝在軟件中。你需要是一名軟件工程師,同時需要寫一點可讀的,重復使用的代碼。你的代碼將被更多人重新讀取無數(shù)次-來自 Ian Wong 在哥倫比亞數(shù)據(jù)學課堂上的講座節(jié)選。
在這里所用到的技能:
模式確認:確認哪些問題是可以通過建模的方法來加以解決的
建模以及機器語言的所有基礎(chǔ)知識:探索型數(shù)據(jù)分析,開發(fā)功能,屬性選擇,模型選擇,模型評估,練習/確認/測試。
產(chǎn)品化:所有上面的內(nèi)容有關(guān)于數(shù)據(jù)管道的建立,使得不同的人都能夠在上面執(zhí)行查詢
最后的一些話:
成為一個數(shù)據(jù)分析師確實是一件挺讓人激動的事。你能從別人根本無法達到的角度獲取真相,這足夠酷炫了。從底層開始開發(fā)數(shù)據(jù)管道或者機器語言模型,會給人帶來深層次的滿足感,當執(zhí)行 A/B 測試的時候,有太多時刻會給你一種當「上帝」的趣味。即便這條路充滿了曲折以及不確定性,有很多挑戰(zhàn)擺在眼前,但是走在這條路上的人永遠不會退縮。任何一個聰明,有想法的年輕人都應該考慮成為一名數(shù)據(jù)分析師。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03