
第十屆CDA數(shù)據(jù)分析師認證考試,在2019年6月底圓滿地落下了帷幕。
之前我們采訪了CDA認證考試 Level 1中的幾位優(yōu)秀考生,為大家分享了他們備考中的心路歷程。
今天我們帶來的是Level 2 大數(shù)據(jù)和建模方向中取得優(yōu)異成績的幾位考生,他們當中有學(xué)校在讀的研究生,有入職不久的職場新人,還有經(jīng)驗豐富的數(shù)據(jù)工作者,那么他們有怎樣的備考心得體會呢?
下面讓我們來一睹他們的風(fēng)采吧!
LEVEL Ⅱ 大數(shù)據(jù)分析師
更多考試介紹及備考福利請點擊:CDA 認證考試中心官網(wǎng)
希望今后能繼續(xù)在大數(shù)據(jù)行業(yè)做些有趣、有意義、有價值的東西出來。
1.目前從事的工作
我目前在江蘇欣網(wǎng)視訊軟件技術(shù)有限公司工作,主要從事電信行業(yè)相關(guān)的大數(shù)據(jù)分析和產(chǎn)品開發(fā)。
2.報考CDA認證考試的契機
當時我們公司鼓勵員工報名參加CDA考試,我看了大綱后發(fā)現(xiàn)CDA二級大數(shù)據(jù)分析師的考試內(nèi)容相當實用,與當前工作經(jīng)常用到的大數(shù)據(jù)知識非常接近,就果斷報名了。
3.數(shù)據(jù)科學(xué)零基礎(chǔ)的我是如何備考的
我在5月31日報名,大概備考了4周時間。學(xué)習(xí)計劃一般每天是下班回家后學(xué)習(xí)1-2小時左右。
先跟據(jù)考綱要求,把所有考試內(nèi)容系統(tǒng)的過了一遍。對于本來就常用的一些內(nèi)容,例如Hadoop生態(tài)圈的知識,簡單的復(fù)習(xí)就夠了。
對于了解不夠深入的內(nèi)容,例如數(shù)據(jù)挖掘和機器學(xué)習(xí)方面,就查找相關(guān)資料,定點突破。
4. 備考中有哪些知識難點
Spark的基礎(chǔ)原理,RDD、GraphX和MLlib都是有一定難度的,尤其是MLlib部分,對于數(shù)據(jù)挖掘和機器學(xué)習(xí)方面還要有一些了解。
5.推薦的書籍和課程
首先就是伴隨著眾多人進入Hadoop世界的《Hadoop權(quán)威指南》,該書也是CDA考試推薦的必讀書目,目前最新版本為第四版。
另外,可以結(jié)合林子雨教授的視頻課程《大數(shù)據(jù)原理與應(yīng)用》來共同學(xué)習(xí),效果更佳。
如果覺得不過癮,還想深入了解,推薦《Hadoop應(yīng)用架構(gòu)》,該書站在架構(gòu)的高度,詳細闡釋了Hadoop生態(tài)圈諸多工具如何相互配合,形成各種大數(shù)據(jù)分析場景的完整建設(shè)方案。
Spark學(xué)習(xí)推薦同樣是O’Reilly出品的《Spark快速大數(shù)據(jù)分析》,該書對Spark的構(gòu)架和相關(guān)組件作了細致的描述,也是邁入Spark分析領(lǐng)域的基礎(chǔ)指南。只是該書完成較早,Spark 2.x版本尚未發(fā)布,部分考綱內(nèi)容尚未覆蓋。
所以建議同時閱讀林子雨教授編著的《Spark編程基礎(chǔ)》,并結(jié)合配套的林教授的視頻課程《Spark大數(shù)據(jù)處理技術(shù)》,林教授的書和課程對Spark MLlib的講解和描述非常詳盡,非常值得一看。
6.對備考者們的建議
對于正在從事大數(shù)據(jù)行業(yè),尤其是Spark相關(guān)工作的同學(xué)來說,由于考試內(nèi)容相當實用,備考內(nèi)容不少就是平時的工作內(nèi)容。所以不用太緊張,跟著大綱過一遍,回顧下自己熟練掌握的內(nèi)容,重點學(xué)習(xí)不夠了解的內(nèi)容,把握重點,定點突破。
對于打算從事大數(shù)據(jù)分析的同學(xué),CDA也是一個很不錯的進入大數(shù)據(jù)世界機會。建議按照考綱推薦的圖書,有計劃地進行系統(tǒng)性、有深度的學(xué)習(xí)。知其然,更要知其所以然。
另外要知道,大數(shù)據(jù)是一個實用性很強的行業(yè),學(xué)習(xí)理論的同時一定要多動手。從基本的Linux安裝、Hadoop分布式搭建,擴展到Hadoop生態(tài)圈Hive、HBase、Flume、Spark等項目的部署和使用,都自己動手試試,多踩坑才能學(xué)的更多更深。
7.今后的職業(yè)發(fā)展規(guī)劃
希望能和公司同事一起,共同努力,在大數(shù)據(jù)行業(yè)做些有趣,有意義,有價值的東西出來。
LEVEL Ⅱ 建模分析師
更多考試介紹及備考福利請點擊:CDA 認證考試中心官網(wǎng)
學(xué)校學(xué)習(xí)的理論知識往往是不夠的,我想以技能傍身,通過CDA認證考試加強自身的學(xué)習(xí)。
1.報考CDA認證考試的契機
我是安徽大學(xué)應(yīng)用統(tǒng)計專業(yè)研一的學(xué)生。我本科也是統(tǒng)計學(xué)專業(yè),從本科到研究生看著統(tǒng)計學(xué)專業(yè)日益火爆,在統(tǒng)計學(xué)越來越熱門的當今,自己的能力要能匹配專業(yè)的發(fā)展速度。而學(xué)校學(xué)習(xí)的理論知識往往是不夠的,所以想要以技能傍身,通過考證加強自身的學(xué)習(xí)。
由于研一上半學(xué)期接觸到了數(shù)據(jù)挖掘加上導(dǎo)師也是數(shù)據(jù)挖掘方向,導(dǎo)致自己對數(shù)據(jù)挖掘、機器學(xué)習(xí)很感興趣,剛好了解到CDA Level 2建模分析師的考試重點剛好是數(shù)據(jù)挖掘算法和軟件實操,因此決定報考。
2.我是如何備考的
由于是學(xué)生,我的時間比較充裕,考慮到自身對軟件的熟練程度不夠而CDA L2能否通過就取決于實操,所以3月份學(xué)期剛開學(xué)就首先投入到軟件的學(xué)習(xí)中。
(本人對R軟件有一定的基礎(chǔ)就選擇了R)我的備考之路分為四個階段:
一、語言(軟件)的學(xué)習(xí)
實操的重要性剛才已經(jīng)提到,選擇一個數(shù)據(jù)分析軟件或拿手的一門語言(R/Python)保證熟練操作。這個階段需要貫穿整個備考時期。
二、考綱重點的學(xué)習(xí)
在我了解了考綱后,將考試重點分為數(shù)據(jù)的預(yù)處理和算法建模兩大塊,由于我是統(tǒng)計專業(yè),深刻了解數(shù)據(jù)預(yù)處理的重要性,對這部分考綱知識點有一定的基礎(chǔ),就把重點放在算法建模上,有針對性的看算法書一個一個攻克算法,準備時間大概為1個月。
三、查缺補漏
在攻克了重難點以后,需要對所有知識點進行查缺補漏,最好的辦法就是完整性的看書,我將《數(shù)據(jù)挖掘導(dǎo)論》看了兩遍,對知識點進行補充。
四、沖刺視頻
在看完考綱和課本之后通過沖刺視頻進行考點的梳理,將思維拉回到考試線上,做好筆記,反復(fù)回憶,對提及的操作題反復(fù)練習(xí),做好考試準備。(復(fù)習(xí)時間為1個月)
3. 備考中有哪些知識難點
對于我來說,分類問題模型評估的閾值確定是一個難點。因為之前在學(xué)校幾乎沒有接觸過這種調(diào)節(jié)閾值的問題,通過這次考試了解到了類不平衡問題閾值的調(diào)節(jié),通過F值確定閾值以及通過profit確定閾值的方法。
4.推薦的書籍和課程
書籍要緊靠大綱,我是以《數(shù)據(jù)挖掘導(dǎo)論》為主,《機器學(xué)習(xí)》為輔。
在考試前了解到CDA考前沖刺課,在看完至少一遍大綱和課本,對知識點有了了解之后再反復(fù)看視頻,對知識點進行梳理就會感覺很清晰。
5.對備考者們的建議
一、實操不能掉以輕心,實操的學(xué)習(xí)是不斷積累的過程,熟能生巧。
二、考證不是目的,通過考證真正去學(xué)習(xí)知識,學(xué)以致用才是目的。
三、由于我備考過程中也認識了許多邊工作邊考證的姐姐哥哥們,對于這類考生,沒有大量的時間,建議選擇適合自己的數(shù)據(jù)分析工具。
四、加入數(shù)據(jù)分析備考群已獲得最新考試動向,避免獨戰(zhàn)。
6.今后的發(fā)展規(guī)劃
數(shù)據(jù)分析已經(jīng)成為必不可少的技能,我希望將所學(xué)的數(shù)據(jù)分析、數(shù)據(jù)挖掘的知識應(yīng)用在以后從事的職業(yè)中。
更多考試介紹及備考福利請點擊:CDA 認證考試中心官網(wǎng)
作為一名建模分析師,我想通過考Level 2 幫自己梳理下學(xué)過的知識。
1.目前從事的工作
目前畢業(yè)一年多,學(xué)生期間正好是統(tǒng)計相關(guān)方向?qū)I(yè)的?,F(xiàn)在是一名建模分析師,日常工作與數(shù)據(jù)比較相關(guān)。
2.報考CDA認證考試的契機
讀研的時候在經(jīng)管之家論壇有看到,機緣湊巧報了Level 1的考試。今年正好工作有變動,想找個時間梳理下學(xué)過的知識,就報了Level 2的考試。
3.我是如何備考的
六月初開始看的,四周左右的時間,每天復(fù)習(xí)時間大概下班后三小時以及周末時間。
選擇題的部分根據(jù)考綱和解析,配合《數(shù)據(jù)挖掘》、《數(shù)據(jù)挖掘導(dǎo)論》梳理知識點;實操題的部分我用的是R,把考綱里提到的方法都動手實踐一遍。
4. 備考中有哪些知識難點
模型評估的部分涉及多種評價指標涉及范圍廣,不少是較小眾的,相關(guān)材料較難找到,每個指標具體統(tǒng)計口徑計算方式難以確定,具體考試實踐也比較靈活。
5.推薦的書籍和課程
就我自己的經(jīng)歷與學(xué)習(xí)過程,我推薦以下幾本書:
·《統(tǒng)計學(xué)習(xí)導(dǎo)論》這本是ESL入門版,可以基于R語言動手實踐;
· 李航博士的《統(tǒng)計學(xué)習(xí)方法》,今年出了第二版,算法理論部分講的很透徹;
·《百面機器學(xué)習(xí)》,覆蓋大多數(shù)算法的具體操作,包括很多應(yīng)用上的細節(jié)。
6.對備考者們的建議
CDA一級二級考察的知識范圍對于數(shù)學(xué)或統(tǒng)計專業(yè)的學(xué)生應(yīng)該并不陌生,考試本身也是一個比較好的系統(tǒng)性梳理所學(xué)專業(yè)知識的機會。
備考主要還是以考綱解析內(nèi)容為主,配合參考書來看,遇到不懂的內(nèi)容多翻書多上網(wǎng)。實操要注意在數(shù)據(jù)前期的預(yù)處理、特征工程上多了解多實踐,不要僅局限于實踐算法。
7.今后的發(fā)展規(guī)劃
工作上做好本職工作,聽從領(lǐng)導(dǎo)安排,注意總結(jié)累積業(yè)務(wù)知識;專業(yè)上提升工具使用上的熟練度,關(guān)注前沿知識,學(xué)習(xí)新的算法與工具。期望能立足崗位,學(xué)以致用。
更多考試介紹及備考福利請點擊:CDA 認證考試中心官網(wǎng)
通過備考CDA認證考試,我希望進一步建立自己的數(shù)據(jù)分析和機器學(xué)習(xí)知識體系。
1.目前從事的工作
2006年研究生畢業(yè)后進入中興,先后從事了路由器產(chǎn)品軟件開發(fā),各制式無線4G、5G產(chǎn)品的質(zhì)量管理和過程改進。
隨著公司數(shù)字化程度越來越高,devops的全面推進,就需要從大量的數(shù)據(jù)中挖掘價值,進行產(chǎn)品質(zhì)量改進和過程改進。
2.報考CDA認證考試的契機
我在日常的工作中,主要有兩大類數(shù)據(jù)要分析。一類是項目研發(fā)過程數(shù)據(jù),另一類是產(chǎn)品的KPI數(shù)據(jù)。
從最早的excel,到mintab,以及6sigma分析方法,再到利用python做更大量的數(shù)據(jù)分析,使大數(shù)據(jù)分析可持續(xù)化、自動化嵌入研發(fā)流程。為了能最大化的挖掘數(shù)據(jù)隱藏價值,需要系統(tǒng)的學(xué)習(xí)KDD的數(shù)據(jù)挖掘方法,才能更全面地抽象和建立數(shù)據(jù)模型,一方面提升產(chǎn)品的版本穩(wěn)定性,提前預(yù)測和修復(fù)問題,另一方面使質(zhì)量管理上一個新的臺階,提供更可靠的決策支持。
基于此目標,我希望通過CDA的學(xué)習(xí),進一步建立自己的數(shù)據(jù)分析和機器學(xué)習(xí)知識體系。
3.我是如何備考的
1)大綱為準,補充知識盲點,建立知識框架。
備考時一定要緊密聯(lián)系大綱,根據(jù)大綱的內(nèi)容和知識點進行查漏補缺,逐步建立自己的知識框架。這是備考中不可或缺的大前提,只有基礎(chǔ)打好了,才能更好地進行之后的學(xué)習(xí)。
2)案例為本,解決實際問題。
先結(jié)合小的案例學(xué)習(xí)python語言,能夠?qū)⒃瓉碛胑xcel做的圖表通過python實現(xiàn),有了python基礎(chǔ),就結(jié)合scikitlearn網(wǎng)站做復(fù)雜的算法和實現(xiàn)。因為我的目標是要解決實際工作中遇到的問題,所以,學(xué)習(xí)過程是以案例為主,認證通過是個水到渠成的過程。
3)多管齊下,取長補短,了解差異。
熟悉excel,mintab,spss,python等不同方式分析的差異和優(yōu)劣,選擇最合適快捷的方式,提高效率的同時,深刻的了解工具差異優(yōu)劣。
4. 備考中有哪些要注意的地方
1)首先要理解案例題的意圖,先想清楚業(yè)務(wù)邏輯,再做數(shù)據(jù)預(yù)處理,選擇合適的模型。
2)同時還要能夠?qū)δP瓦M行調(diào)參,來保證更優(yōu)的處理結(jié)果,畢竟案例題是按排名給分的哦。這就要深入理解算法原理和模型評價指標。
5.推薦的書目
· 《數(shù)據(jù)挖掘導(dǎo)論》
· 《機器學(xué)習(xí)》
· 《利用python進行數(shù)據(jù)分析》
· 《備考手冊》
6.對備考者們的建議
1)大綱一定要吃透,理解每一個字,每一個例題。
2)學(xué)會一個個算法和模型容易,什么時候用哪個,怎么用,有什么限制得理解清楚。
3)數(shù)據(jù)處理要謹慎,不能想當然。記住GIGO原則。
4)考前沖刺,區(qū)分概念差異,強化算法的簡單手算能力。
7.今后的發(fā)展規(guī)劃
通過數(shù)據(jù)挖掘,機器學(xué)習(xí)相關(guān)的方法應(yīng)用,做更加專業(yè)的數(shù)據(jù)挖掘和預(yù)測分析,針對不同的項目訴求,提供產(chǎn)品改進方案和結(jié)果評估。讓數(shù)據(jù)發(fā)聲,產(chǎn)生價值,提供專業(yè)的管理和決策支撐。
更多考試介紹及備考福利請點擊:CDA 認證考試中心官網(wǎng)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10