
作者:Roll
本文為「心中有數(shù)」CDA征文作品
小學(xué)時(shí),
老師經(jīng)常問:“你長大以后想當(dāng)什么?”
我說,我想當(dāng)一名科學(xué)家。
工作后,
領(lǐng)導(dǎo)經(jīng)常問:“你的職業(yè)規(guī)劃是什么?”
我說,我想做一名數(shù)據(jù)科學(xué)家。
一直以來,我在思索著什么是數(shù)據(jù)科學(xué)家?
直到 CDA 給了我標(biāo)準(zhǔn),數(shù)據(jù)科學(xué)家是同時(shí)具備研究數(shù)據(jù)本質(zhì)的科學(xué)知識(shí)和應(yīng)用數(shù)據(jù)科學(xué)的領(lǐng)域知識(shí),從數(shù)據(jù)中獲取信息并能解決問題的專家。
在 CDA LEVELⅢ 人才標(biāo)準(zhǔn)中,數(shù)據(jù)科學(xué)家具體指負(fù)責(zé)企業(yè)級(jí)商業(yè)數(shù)據(jù)科研項(xiàng)目的高端人才,能利用數(shù)據(jù)來改進(jìn)產(chǎn)品、推動(dòng)業(yè)務(wù),并進(jìn)行整體架構(gòu)的大數(shù)據(jù)治理與項(xiàng)目管理,帶領(lǐng)團(tuán)隊(duì)在該商業(yè)領(lǐng)域進(jìn)行前瞻性研究和戰(zhàn)略布局。
從業(yè)近10年,我從事過定量分析、數(shù)據(jù)分析、數(shù)據(jù)挖掘、算法研究等崗位,做過項(xiàng)目,帶過團(tuán)隊(duì),考過很多證書,在行業(yè)期刊發(fā)過論文,也參加過很多數(shù)據(jù)建模競賽,一直在朝著數(shù)據(jù)科學(xué)家的路上努力拼搏。
有時(shí)候想寫些經(jīng)驗(yàn)總結(jié),提筆卻不知從何寫起。剛好近期收到CDA“心中有數(shù)”的征文通知,我決定以“數(shù)據(jù)科學(xué)家成長之路”為題總結(jié)過去10年工作學(xué)習(xí)的歷程,記錄下努力奮斗的時(shí)光,與數(shù)據(jù)同仁們共勉,同時(shí)也以此為起點(diǎn),繼續(xù)我的數(shù)據(jù)科學(xué)家修煉之路。
數(shù)據(jù)科學(xué)家的成長之路是在披荊斬棘中砥礪前行,一筆筆的公式推導(dǎo)、一行行的算法代碼、一點(diǎn)點(diǎn)的業(yè)務(wù)積累,一個(gè)個(gè)的項(xiàng)目實(shí)踐,匯聚成了數(shù)據(jù)人的職業(yè)素養(yǎng),成就數(shù)據(jù)人的價(jià)值所在。
我的第一份工作是在上海一家咨詢公司從事數(shù)據(jù)分析師,這一階段我使用DB2、MySQL、Shell、VBA、SAS、Spss等工具,做過ETL、報(bào)表設(shè)計(jì)、數(shù)據(jù)集市、數(shù)據(jù)建模等工作。項(xiàng)目上我負(fù)責(zé)過人民銀行征信中心征信報(bào)告異常查詢監(jiān)測數(shù)據(jù)挖掘子項(xiàng)目,用K-Means聚類、決策樹、時(shí)間序列分析ARIMA等識(shí)別出機(jī)構(gòu)及用戶的異常查詢行為;負(fù)責(zé)過某城商行銀行信用卡信用評(píng)分模型,使用Logistic預(yù)測客戶違約概率;參與過某股份制銀行信用卡存量客戶經(jīng)營、商城產(chǎn)品個(gè)性化推薦、集團(tuán)客戶交叉銷售等項(xiàng)目,用到了Apriori、C5.0、KNN、Adaboost等算法,同時(shí)在平安銀行信用卡、人行征信中心做過SAS Base培訓(xùn)。
隨著互聯(lián)網(wǎng)公司崛起,大數(shù)據(jù)技術(shù)、機(jī)器學(xué)習(xí)算法等在項(xiàng)目實(shí)踐中取得很好應(yīng)用效果,數(shù)據(jù)工作者迎來新的發(fā)展機(jī)遇。大多數(shù)的數(shù)據(jù)從業(yè)人員都希望能夠進(jìn)入互聯(lián)網(wǎng)公司,發(fā)揮自己的一技之長,當(dāng)然我也不例外。2015年,在眾多OFFER中,我選擇了互聯(lián)網(wǎng)金融公司作為我的第二份工作,開始“玩轉(zhuǎn)大數(shù)據(jù)”。
期間,我參與了公司大數(shù)據(jù)中心的籌建,負(fù)責(zé)過精準(zhǔn)營銷團(tuán)隊(duì)、算法建模團(tuán)隊(duì)。在R盛行的時(shí)候,我開始自學(xué)R語言編程, 多次參加R語言會(huì)議,與R語言大佬們討論最前沿的算法及應(yīng)用場景。然而在實(shí)際工作過程中R語言安裝很多依賴包,且內(nèi)存管理、運(yùn)行速度和效率等缺點(diǎn)突出。
因此從2016年開始我逐步轉(zhuǎn)向使用Python和Spark,使用Scikit-learn、Tensorflow等算法框架構(gòu)建機(jī)器學(xué)習(xí)模型,使用Hive、Hbase等大數(shù)據(jù)工具處理TB級(jí)數(shù)據(jù)量。我承擔(dān)公司標(biāo)簽體系構(gòu)建、客戶分層模型、反欺詐模型、精準(zhǔn)營銷模型、消費(fèi)信貸產(chǎn)品信用評(píng)分模型等項(xiàng)目,也做過數(shù)據(jù)寬表、數(shù)據(jù)架構(gòu)、營銷活動(dòng)效果分析、隨機(jī)立減算法設(shè)計(jì)、年度賬單數(shù)據(jù)開發(fā)、書寫分析報(bào)告及匯報(bào)材料等工作。
在掌握大數(shù)據(jù)技術(shù)、建模工具之后,到了2017年我想尋求穩(wěn)定,在特定行業(yè)內(nèi)深耕細(xì)作,勵(lì)志成為行業(yè)內(nèi)的數(shù)據(jù)科學(xué)家。在獲得京東金融、百融、阿里、銀行等多個(gè)OFFER,因?yàn)榧彝ピ蛭疫x擇回到家鄉(xiāng)工作,在一家城商行從事信用卡數(shù)據(jù)建模工作,當(dāng)前已參與信用卡A、B、C評(píng)分卡構(gòu)建,以及客戶標(biāo)簽體系建設(shè)、信用卡資產(chǎn)估值等工作。
在學(xué)校實(shí)驗(yàn)室里和實(shí)際工作中做數(shù)據(jù)建模項(xiàng)目還是有所不同的,學(xué)校里主要是練習(xí)算法以及如何調(diào)參,工作中業(yè)務(wù)理解、特征工程顯得更為重要。在數(shù)據(jù)挖掘業(yè)內(nèi),經(jīng)常聽到有人說“Garbage in, Garbage out(垃圾進(jìn),垃圾出)”,用不好或不對(duì)的數(shù)據(jù)去做分析,會(huì)產(chǎn)生糟糕或是無用的結(jié)論。也就是說,數(shù)據(jù)和特征決定了模型的上限,而算法只是逼近這個(gè)上限而已。
對(duì)于即將入坑或已入坑的數(shù)據(jù)分析師,最重要的是找準(zhǔn)定位。
我比較認(rèn)同CDA的數(shù)據(jù)人才認(rèn)證體系,從LEVEL Ⅰ到LEVEL Ⅲ必備技能、知識(shí)點(diǎn)以及定位都比較接地氣。當(dāng)然除了掌握必備的技能外,還要熟悉業(yè)務(wù)知識(shí)以及學(xué)習(xí)做事的方法,在項(xiàng)目中不斷鍛煉自己提升自己。機(jī)會(huì)總是留給有準(zhǔn)備的人,只有掌握技能、理解業(yè)務(wù),同時(shí)具備解決問題的思維方法,才能獨(dú)立承擔(dān)數(shù)據(jù)挖掘及數(shù)據(jù)分析項(xiàng)目。正是由于堅(jiān)持不斷地學(xué)習(xí),我才能在短時(shí)間內(nèi)獨(dú)立負(fù)責(zé)項(xiàng)目,同時(shí)還要感謝領(lǐng)導(dǎo)們對(duì)我的幫助。
為了鼓勵(lì)員工持證上崗或者提升技能,許多單位都有證書獎(jiǎng)勵(lì),尤其是銀行等金融機(jī)構(gòu)。在行內(nèi)征求證書獎(jiǎng)勵(lì)意見時(shí),我成功將CDA證書推薦進(jìn)獎(jiǎng)勵(lì)范圍,推薦理由是在數(shù)字化轉(zhuǎn)型過程中,數(shù)字化人才梯隊(duì)建設(shè)是首要任務(wù),而CDA證書等級(jí)體系完美的詮釋了如何去培養(yǎng)數(shù)字化人才隊(duì)伍。
從2017年開始,我陸續(xù)考取了銀行、證券、基金、期貨等金融從業(yè)證書,通過考試獲評(píng)統(tǒng)計(jì)師、中級(jí)經(jīng)濟(jì)師職稱,同時(shí)考取工信部高級(jí)數(shù)據(jù)分析師、Python技術(shù)應(yīng)用工程師(高級(jí))、大數(shù)據(jù)技術(shù)應(yīng)用工程師(高級(jí))、人工智能應(yīng)用工程師(高級(jí))等證書,在2019年CDA第十一屆認(rèn)證考試中我通過客觀題和項(xiàng)目案例答辯,正式成為CDA LEVEL Ⅲ數(shù)據(jù)科學(xué)家持證人,次年12月通過FRM一級(jí),目前正在積極備戰(zhàn)FRM二級(jí)。
得益于之前的項(xiàng)目經(jīng)驗(yàn)和知識(shí)積累,我僅僅花了1個(gè)月時(shí)間復(fù)習(xí)就通過上機(jī)考試。結(jié)合我多次考證經(jīng)歷,現(xiàn)將備考經(jīng)驗(yàn)總結(jié)如下。
首先是緊扣考綱,抓住重點(diǎn)。根據(jù)考試范圍準(zhǔn)備備考書籍、視頻課、模擬題等材料,搜集前輩們的備考經(jīng)驗(yàn),以便制定計(jì)劃。認(rèn)真研讀考綱,在有限時(shí)間內(nèi)對(duì)于考綱要求的要掌握,考綱不要求可以選擇放棄。
從2020年開始CDA的考綱有所變化,LEVEL Ⅲ新考綱變得相對(duì)容易,也更聚焦數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí),因此要緊扣考綱,重點(diǎn)學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)處理與特征處理、自然語言處理、機(jī)器學(xué)習(xí)算法等內(nèi)容,吃透書中內(nèi)容。
其次是制定計(jì)劃,有序復(fù)習(xí)。
可以將備考分為三個(gè)階段:
一是基礎(chǔ)階段,將書中知識(shí)通讀、消化,大綱中的每一部分形成腦圖,便于自己系統(tǒng)掌握,這一階段可以嘗試做些練習(xí)題,鞏固知識(shí)點(diǎn)。
二是強(qiáng)化階段,進(jìn)行專題突破,針對(duì)第一階段沒有掌握的重要知識(shí)點(diǎn)重點(diǎn)學(xué)習(xí),同時(shí)重做第一階段的錯(cuò)題以及弄清楚解題思路。
三是沖刺復(fù)習(xí),查缺補(bǔ)漏,根據(jù)考綱形成整體的思維腦圖,覆蓋所有考點(diǎn)。
最后是調(diào)整心態(tài),積極備考。要以平常心積極應(yīng)對(duì)考試,這一階段可以嘗試模擬考試時(shí)間練習(xí)??碱}。
我參加的是CDA第十一屆考試,考試時(shí)間為2019年12月29日。因?yàn)槲液臀覑廴硕紱]有去過武漢,因而將考點(diǎn)選擇武漢,考完后先登黃鶴樓、再游戶部巷、吃完熱干面、又食武昌魚,雄偉的長江大橋、美麗的武漢大學(xué)、人流熙攘的江漢路步行街,穿梭在武漢的大街小巷,享受著武漢的特色美景。很不幸的是考完后過了2周就是武漢疫情爆發(fā)期,而我幸運(yùn)的逃過一劫,相信疫情以后的武漢會(huì)越來越好,有機(jī)會(huì)我將攜家人再去武漢一游。
接著說說我的項(xiàng)目案例經(jīng)歷,在通過第一階段考試后,CDA老師會(huì)發(fā)一封郵件,附件里有項(xiàng)目案例要求和數(shù)據(jù)以及答辯的注意事項(xiàng)等。在拿到案例后,我認(rèn)真研讀了項(xiàng)目說明、項(xiàng)目分析要求和評(píng)估方式等。我的案例題目是假新聞?lì)A(yù)測模型的建置及預(yù)測,由于對(duì)假新聞識(shí)別問題比較陌生,在做項(xiàng)目案例過程中我瀏覽大量的國內(nèi)外相關(guān)的文本挖掘前沿論文,歸納出案例的解決方法。
項(xiàng)目過程中70%時(shí)間花在特征工程上,包括特征使用方案、特征獲取方案、特征處理方案和特征監(jiān)控方案,具體框架見下圖。
最終建立貝葉斯、BP神經(jīng)網(wǎng)絡(luò)、SVM、隨機(jī)森林、XGBoost的分類模型,同時(shí)以詞嵌入作為特征,建立CNN、LSTM、RNN等深度學(xué)習(xí)算法預(yù)測模型。
我的項(xiàng)目答辯老師是李御璽老師,李御璽老師和藹認(rèn)真,認(rèn)真聽完了我的答辯,給予了細(xì)致耐心的評(píng)價(jià),希望我在文本特征構(gòu)造多做工作,比如可以從作者偏好、情感分析、實(shí)體分析(人名、地名、組織等)、政治敏感等視角分析,增加模型預(yù)測精準(zhǔn)度。
在完成項(xiàng)目案例過程中可以說受益頗多,整個(gè)項(xiàng)目我花了差不多20天的時(shí)間,閱讀了30多篇文章,寫了2000多行Python代碼,用了兩臺(tái)電腦去做文本特征提取,項(xiàng)目案例用到了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和文本挖掘多種算法。通過這次項(xiàng)目案例實(shí)戰(zhàn),我學(xué)到了很多前言的算法,尤其是文本特征提取的方法,同時(shí)對(duì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和文本挖掘有了全面深入的認(rèn)識(shí)。
順應(yīng)全球信息化的發(fā)展趨勢,我國開啟“數(shù)字中國”戰(zhàn)略。在此戰(zhàn)略背景下,各行各業(yè)已經(jīng)進(jìn)入數(shù)字化轉(zhuǎn)型的角逐期,未來的社會(huì)需要更多復(fù)合型的技術(shù)人才,尤其是對(duì)大數(shù)據(jù)科學(xué)家的需求將激增。
身為銀行人,在數(shù)字化轉(zhuǎn)型戰(zhàn)略下,數(shù)據(jù)從業(yè)者大有可為,未來我將繼續(xù)在信用卡行業(yè),推進(jìn)數(shù)據(jù)科學(xué)在營銷、風(fēng)控、產(chǎn)品、管理、服務(wù)、合作等方面的應(yīng)用落地,致力于成為信用卡行業(yè)的數(shù)據(jù)科學(xué)家。
身為數(shù)據(jù)人,堅(jiān)持初心與使命,今天取得的成績并不是終點(diǎn),而是攀登更高峰的起點(diǎn)。面對(duì)未來的機(jī)遇與挑戰(zhàn),一方面努力工作,一方面堅(jiān)持學(xué)習(xí),盡管我已經(jīng)取得CDA LEVEL Ⅲ 數(shù)據(jù)科學(xué)家證書,但是我深知要成為真正的數(shù)據(jù)科學(xué)家還有很長的路要走。
未來可期,未完待續(xù)……
作者簡介
Roll,統(tǒng)計(jì)學(xué)碩士,統(tǒng)計(jì)師職稱,CDA LEVEL Ⅲ數(shù)據(jù)科學(xué)家持證人
在數(shù)據(jù)分析行業(yè)深耕十年有余,現(xiàn)為某城商行數(shù)據(jù)建模高級(jí)經(jīng)理。同時(shí)為工信部高級(jí)數(shù)據(jù)分析師、PythonSASR語言高級(jí)編程師。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03