
教您成為頂級數(shù)據(jù)分析師和數(shù)據(jù)挖掘師
一個數(shù)據(jù)科學家做了一個如何成長為頂級數(shù)據(jù)分析師和數(shù)據(jù)挖掘師的計劃。根據(jù)發(fā)展階段的不同,我在此給大家分享一些每個數(shù)據(jù)科學家都應該做的新年計劃??赡苓@個計劃會相對寬泛,大家可以根據(jù)自己的需求去調整和補充。
一名數(shù)據(jù)科學家的新年計劃
根據(jù)數(shù)據(jù)科學家一生的三個發(fā)展階段,我將這些計劃做了分類。大家可以自己判斷哪些計劃適合自己并按照計劃行動起來。如果你已經(jīng)成功地完成了現(xiàn)有階段的任務,就可以轉向下一階段。我還列出了現(xiàn)有的有關該主題的最佳課程。
初級水平
什么是初學者?如果解析學和數(shù)據(jù)科學對你來說是全新的領域,你也不知該行業(yè)的發(fā)展模式,而你又想在這個行業(yè)大展拳腳一番,那么初學者就是你。以下這些應該在你的計劃之內。
1. R語言也好,Python語言也好,學習一門新的編程語言
我曾見到有同學同時學習R語言和Python語言,最后落得兩手空空。這種做法是很致命的。你一定要沉下心來專攻一門。鑒于這兩種語言都是開放源代碼工具,所以在公司里都有廣泛運用。Python被公認為最簡單的編程語言,而R語言一直都是最受青睞的統(tǒng)計工具。學習哪一門的決定權在你,因為兩個同等出色。
推薦課程:學習Codecademy上的Python語言課程;學習DataCamp上的R語言課程。
PS:推薦R語言和Python入門課程《Python入門:數(shù)據(jù)挖掘實戰(zhàn)》、《R語言入門》
2. 學習統(tǒng)計學和數(shù)學
統(tǒng)計學的內容全都是關于假設和數(shù)列,然而沒有統(tǒng)計學和數(shù)學的知識你很難深入到數(shù)據(jù)行業(yè)里,這是數(shù)據(jù)科學家的重中之重。如果你不擅長數(shù)學,那現(xiàn)在是時候走出困境了。面對深奧的統(tǒng)計、幾何和概率領域知識時,一定不要驚慌??珊箤W院(Khan Academy)、Udacity等站點上都有很多優(yōu)質的統(tǒng)計學課程。下載APP,現(xiàn)在就能開始學習!
推薦課程:Udacity上的推論統(tǒng)計學和描述統(tǒng)計學課程;可汗學院(Khan Academy)上的幾何課程。
3.一次性完成一門網(wǎng)絡開放課程(最難執(zhí)行)
大規(guī)模網(wǎng)絡開放課程可以免費獲取和學習,可這對你來說也是最難實現(xiàn)的諾言。很多學生通常一次性注冊選修很多課程,結果一門也沒有圓滿完成。所以,你一定要一次專注一門課,完成之后再選下一門。你也可以在Coursera,edX和 Udacit上查找任何想要的學習課程。
推薦課程:例如學習Coursera上的數(shù)據(jù)科學專業(yè)化(R語言)課程;學習Dataquest上的數(shù)據(jù)科學Python語言課程。
PS:推薦R語言和python進階課程:《R語言實戰(zhàn)》、《Python進階:數(shù)據(jù)挖掘算法》
4. 了解業(yè)界動態(tài),善于探索和發(fā)現(xiàn)
你要了解業(yè)內動態(tài)。我們生活在一個變化的世界,一夜之間事物就可能發(fā)生重大變化,今日和流行的技術明日就很可能面臨淘汰。你一定要多與一些富有經(jīng)驗的專業(yè)人士、業(yè)內專家交流,預見未來的自己。所以趕快參與到討論和聚會中來吧,關注一些微博微信,加入一些群組,多閱讀一些書籍。
推薦書籍:大數(shù)據(jù)相關電子書集
中級水平
中級水平的數(shù)據(jù)科學家是什么樣的?如果你已經(jīng)完成了前一階段的內容,有過機器學習基礎知識的實踐經(jīng)驗,掌握了建立預測模型的知識,那你就達到了中級水平。完成這一階段需要強大的決心和持久的練習。你準備好迎接這個挑戰(zhàn)了嗎?
1.理解并構建你的機器學習技能
機器學習是數(shù)據(jù)科學和技術的未來。所有的大型企業(yè)都不惜重金雇用掌握這個技能的人才。毫無疑問,近日來這項技術的需求越來越大,現(xiàn)在正是你充分利用這一局面的大好時機。今年,你應該努力在機器學習上精益求精,深入掌握回歸、聚類和分類與回歸樹(CART)技能。Andrew Ng上你可以找到關于機器學習的免費資源。
推薦課程:在Andrew Ng完成機器學習課程任務。
PS:推薦課程《機器學習與R語言實踐》,斯坦福大學公開課《機器學習》
2. 專注集成算法和Bosting算法
一旦你對機器學習充滿自信,那就繼續(xù)去學習其他模型。通過Boosting和集成算法,你的模型準確率與其他算法相比會突飛猛進。上述免費資源里也包含這一主題。不過一定要讓自己做好心理準備,拿下這個主題需要超強的理解力。
推薦課程:閱讀Kaggle Ensembling Guide。學習MIT LectureBoosting相關課程。推薦費博士的《Python進階:數(shù)據(jù)挖掘算法》視頻課程
3. 探索Spark、NoSQL和其他大數(shù)據(jù)工具
今年你的學習之旅始于大數(shù)據(jù)。考慮到大數(shù)據(jù)專業(yè)人員的需求激增,你一定要學習Spark,這個工具最近非?;鸨4髷?shù)據(jù)的未來就在Spark,它廣泛用于處理和操縱數(shù)據(jù)。除此之外,你還可以拓展到NoSQL和Hadoop領域來。
推薦課程:從Spark邁出學習第一步。
4.給社區(qū)成員做分享
還有什么比分享知識更美妙呢!從今年開始,你可以把自己的知識分享給正在數(shù)據(jù)科學的路上不斷探索的人們。你可以加入活躍的數(shù)據(jù)科學論壇,給他們答疑解惑,以你的靈招妙計給他們做培訓。你也可以在附近的行業(yè)圈里發(fā)起聚會。
推薦任務:關注大數(shù)據(jù)公眾號和論壇等等。
5.參加數(shù)據(jù)科學競賽
是時候檢驗你的真才實學了。今年你一定要參加一些競賽。這些競賽會引導你去關注自己的弱勢領域。此外,你也會因已有的學識而信心倍增。我希望你可以榮登Kaggle500強數(shù)據(jù)科學家之列。而現(xiàn)在,你的目標就是堅持到底。
推薦任務:加入Kaggle。加入Data Hack。DataCastle。天池大賽。
附言:有時競賽也會有難度。你也可以通過這些實際的問題來檢驗你的技能和知識。這些問題不難,并且妙趣橫生。
高級水平
對于進入這個階段的人我就不需要來給出標準了,你們所了解的數(shù)據(jù)科學,很多人甚至連嘗試的勇氣都沒有。身處這一階段,你們的生活愜意而又自如??捎袝r還想去迎接挑戰(zhàn),以下是一些計劃。
1. 建立深度學習模式
今年,你們要為有志于成為數(shù)據(jù)科學家的人們樹立榜樣。你要下決心在今年建立深度學習的模式。全球的人都在用這一模式進行預測,它是機器學習的高級階段,其準確率明顯高于普通的機器學習模型。
推薦課程:完成深度學習輔導課程任務。
2.回饋
我相信知識的意義不是被束之高閣,而是與人分享。分享越多,收獲越大。據(jù)說,如果你了解一個新概念并解釋給你的兩個朋友,你對這個概念的記憶很可能會更久。所以今年,你必須制定計劃,運用自己的知識和經(jīng)驗幫助數(shù)據(jù)分析學領域的人。這也會為更多的在這個領域的人指明方向。
推薦任務:在社區(qū)分享你的知識。
3. 探索強化學習
強化學習是機器學習中最有效而又鮮有發(fā)現(xiàn)的領域。今年,你可以下定決心研究下這個領域。雖然很有挑戰(zhàn)性,但是一定值得你去嘗試。無人汽車、無人偵察機就是強化學習的碩果。一旦開始學習這些,你就自然而言地進入到了人工智能領域。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10