
對于數(shù)據(jù)科學(xué)來說,現(xiàn)在是發(fā)展的黃金時期。這是個新領(lǐng)域,但增長迅速,同時數(shù)據(jù)科學(xué)家的缺口也很大。最好的學(xué)習(xí)方法是通過實踐,知道自己真的需要學(xué)習(xí)什么,最重要的是,當你通過這種方式學(xué)習(xí),你可以獲得立刻就可以用到的技能。
1、學(xué)會愛數(shù)據(jù)
數(shù)據(jù)科學(xué)是一個廣泛而模糊的領(lǐng)域,這使得它很難學(xué)習(xí)。 沒有動力,你最終會中途停止對自己失去信心。你需要些東西來激勵你不斷學(xué)習(xí),即使是在半夜公式已經(jīng)開始變的模糊,你還是想探究關(guān)于神經(jīng)網(wǎng)絡(luò)的意義。你需要些動力來讓你發(fā)現(xiàn)統(tǒng)計、線性代數(shù)和神經(jīng)網(wǎng)絡(luò)之間的聯(lián)系,當你在困惑“下一步我該學(xué)習(xí)什么?”的時候。我學(xué)習(xí)的入口是用數(shù)據(jù)來預(yù)測股市,盡管當時我完全不熟悉。我編碼的第一批項目用于預(yù)測股票幾乎沒有統(tǒng)計,但是我知道它們表現(xiàn)的并不好,所以我日以繼夜的工作讓它們變的更好。我癡迷于改善程序的性能,我癡迷于股票市場,我學(xué)習(xí)去愛數(shù)據(jù)。我去學(xué)習(xí)一切能讓這個項目結(jié)果更好的技能。并不是每個人都會癡迷于股市預(yù)測,但重要的是要發(fā)現(xiàn)你想學(xué)習(xí)的東西。數(shù)據(jù)可以計算出關(guān)于你的城市很多新鮮有趣的事情,比如所有設(shè)備在互聯(lián)網(wǎng)上的映射、找到真正的NBA球員的位置,今年又哪些地方有難民,或者是其他事情。數(shù)據(jù)科學(xué)的偉大之處是有無限有趣的東西可以發(fā)現(xiàn)——那就是問問題然后找到一個方法來得到答案。
2、在實踐中學(xué)習(xí)
學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)、圖像識別和其他尖端技術(shù)是很重要的,但大多數(shù)數(shù)據(jù)科學(xué)工作不涉及這些:90%的工作將是數(shù)據(jù)清理。精通幾個算法比知道一點許多算法要好。如果你知道線性回歸、k – means聚類和邏輯回歸可以解釋和詮釋他們的研究結(jié)果,并可以用這些完成一個項目,你將比如果你知道每一個演算法,但不使用它們更優(yōu)秀。大多數(shù)時候,當你使用一種算法,它將是庫中的一個版本(你很少會自己編碼支持向量機實現(xiàn)——這需要太長時間)。所有這些意味著最好的學(xué)習(xí)方法是在項目工作中學(xué)習(xí),通過項目,你可以獲得有用的技能。
一種方法是在一個項目中先找到一個你喜歡的數(shù)據(jù)集,回答一個有趣的問題。這里有一些好的地方。
另一種方法是找到一個深層次的問題,例如預(yù)測股票市場,然后分解成小步驟。 我第一次連接到雅虎財經(jīng)的API,并爬下每日價格數(shù)據(jù)。然后我創(chuàng)建了一些指標,比如在過去的幾天里的平均價格,并用它們來預(yù)測未來(這里沒有真正的算法,只是技術(shù)分析)。這個效果不太好,所以我學(xué)會了一些統(tǒng)計知識,然后用線性回歸。 然后連接到另一個API,清理每一分鐘的數(shù)據(jù),并存儲在一個SQL數(shù)據(jù)庫。 等等,直到算法效果很好。
這樣做的好處是我在一個學(xué)習(xí)環(huán)境中學(xué)習(xí)。不僅僅學(xué)習(xí)了SQL語法,用它來儲存價格數(shù)據(jù),還比僅僅學(xué)習(xí)語法多學(xué)習(xí)了十倍的東西。學(xué)習(xí)而不應(yīng)用的知識很難被保留,當你做實際的工作的時候也不會準備好。
3、學(xué)會溝通
數(shù)據(jù)科學(xué)家需要不斷展示他們的分析結(jié)果。這個過程可以區(qū)別數(shù)據(jù)科學(xué)家的水平。交流的一部分是對主題的理解和理論, 另一個是理解如何組織你的結(jié)果。最后一部分是能夠清楚地解釋您的分析。 展示你的數(shù)據(jù)分析的結(jié)果。試著教那些對數(shù)據(jù)科學(xué)技術(shù)知識并沒有什么概念的人,比如你的朋友和家人這可以可以幫助您理解概念。試著在聚會上演講。使用github管理你所有的分析。在一些社區(qū)中活躍,比如Quora , DataTau , machine learningsubreddit。
4、向同行學(xué)習(xí)
你根本想不到你會從同行身上學(xué)到多少東西,在數(shù)據(jù)工作中,團隊合作非常重要。在聚會中找一些同伴。開源軟件包。給哪些寫有趣的數(shù)據(jù)分析博客發(fā)消息看有沒有合作的可能。
5、不斷增加學(xué)習(xí)的難度
你完全熟悉這個項目的工作了? 你最后一次使用一個新概念是在一周前? 那么是時候做些更加困難的挑戰(zhàn)了。如果你停止攀登,那么不進則退。如果你發(fā)現(xiàn)自己太舒適,這里有一些建議:處理更大的數(shù)據(jù)集。 學(xué)習(xí)使用spark。看看你能不能讓你的算法更快。你將如何將算法擴展到多個處理器? 你能做到嗎?理解更多的理論算法并使用。這會改變你的假設(shè)嗎?試圖教一個新手去做你現(xiàn)在正在做同樣的事情。上面這些這至少是一個思路告訴你在開始學(xué)習(xí)數(shù)據(jù)科學(xué)的時候到底要做什么。如果你完成了這些,你將發(fā)現(xiàn)你的能力自然而然就提升了。我不喜歡那些“一個清單”這樣的建議,因為這讓我很難按部就班去做。我發(fā)現(xiàn)很多人在跟著書單或者課程學(xué)習(xí)中半途而廢。我個人相信如果你有正確的目標任何人都可以學(xué)習(xí)數(shù)據(jù)科學(xué)。這是一個幫助你學(xué)習(xí)大數(shù)據(jù)的網(wǎng)站,其中包括了很多優(yōu)秀的學(xué)習(xí)經(jīng)驗和討論。你可以分析一些有趣的數(shù)據(jù)集,比如美國中央情報局的文件和球員統(tǒng)計。還可以完成一些項目,比如建立一個投資組合。如果你不知道如何分析,這也不是問題,我們會教你python。我們教Python因為它是最初級的友好語言,用于大量生產(chǎn)數(shù)據(jù)的科學(xué)工作,可用于各種各樣的應(yīng)用。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10