
數(shù)據(jù)科學是成功的。全球成千上萬的學生報名參加在線課程,甚至數(shù)據(jù)科學碩士課程。
數(shù)據(jù)科學領(lǐng)域是一個競爭非常激烈的市場,尤其是在一家大型科技公司獲得一份(假設(shè)的)夢想工作。積極的消息是,通過充分的準備,你已經(jīng)掌握了在這樣一個職位上獲得競爭優(yōu)勢的機會。
另一方面,也有很多MOOC、碩士課程、訓練營、博客、視頻和數(shù)據(jù)科學院。作為一個初學者,你感到失落。我應該上哪門課?我應該學習哪些主題?我需要關(guān)注哪些方法?我必須學習什么工具和編程語言?
事實是,每個數(shù)據(jù)科學家都有她/他的個人旅程,并偏向于那條學習道路。所以,如果不了解你,很難說什么是對你最好的方法。
但也有所有數(shù)據(jù)科學家一遍又一遍地犯的共同錯誤。即使知道了它們,你也不會完全回避它們,但最終,你會更早地停止去做它們,并發(fā)現(xiàn)更快地回到成功的道路上。
基于我在數(shù)據(jù)科學領(lǐng)域20多年的經(jīng)驗,帶領(lǐng)多達150人的團隊,并仍然在全球領(lǐng)先的大學之一兼職授課,我為你總結(jié)了避免更快實現(xiàn)夢想的核心錯誤。
錯誤給出了作為一個初學者的數(shù)據(jù)科學家的學習進度的順序。
我知道你被所有的課程淹沒了,你盡量不犯任何錯誤。你想有效地投資你的時間和金錢,選擇正確的方法,承諾最快和最好的成功。
不幸的是,在任何技術(shù)和科學領(lǐng)域都沒有立竿見影的成功,為了最好的成功,你不會有任何比較。
事實是,今天,所有已建立的平臺、學院和研究所都有很好的課程。所以,不要過度思考和分析課程。勇敢地選擇一個,完成那個課程,然后再選擇另一個。
最關(guān)鍵的方面是開始和做。你不能在這里犯錯誤,因為你既不知道你的旅程,也不知道當選擇另一個時,它會有什么不同。沒人能告訴你。經(jīng)期。
同樣重要的是要認識到學習是循環(huán)的,而不是線性的。選修一門數(shù)據(jù)科學課程并不排除你正在選修另一門。
在我多年的經(jīng)驗之后,我仍然從事數(shù)據(jù)科學、機器學習和人工智能訓練。在每一個仍然如此“簡單”的初學者課程中,我發(fā)現(xiàn)了一個新的方面和關(guān)于這個主題的新觀點。而這正是最終造就一個高要求數(shù)據(jù)科學家的原因。它是理解對一個主題的所有不同觀點。
許多有抱負的數(shù)據(jù)科學家認為,簡歷中提到的盡可能多的方法有助于更快地找到工作。但事實恰恰相反。當你在六個月前開始為每個招聘人員提供數(shù)據(jù)科學時,很明顯,這是一個沒有實質(zhì)內(nèi)容的流行語。
如果我們看回歸模型,有很多書只是關(guān)于回歸。有50多種回歸類型,每種都有不同的前提條件。所以,只有“回歸”在你的簡歷中沒有說什么。此外,回歸模型仍然是應用程序的最重要的模型,并為一般的數(shù)據(jù)科學奠定了理解的基礎(chǔ)。
你必須明白用一種方法解決的是什么;假設(shè)是什么;參數(shù)是什么意思;什么是陷阱;等等,等等。
根據(jù)簡歷和回歸知識的描述,每一個有經(jīng)驗的招聘人員--或者今天,這個過程背后的算法--都可以識別你理解的深度。
只對少數(shù)幾種方法有深入的知識和經(jīng)驗,總比對許多方法一無所知要好。
當開始編碼時,人們認為他們必須迅速開始編碼和重新編程盡可能多的算法。另外,在這里你應該集中于理解幾個而不是數(shù)量。
首先,你需要了解編碼的先決條件:線性代數(shù)、數(shù)學歸納法、離散數(shù)學、幾何學--是的,這是優(yōu)秀程序員的強項,但經(jīng)常被數(shù)據(jù)科學家遺忘,統(tǒng)計學和概率論、微積分、布爾代數(shù)和圖論。
我并沒有因為編碼更多而變得更好更快。我通過理解數(shù)學基礎(chǔ),審查其他人的代碼,并在不同的數(shù)據(jù)和問題上運行和測試它們來擅長編程。
是的,編碼是必不可少的,但更重要的是理解代碼的(好的)架構(gòu)。而這只能通過查看其他代碼來了解。
一個事實是,代碼越來越成為一種商品,甚至出現(xiàn)了無代碼工具。區(qū)分者將不再是那些能編碼和不能編碼的人,而是那些理解其架構(gòu)和不理解其架構(gòu)的人。
我向您展示另一個示例:我假設(shè)您已經(jīng)使用了TensorFlow。但你明白是什么嗎?它是做什么的?以及它為什么被稱為“TensorFlow”?你知道張量是什么嗎?不僅僅是張量積的機械計算,它在幾何上意味著什么?
學習數(shù)據(jù)科學是一種嘗試和錯誤。只有當你做了盡可能多的經(jīng)驗,找出所有的錯誤并解決它們時,你才會有更深的理解。
理論是好的和重要的。你需要了解基本原理。
不幸的是,在實踐中,它很少像理論上那樣起作用。相反,它經(jīng)常以一種方式精確地起作用,正如你所知道的那樣,你不應該這樣做。
所以,你必須從實際的例子開始。通常,您還沒有準備好去做實際的工作:沒有足夠的基礎(chǔ)知識或者沒有足夠的編程經(jīng)驗。
但我強烈建議:即使你覺得還沒有準備好做練習,也要從一開始就開始。它不是一個為期一天或一周的項目。一個1-2小時的小項目就足夠了。
您可以從像RapidMiner或KNIME這樣的無代碼工具開始,也可以使用其他人的代碼并應用它。例如。拿一個簡單的情感分析代碼,用它來推文或產(chǎn)品說明。然后您可以開始更改其他示例的代碼并比較結(jié)果。
當你小時候?qū)W會說話時,你開始用單個單詞或兩三個單詞的表達。一步一步地,你對這種語言建立了一種感覺。數(shù)據(jù)科學的實踐經(jīng)驗也是如此。
專業(yè)提示:學習是循環(huán)的。所以,儲存你的工作。稍后您可以返回,改進它,將其移到GitHub,并使用Tableau添加可視化。
認證沒問題。有很多聲音告訴你,你不應該做認證。但它們可以作為一種動力,最后,它們正式地顯示了你的進步和你對學習的渴望。我還是做證件的。它沒有錯,當你投入時間時,擁有它是合法的。
但它不是市場上的差異化者。事實是,有成千上萬的人有同樣的認證。因此,要擁有競爭優(yōu)勢,你必須超越這一點。
例如,我的一個學生向我尋求金融領(lǐng)域的實習機會。他想學以致用,了解數(shù)據(jù)科學團隊的文化和合作。我可以把他放在銀行里,他可以用銀行寫學期論文。是的,同時做學習、實習和學期論文是很有壓力的。但這將為他提供無價的競爭優(yōu)勢。
大多數(shù)有抱負的數(shù)據(jù)科學家擔心其他數(shù)據(jù)科學家的意見。而且他們聽到的論據(jù)越多,他們就越困惑。即使在清晰的道路上需要混亂,但它不應該保持穩(wěn)定的狀態(tài)。
每一個數(shù)據(jù)科學家都是一個擁有她/他的經(jīng)驗、學習和職業(yè)道路和觀點的個體。我習慣說,“如果你有兩個數(shù)據(jù)科學家在一個房間里,你至少有四個不同的意見。”
把意見作為靈感和作為搜索信息的指南是好的,但不是作為信息本身。
尋找確鑿的事實。得出合乎邏輯的結(jié)論,驗證并再次更新它們。這是在你的數(shù)據(jù)科學職業(yè)生涯中取得成功的一項重要技能。
許多數(shù)據(jù)科學家認為他們可以將這些方法應用于每個問題和行業(yè),但我可以告訴你,從20多年的經(jīng)驗來看,這是錯誤的。
我經(jīng)??吹綌?shù)據(jù)科學家向商業(yè)人士展示發(fā)現(xiàn),他們的反應是,“哦,我們已經(jīng)知道這一點了。我們需要的是“為什么會發(fā)生這種情況”和“如何解決它”,或者,在最壞的情況下,“這絕對是胡說八道,因為這不是我們的業(yè)務運作方式?!编?!
擁有領(lǐng)域知識比了解所有性別歧視和最花哨的方法更重要。一個數(shù)據(jù)科學家正在解決一個商業(yè)問題,而不是一個技術(shù)問題。通過解決一個業(yè)務問題,你給公司的業(yè)務帶來了價值,而你的價值只有你的解決方案的價值。當你了解業(yè)務時,你就成功地做到了這一點。
我在許多不同的行業(yè)工作過。每次在我開始從事這個行業(yè)之前,我都會讀到很多關(guān)于這個行業(yè)的東西。
只有那時,我才開始與商家互動。
你學習的一半應該包含工業(yè)和商業(yè)知識的發(fā)展。
很容易因為不懂題目而分心或提前放棄。學習數(shù)據(jù)科學是一場馬拉松,而不是短跑。因此,建立一個持續(xù)和一致的學習常規(guī)是至關(guān)重要的。就像馬拉松訓練一樣,你每天都在小單位訓練。
同樣,正如前面所寫的,學習是循環(huán)的。曾經(jīng)研究過一個課題并不意味著你已經(jīng)掌握了它。
我舉個例子。在數(shù)學金融講座中,我不得不學習許多極限定理。考試進行得很好,我確信我理解他們。但七年后,當我不得不審查復雜結(jié)構(gòu)金融產(chǎn)品估值的代碼時,天平從我的眼睛里掉了下來,我意識到直到審查代碼的那一刻我才明白。
所以,每天,或者至少每周,預定幾個小時來學習。不管你是一個有抱負的人還是已經(jīng)是一個資深的數(shù)據(jù)科學家。
學習應包括新的數(shù)據(jù)科學主題、已學過但從另一個角度出發(fā)的主題,例如另一門課程或書籍、新技術(shù)和技術(shù)趨勢、工業(yè)和商業(yè)知識、數(shù)據(jù)可視化和數(shù)據(jù)故事,以及數(shù)據(jù)應用。
它增加了一層又一層的理解,在求職面試中,你將能夠通過從不同的角度展示整體觀點來給出令人信服的答案。
在一份數(shù)據(jù)科學工作中,您主要將您的發(fā)現(xiàn)傳達給非技術(shù)人員,特別是業(yè)務人員。生意在資助你的工作。沒有他們的承諾,你的工作和數(shù)據(jù)科學團隊就不會存在。
你的工作是為企業(yè)帶來價值。不是為了應用而應用花哨的方法。
我的一個朋友是一家全球性銀行的數(shù)據(jù)科學主管。當他們雇傭數(shù)據(jù)科學家時,他們會提前兩周給他們發(fā)送一個數(shù)據(jù)集,并要求他們做20分鐘的演示。沒有進一步的投入。他們想看講故事。他們對所使用的方法不感興趣--除了候選人會對所使用的方法說出絕對無稽之談。他們希望看到的是,首先,業(yè)務問題的框架,以及為什么解決它很重要。第二,應該解決什么和最后,如何解決,以及在業(yè)務環(huán)境中的結(jié)果?!斑@是我們一整天做的最重要的工作。候選人在這方面不能盡善盡美,但要表明她/他已經(jīng)明白我們工作中什么是重要的?!?
因此,學習數(shù)據(jù)講故事--甚至有免費的課程--并學習業(yè)務環(huán)境中的數(shù)據(jù)可視化。
許多人認為他們可以通過自己的努力學習數(shù)據(jù)科學。所有其他數(shù)據(jù)科學家都被視為競爭對手,其中一個不愿意交流知識。
但是生活在你的世界里,你只根據(jù)你的選擇來閱讀和學習,這是非常有偏見的,對一個主題或方法的許多觀點都是缺失的。此外,關(guān)于一個主題的開放式論述和在論證中獲得經(jīng)驗是缺失的--這是任何數(shù)據(jù)科學家都需要的技能。
任何有經(jīng)驗的招聘人員在問一兩個問題后都會知道你是一個人表演,還是你有一個生動的網(wǎng)絡來幫助你成倍地獲得知識。這有利于公司,增加您的市場價值和需求。
因此,發(fā)展網(wǎng)絡是至關(guān)重要的。這可以通過參加訓練營、黑客馬拉松和Meetup會議來實現(xiàn)。
現(xiàn)在,你從理論上知道你應該避免什么了。
這些錯誤中的任何一個對你的數(shù)據(jù)科學工作來說都是一個潛在的攪局者。
我知道你還會犯幾個這樣的錯誤。我沒有什么不同。認為“我與眾不同”是人之常情--盡管數(shù)據(jù)說的恰恰相反。但是意識到這些潛在的錯誤將幫助你更快地重新調(diào)整你的路徑,從而更有效地成為一名被要求的數(shù)據(jù)科學家。
增加工作機會的一步一步實際指導
如何戰(zhàn)略性地利用Meetup會議來獲得你夢寐以求的數(shù)據(jù)科學工作
edX 2021上的數(shù)據(jù)科學微主程序最終指南
6個節(jié)目你該選哪一個?
頂級技術(shù)趨勢及其對數(shù)據(jù)科學、機器學習和人工智能的影響
為你和你的事業(yè)制定的行動計劃
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10