
數(shù)據(jù)科學(xué)是成功的。全球成千上萬的學(xué)生報(bào)名參加在線課程,甚至數(shù)據(jù)科學(xué)碩士課程。
數(shù)據(jù)科學(xué)領(lǐng)域是一個競爭非常激烈的市場,尤其是在一家大型科技公司獲得一份(假設(shè)的)夢想工作。積極的消息是,通過充分的準(zhǔn)備,你已經(jīng)掌握了在這樣一個職位上獲得競爭優(yōu)勢的機(jī)會。
另一方面,也有很多MOOC、碩士課程、訓(xùn)練營、博客、視頻和數(shù)據(jù)科學(xué)院。作為一個初學(xué)者,你感到失落。我應(yīng)該上哪門課?我應(yīng)該學(xué)習(xí)哪些主題?我需要關(guān)注哪些方法?我必須學(xué)習(xí)什么工具和編程語言?
事實(shí)是,每個數(shù)據(jù)科學(xué)家都有她/他的個人旅程,并偏向于那條學(xué)習(xí)道路。所以,如果不了解你,很難說什么是對你最好的方法。
但也有所有數(shù)據(jù)科學(xué)家一遍又一遍地犯的共同錯誤。即使知道了它們,你也不會完全回避它們,但最終,你會更早地停止去做它們,并發(fā)現(xiàn)更快地回到成功的道路上。
基于我在數(shù)據(jù)科學(xué)領(lǐng)域20多年的經(jīng)驗(yàn),帶領(lǐng)多達(dá)150人的團(tuán)隊(duì),并仍然在全球領(lǐng)先的大學(xué)之一兼職授課,我為你總結(jié)了避免更快實(shí)現(xiàn)夢想的核心錯誤。
錯誤給出了作為一個初學(xué)者的數(shù)據(jù)科學(xué)家的學(xué)習(xí)進(jìn)度的順序。
我知道你被所有的課程淹沒了,你盡量不犯任何錯誤。你想有效地投資你的時間和金錢,選擇正確的方法,承諾最快和最好的成功。
不幸的是,在任何技術(shù)和科學(xué)領(lǐng)域都沒有立竿見影的成功,為了最好的成功,你不會有任何比較。
事實(shí)是,今天,所有已建立的平臺、學(xué)院和研究所都有很好的課程。所以,不要過度思考和分析課程。勇敢地選擇一個,完成那個課程,然后再選擇另一個。
最關(guān)鍵的方面是開始和做。你不能在這里犯錯誤,因?yàn)槟慵炔恢滥愕穆贸蹋膊恢喇?dāng)選擇另一個時,它會有什么不同。沒人能告訴你。經(jīng)期。
同樣重要的是要認(rèn)識到學(xué)習(xí)是循環(huán)的,而不是線性的。選修一門數(shù)據(jù)科學(xué)課程并不排除你正在選修另一門。
在我多年的經(jīng)驗(yàn)之后,我仍然從事數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和人工智能訓(xùn)練。在每一個仍然如此“簡單”的初學(xué)者課程中,我發(fā)現(xiàn)了一個新的方面和關(guān)于這個主題的新觀點(diǎn)。而這正是最終造就一個高要求數(shù)據(jù)科學(xué)家的原因。它是理解對一個主題的所有不同觀點(diǎn)。
許多有抱負(fù)的數(shù)據(jù)科學(xué)家認(rèn)為,簡歷中提到的盡可能多的方法有助于更快地找到工作。但事實(shí)恰恰相反。當(dāng)你在六個月前開始為每個招聘人員提供數(shù)據(jù)科學(xué)時,很明顯,這是一個沒有實(shí)質(zhì)內(nèi)容的流行語。
如果我們看回歸模型,有很多書只是關(guān)于回歸。有50多種回歸類型,每種都有不同的前提條件。所以,只有“回歸”在你的簡歷中沒有說什么。此外,回歸模型仍然是應(yīng)用程序的最重要的模型,并為一般的數(shù)據(jù)科學(xué)奠定了理解的基礎(chǔ)。
你必須明白用一種方法解決的是什么;假設(shè)是什么;參數(shù)是什么意思;什么是陷阱;等等,等等。
根據(jù)簡歷和回歸知識的描述,每一個有經(jīng)驗(yàn)的招聘人員--或者今天,這個過程背后的算法--都可以識別你理解的深度。
只對少數(shù)幾種方法有深入的知識和經(jīng)驗(yàn),總比對許多方法一無所知要好。
當(dāng)開始編碼時,人們認(rèn)為他們必須迅速開始編碼和重新編程盡可能多的算法。另外,在這里你應(yīng)該集中于理解幾個而不是數(shù)量。
首先,你需要了解編碼的先決條件:線性代數(shù)、數(shù)學(xué)歸納法、離散數(shù)學(xué)、幾何學(xué)--是的,這是優(yōu)秀程序員的強(qiáng)項(xiàng),但經(jīng)常被數(shù)據(jù)科學(xué)家遺忘,統(tǒng)計(jì)學(xué)和概率論、微積分、布爾代數(shù)和圖論。
我并沒有因?yàn)榫幋a更多而變得更好更快。我通過理解數(shù)學(xué)基礎(chǔ),審查其他人的代碼,并在不同的數(shù)據(jù)和問題上運(yùn)行和測試它們來擅長編程。
是的,編碼是必不可少的,但更重要的是理解代碼的(好的)架構(gòu)。而這只能通過查看其他代碼來了解。
一個事實(shí)是,代碼越來越成為一種商品,甚至出現(xiàn)了無代碼工具。區(qū)分者將不再是那些能編碼和不能編碼的人,而是那些理解其架構(gòu)和不理解其架構(gòu)的人。
我向您展示另一個示例:我假設(shè)您已經(jīng)使用了TensorFlow。但你明白是什么嗎?它是做什么的?以及它為什么被稱為“TensorFlow”?你知道張量是什么嗎?不僅僅是張量積的機(jī)械計(jì)算,它在幾何上意味著什么?
學(xué)習(xí)數(shù)據(jù)科學(xué)是一種嘗試和錯誤。只有當(dāng)你做了盡可能多的經(jīng)驗(yàn),找出所有的錯誤并解決它們時,你才會有更深的理解。
理論是好的和重要的。你需要了解基本原理。
不幸的是,在實(shí)踐中,它很少像理論上那樣起作用。相反,它經(jīng)常以一種方式精確地起作用,正如你所知道的那樣,你不應(yīng)該這樣做。
所以,你必須從實(shí)際的例子開始。通常,您還沒有準(zhǔn)備好去做實(shí)際的工作:沒有足夠的基礎(chǔ)知識或者沒有足夠的編程經(jīng)驗(yàn)。
但我強(qiáng)烈建議:即使你覺得還沒有準(zhǔn)備好做練習(xí),也要從一開始就開始。它不是一個為期一天或一周的項(xiàng)目。一個1-2小時的小項(xiàng)目就足夠了。
您可以從像RapidMiner或KNIME這樣的無代碼工具開始,也可以使用其他人的代碼并應(yīng)用它。例如。拿一個簡單的情感分析代碼,用它來推文或產(chǎn)品說明。然后您可以開始更改其他示例的代碼并比較結(jié)果。
當(dāng)你小時候?qū)W會說話時,你開始用單個單詞或兩三個單詞的表達(dá)。一步一步地,你對這種語言建立了一種感覺。數(shù)據(jù)科學(xué)的實(shí)踐經(jīng)驗(yàn)也是如此。
專業(yè)提示:學(xué)習(xí)是循環(huán)的。所以,儲存你的工作。稍后您可以返回,改進(jìn)它,將其移到GitHub,并使用Tableau添加可視化。
認(rèn)證沒問題。有很多聲音告訴你,你不應(yīng)該做認(rèn)證。但它們可以作為一種動力,最后,它們正式地顯示了你的進(jìn)步和你對學(xué)習(xí)的渴望。我還是做證件的。它沒有錯,當(dāng)你投入時間時,擁有它是合法的。
但它不是市場上的差異化者。事實(shí)是,有成千上萬的人有同樣的認(rèn)證。因此,要擁有競爭優(yōu)勢,你必須超越這一點(diǎn)。
例如,我的一個學(xué)生向我尋求金融領(lǐng)域的實(shí)習(xí)機(jī)會。他想學(xué)以致用,了解數(shù)據(jù)科學(xué)團(tuán)隊(duì)的文化和合作。我可以把他放在銀行里,他可以用銀行寫學(xué)期論文。是的,同時做學(xué)習(xí)、實(shí)習(xí)和學(xué)期論文是很有壓力的。但這將為他提供無價的競爭優(yōu)勢。
大多數(shù)有抱負(fù)的數(shù)據(jù)科學(xué)家擔(dān)心其他數(shù)據(jù)科學(xué)家的意見。而且他們聽到的論據(jù)越多,他們就越困惑。即使在清晰的道路上需要混亂,但它不應(yīng)該保持穩(wěn)定的狀態(tài)。
每一個數(shù)據(jù)科學(xué)家都是一個擁有她/他的經(jīng)驗(yàn)、學(xué)習(xí)和職業(yè)道路和觀點(diǎn)的個體。我習(xí)慣說,“如果你有兩個數(shù)據(jù)科學(xué)家在一個房間里,你至少有四個不同的意見?!?
把意見作為靈感和作為搜索信息的指南是好的,但不是作為信息本身。
尋找確鑿的事實(shí)。得出合乎邏輯的結(jié)論,驗(yàn)證并再次更新它們。這是在你的數(shù)據(jù)科學(xué)職業(yè)生涯中取得成功的一項(xiàng)重要技能。
許多數(shù)據(jù)科學(xué)家認(rèn)為他們可以將這些方法應(yīng)用于每個問題和行業(yè),但我可以告訴你,從20多年的經(jīng)驗(yàn)來看,這是錯誤的。
我經(jīng)??吹綌?shù)據(jù)科學(xué)家向商業(yè)人士展示發(fā)現(xiàn),他們的反應(yīng)是,“哦,我們已經(jīng)知道這一點(diǎn)了。我們需要的是“為什么會發(fā)生這種情況”和“如何解決它”,或者,在最壞的情況下,“這絕對是胡說八道,因?yàn)檫@不是我們的業(yè)務(wù)運(yùn)作方式。”嘣!
擁有領(lǐng)域知識比了解所有性別歧視和最花哨的方法更重要。一個數(shù)據(jù)科學(xué)家正在解決一個商業(yè)問題,而不是一個技術(shù)問題。通過解決一個業(yè)務(wù)問題,你給公司的業(yè)務(wù)帶來了價值,而你的價值只有你的解決方案的價值。當(dāng)你了解業(yè)務(wù)時,你就成功地做到了這一點(diǎn)。
我在許多不同的行業(yè)工作過。每次在我開始從事這個行業(yè)之前,我都會讀到很多關(guān)于這個行業(yè)的東西。
只有那時,我才開始與商家互動。
你學(xué)習(xí)的一半應(yīng)該包含工業(yè)和商業(yè)知識的發(fā)展。
很容易因?yàn)椴欢}目而分心或提前放棄。學(xué)習(xí)數(shù)據(jù)科學(xué)是一場馬拉松,而不是短跑。因此,建立一個持續(xù)和一致的學(xué)習(xí)常規(guī)是至關(guān)重要的。就像馬拉松訓(xùn)練一樣,你每天都在小單位訓(xùn)練。
同樣,正如前面所寫的,學(xué)習(xí)是循環(huán)的。曾經(jīng)研究過一個課題并不意味著你已經(jīng)掌握了它。
我舉個例子。在數(shù)學(xué)金融講座中,我不得不學(xué)習(xí)許多極限定理。考試進(jìn)行得很好,我確信我理解他們。但七年后,當(dāng)我不得不審查復(fù)雜結(jié)構(gòu)金融產(chǎn)品估值的代碼時,天平從我的眼睛里掉了下來,我意識到直到審查代碼的那一刻我才明白。
所以,每天,或者至少每周,預(yù)定幾個小時來學(xué)習(xí)。不管你是一個有抱負(fù)的人還是已經(jīng)是一個資深的數(shù)據(jù)科學(xué)家。
學(xué)習(xí)應(yīng)包括新的數(shù)據(jù)科學(xué)主題、已學(xué)過但從另一個角度出發(fā)的主題,例如另一門課程或書籍、新技術(shù)和技術(shù)趨勢、工業(yè)和商業(yè)知識、數(shù)據(jù)可視化和數(shù)據(jù)故事,以及數(shù)據(jù)應(yīng)用。
它增加了一層又一層的理解,在求職面試中,你將能夠通過從不同的角度展示整體觀點(diǎn)來給出令人信服的答案。
在一份數(shù)據(jù)科學(xué)工作中,您主要將您的發(fā)現(xiàn)傳達(dá)給非技術(shù)人員,特別是業(yè)務(wù)人員。生意在資助你的工作。沒有他們的承諾,你的工作和數(shù)據(jù)科學(xué)團(tuán)隊(duì)就不會存在。
你的工作是為企業(yè)帶來價值。不是為了應(yīng)用而應(yīng)用花哨的方法。
我的一個朋友是一家全球性銀行的數(shù)據(jù)科學(xué)主管。當(dāng)他們雇傭數(shù)據(jù)科學(xué)家時,他們會提前兩周給他們發(fā)送一個數(shù)據(jù)集,并要求他們做20分鐘的演示。沒有進(jìn)一步的投入。他們想看講故事。他們對所使用的方法不感興趣--除了候選人會對所使用的方法說出絕對無稽之談。他們希望看到的是,首先,業(yè)務(wù)問題的框架,以及為什么解決它很重要。第二,應(yīng)該解決什么和最后,如何解決,以及在業(yè)務(wù)環(huán)境中的結(jié)果?!斑@是我們一整天做的最重要的工作。候選人在這方面不能盡善盡美,但要表明她/他已經(jīng)明白我們工作中什么是重要的?!?
因此,學(xué)習(xí)數(shù)據(jù)講故事--甚至有免費(fèi)的課程--并學(xué)習(xí)業(yè)務(wù)環(huán)境中的數(shù)據(jù)可視化。
許多人認(rèn)為他們可以通過自己的努力學(xué)習(xí)數(shù)據(jù)科學(xué)。所有其他數(shù)據(jù)科學(xué)家都被視為競爭對手,其中一個不愿意交流知識。
但是生活在你的世界里,你只根據(jù)你的選擇來閱讀和學(xué)習(xí),這是非常有偏見的,對一個主題或方法的許多觀點(diǎn)都是缺失的。此外,關(guān)于一個主題的開放式論述和在論證中獲得經(jīng)驗(yàn)是缺失的--這是任何數(shù)據(jù)科學(xué)家都需要的技能。
任何有經(jīng)驗(yàn)的招聘人員在問一兩個問題后都會知道你是一個人表演,還是你有一個生動的網(wǎng)絡(luò)來幫助你成倍地獲得知識。這有利于公司,增加您的市場價值和需求。
因此,發(fā)展網(wǎng)絡(luò)是至關(guān)重要的。這可以通過參加訓(xùn)練營、黑客馬拉松和Meetup會議來實(shí)現(xiàn)。
現(xiàn)在,你從理論上知道你應(yīng)該避免什么了。
這些錯誤中的任何一個對你的數(shù)據(jù)科學(xué)工作來說都是一個潛在的攪局者。
我知道你還會犯幾個這樣的錯誤。我沒有什么不同。認(rèn)為“我與眾不同”是人之常情--盡管數(shù)據(jù)說的恰恰相反。但是意識到這些潛在的錯誤將幫助你更快地重新調(diào)整你的路徑,從而更有效地成為一名被要求的數(shù)據(jù)科學(xué)家。
增加工作機(jī)會的一步一步實(shí)際指導(dǎo)
如何戰(zhàn)略性地利用Meetup會議來獲得你夢寐以求的數(shù)據(jù)科學(xué)工作
edX 2021上的數(shù)據(jù)科學(xué)微主程序最終指南
6個節(jié)目你該選哪一個?
頂級技術(shù)趨勢及其對數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和人工智能的影響
為你和你的事業(yè)制定的行動計(jì)劃
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03