
作者 | Mohammad Shahebaz
來源 | 圖靈TOPIA
本文作者Shahebaz,畢業(yè)于JNTUH大學(xué)電子與通信工程學(xué)院。他最近在Kaggle比賽中獲得了4枚銀牌和1枚金牌獎牌,并且擁有31 枚討論金牌,他現(xiàn)在是其所在國家(印度)最年輕(21歲)的Kaggle X2 Master。
他表示,介紹進入數(shù)據(jù)科學(xué)領(lǐng)域所需技能的文章有很多,分享成功經(jīng)驗和意見的訪談也不少。但很少能找到文章具體介紹他們是如何開始自己的數(shù)據(jù)科學(xué)之旅的。所以,近期他在Medium上撰文分享了自己的成長經(jīng)驗。
他表示,剛開始的時候,自己也是個菜鳥,對很多知識并不是很擅長;并且,數(shù)學(xué)也從來不是自己最喜歡的科目。然而,今天他卻很熱愛這個領(lǐng)域。。。
以下是文章具體內(nèi)容:
少有人走的路
我是最近才開始參加比賽的,并且在過去的9個月中,在各種比賽中贏得了一堆獎牌。這聽起來是不是挺神奇的?
我曾經(jīng)特別害怕參加Kaggle比賽,因為 - 覺得它們很難!
那么,這一切是從什么時候開始改變的呢?
2017年,作為Oppia.org的會員和活躍撰稿人,為了更好地工作,我開始學(xué)習(xí)Python 2.7。
后來我學(xué)會了所謂的“過時”的 Python2.7版本,但是又不得不重新學(xué)習(xí)Python 3。
我?guī)缀鯚o法創(chuàng)建列表或add/join字符串,那時我也只是一名新手程序員。
我在開源貢獻期間學(xué)習(xí)了編程,使用git進行軟件版本控制,以及意識到了良好結(jié)構(gòu)和文檔化代碼的重要性。
有一天,我正在搜索Python 2.7還能做什么的時候,瀏覽了一下互聯(lián)網(wǎng)并登陸了Kaggle。著名的Kaggle 聲明(statement)正盯著我,讀完問題聲明后,我驚奇地盯著屏幕。
“在這次挑戰(zhàn)中,我們要求您完成對哪些人可能存活的分析”
當(dāng)我讀到這個。我感覺到了像追星族般的驚奇。預(yù)測幸存的人?這是什么樣的黑魔法?我甚至立刻檢查了Kaggle網(wǎng)站的真實性,第二個驚奇的時刻就是我意識到 -
數(shù)據(jù)科學(xué)聽起來像是21世紀(jì)非常真實的科幻技術(shù)!
就像一部科幻電影突然在我的現(xiàn)實生活中出現(xiàn),它的概念對我來說完全陌生。
我決定讓自己進入這個領(lǐng)域。而對數(shù)據(jù)科學(xué)學(xué)習(xí)的熱情一直在我身上保持。(老實說,即使今天也沒有任何消減)
我是如何學(xué)習(xí)的?推薦資源!
▲選擇的悖論——越多越少
如今,網(wǎng)上有很多課程。通過谷歌搜索 - “如何成為數(shù)據(jù)科學(xué)家” ,你就會得到許多結(jié)果,也就很容易陷入選擇的悖論。這種感覺就像在餐館里從琳瑯滿目的選擇中選擇一道美味的開胃菜。就本文的范圍而言,我將列出我最喜歡的幾本書。
Python推薦
如果您使用Python編寫代碼并且您的技能處于中間水平,則本書應(yīng)該放在您的書架上。
《Python的數(shù)據(jù)結(jié)構(gòu)和算法》由Michael T. Goodrich,Roberto Tamassia,Michael H. Goldwasser 撰寫。
▲《Python中的數(shù)據(jù)結(jié)構(gòu)和算法》
本書深入探討了Python中的OOP,數(shù)據(jù)結(jié)構(gòu)和算法的概念。我喜歡本章每一節(jié)的練習(xí)。在制作需要優(yōu)化和格式化編碼的車庫項目時,我仍然將其用于日常參考。
著手機器學(xué)習(xí)基礎(chǔ)知識
結(jié)束Python基礎(chǔ)知識之后。我買了幾本關(guān)于機器學(xué)習(xí)的書,我推薦這本書;
▲《用Python學(xué)習(xí)機器學(xué)習(xí)》
《用Python學(xué)習(xí)機器學(xué)習(xí)》,作者是Andreas C. Müllerand Sarah Guido
它涉及機器學(xué)習(xí)的基礎(chǔ)知識,由scikit-learn的創(chuàng)始人自己編寫,它是一本完整的初學(xué)者入門書。
讀這本書讓我非常熟悉scikit-learn,我最終還在官方的scikit-learn存儲庫中推了幾個PR。
但是,如果您熟悉數(shù)據(jù)科學(xué)并已進入任何機器學(xué)習(xí)競賽的前20%,您會發(fā)現(xiàn)上述的書挺無聊的。但是,如果你仔細閱讀,肯定有一些方便的技巧和方法可以幫助你在比賽中獲得優(yōu)勢。
另一本比MOOC更值得推薦的書是《Introduction to Statistical Learning with Applications in R》
如果我是一名面試官,我會找一個在理論和實踐中理解ISLR的人。
▲《ISLR》
這本書是關(guān)于R語言的。但是,我仍然十分推薦它。
通常在研究背景下,對于想要深入挖掘并達到統(tǒng)計核心的人來說,《統(tǒng)計學(xué)習(xí)的要素》是非常推薦的一本書。ISLR和ESL這兩本書都是可以免費下載的。因此,您不必破費,就可以獲得免費的機器學(xué)習(xí)知識。
▲《統(tǒng)計學(xué)習(xí)的要素》
人們經(jīng)常問我 - 你學(xué)習(xí)機器學(xué)習(xí)的MOOC是什么?
答案是None。
我發(fā)現(xiàn)在線課程沒有效果。至少,我注冊的那些沒有效果。有以下幾個原因:
這并不意味著我討厭MOOC。事實上,我計劃在今年完成一些工作。我建議你把基礎(chǔ)打牢,而不是專注于觀看只針對單一課程的視頻內(nèi)容。閱讀書籍和資源肯定擴展了我對某些概念的認識,我現(xiàn)在可以從不同的角度來解釋這些概念。
初學(xué)者的生活
我經(jīng)常在LinkedIn上收到想要從事數(shù)據(jù)科學(xué)的人發(fā)來的信息。但痛苦的現(xiàn)實是,根據(jù)你之前所做的,學(xué)習(xí)曲線并不陡峭。我會讓你從我的經(jīng)歷中走出來。
這是我當(dāng)時的問題:
1、如何開始使用數(shù)據(jù)科學(xué)?
2、我完成了一堆算法。接下來做什么?
3、如何找到工作并搞定數(shù)據(jù)科學(xué)面試?
4、做Kaggle值得嗎?比賽會有所作為嗎?
我非??释玫竭@些問題的答案!
現(xiàn)在,我已經(jīng)通過了系統(tǒng)的學(xué)習(xí),可以用一句話回答你:事情沒那么簡單,這很復(fù)雜。
部分原因是術(shù)語—數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家和ML工程師是三個不同的頭銜。這份工作的性質(zhì)因公司而異。
數(shù)據(jù)分析師有時只能執(zhí)行SQL查詢,或者構(gòu)建模型或進行業(yè)務(wù)分析。有時他們也會成為項目經(jīng)理。
數(shù)據(jù)科學(xué)家有時制作基本模型,其他角色需要博士學(xué)位。研究工作和很少的其他工作需要在大型系統(tǒng)上進行模型調(diào)優(yōu)和部署。
ML Engineer是融合了數(shù)據(jù)科學(xué)知識的軟件工程專業(yè)知識
問題是……
您的夢想數(shù)據(jù)科學(xué)工作沒有固定的職位描述。
許多公司仍在搞清楚“究竟什么屬于數(shù)據(jù)科學(xué),應(yīng)該關(guān)注哪些問題”。在這種情況下,你的學(xué)習(xí)必須是連續(xù)的,而不是受MOOC課程時間限制的,這一點變得非常重要。
追隨你的激情,解決問題。比如從你的Android手機上收集數(shù)據(jù),匯總推文研究你最喜歡的演員的粉絲,在《復(fù)仇者聯(lián)盟3:無限戰(zhàn)爭》中應(yīng)用奇怪的機器學(xué)習(xí)案例等等。
▲我的圖像說明項目
想象力是無限的,ML也有無限的可能性?,F(xiàn)在讓我們來探索成為一名更好的數(shù)據(jù)科學(xué)家的能力技能。
數(shù)據(jù)科學(xué)愛好者的目標(biāo)清單
該列表適用于數(shù)據(jù)科學(xué)家角色,但是如果您申請領(lǐng)域特定的角色,則可能需要更多的技能。
1. 掌握統(tǒng)計和概率:比較容易,這項技能數(shù)據(jù)科學(xué)領(lǐng)域的面包和黃油。我強烈推薦面包優(yōu)先的方法,除非你是寫研究論文或在學(xué)術(shù)界的角色。
在現(xiàn)實世界中,雖然在編寫代碼時不會經(jīng)常使用stats知識。但是,掌握好stas知識不僅能讓你成為更好的數(shù)據(jù)科學(xué)家,還能幫助你做出關(guān)鍵決定。
2. 參與數(shù)據(jù)科學(xué)競賽:主要是學(xué)習(xí)不一定非要贏比賽。我明白在比賽中獲勝并且贏得獎金聽起來有利可圖。我花了100多場比賽才進入我的第一個50強排行榜。沒有人從第一天開始就是贏家。比賽將幫助您在競爭激烈的世界中回顧自己的成長。
3.你的項目是你自己最好的代言人:使您的GitHub配置文件保持活躍并完成至少2-3個項目,包括文檔的最終實現(xiàn)。雖然比賽是應(yīng)用你的技能的一種方式,但是對他們的反對聲很大。
比賽并不是現(xiàn)實世界數(shù)據(jù)科學(xué)任務(wù)的同義詞。他們就像在一家五星級餐廳品嘗現(xiàn)成的拼盤。
從頭開始貢獻或處理項目將使您在實際數(shù)據(jù)科學(xué)任務(wù)中獲得經(jīng)驗,這些任務(wù)才被認為是最重要的。
數(shù)據(jù)科學(xué)&其他
如果你正在尋找一個職位,如果職位描述要求你全能:既要求你是數(shù)據(jù)科學(xué)家又要有8-10年“spark”經(jīng)驗。
趕緊跑吧!(Spark是2011年推出的!)
有很多公司只是因為媒體炒作或者人云亦云的趨勢而想要去推動數(shù)據(jù)科學(xué)。
有時候,他們需要的只是.groupby(),而不是機器學(xué)習(xí)。
未來的工作角色將會大不相同。作為一名數(shù)據(jù)科學(xué)家,請確定您想要進入的領(lǐng)域。目標(biāo)是你在那個領(lǐng)域的項目和競賽。
招聘人員更傾向于雇傭已經(jīng)從事過公司目前正在從事的工作的人。
假設(shè)你要去一家餐廳吃海德拉巴Biryani。你會喜歡一個剛剛在YouTube上看過菜譜的新廚師,還是喜歡一家專門制作正宗海德拉巴Biryani的餐廳?公司也是如此。他們想要的是一個有經(jīng)驗的人。
例如:我經(jīng)常堅持參加金融領(lǐng)域和NLP的競賽。這是我?guī)讉€月前接受采訪時最大的優(yōu)勢。我可以問更多與領(lǐng)域相關(guān)的問題,了解公司目前正在進行哪些項目,以及我認為自己適合哪些領(lǐng)域。
畢竟,比工作更重要的是,可以在你最喜歡的項目度過每個星期一上午。
寫在最后
我遇到了這樣一個奇妙的場景,實際上是一個極端的場景。想象一下,如果Tensorflow消失了會怎樣?
您意識到您不再是數(shù)據(jù)科學(xué)家和ML工程師了!
這個想象很有趣但也合法。
未來可能會有一些新的工具和數(shù)據(jù)科學(xué)庫。曾經(jīng)XGBoost是商業(yè)機密算法,現(xiàn)在它完全開源。明天,其他一些工具將改變數(shù)據(jù)游戲。
AutoML已經(jīng)在引領(lǐng)下一代數(shù)據(jù)科學(xué)解決方案。我親自從H2O.ai中找到無人駕駛 AI !
當(dāng)重復(fù)性任務(wù)自動化時,業(yè)界總會出現(xiàn)問題。讓自己了解并學(xué)習(xí)核心技能,而不是少數(shù)庫的語法。探索:
你需要讓自己時刻保持學(xué)習(xí)和成長。
打個比方,如果您自己不進行.transform()和.fit()改進,那么您將成為一個under fit分類器~
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03