
我是如何從物理學轉(zhuǎn)行到數(shù)據(jù)科學領域
很多人問我是如果從物理學轉(zhuǎn)行到數(shù)據(jù)科學,本文講述了關(guān)于我為什么決定成為一名數(shù)據(jù)科學家,以及我是如何追求并實現(xiàn)目標的。希望能夠最終鼓勵更多的人追求自己的夢想。讓我們開始吧!
CERN 暑期項目
2017年CERN暑期項目
CERN(歐洲核子研究組織)暑期項目為物理、計算機和工程專業(yè)的本科生提供了千載難逢的機會,讓他們前往瑞士日內(nèi)瓦,與頂尖科學家一起參加研究項目。
2017年6月,我非常幸運地被選中參加這個項目。粒子物理學是我的研究方向,能夠參加CERN的研究項目讓我欣喜不已。在為期2個月的項目期間,針對CMS(緊湊μ子線圈)實驗,我通過世界級LHC(大型強子對撞機)計算網(wǎng)格和云計算進行了相關(guān)分析和模擬。
CMS(緊湊μ子線圈)
此外,暑期項目還包含了一系列圍繞粒子物理和計算領域的講座、研討會。
在此期間,通過參加講座、研討會以及項目,我開始接觸到機器學習和大數(shù)據(jù)分析。令我驚訝的是,機器學習技術(shù)能夠處理大量的數(shù)據(jù),并精確的對各種微觀粒子進行分類和檢測。接著我毫不猶豫地投入了對機器學習和云計算的探究與學習。
誰知道這次經(jīng)歷會成為我人生中的轉(zhuǎn)折點,我打算投身數(shù)據(jù)分析。然而此時我對數(shù)據(jù)科學的定義仍比較模糊。
數(shù)據(jù)科學領域初探
當我一結(jié)束暑期項目回到新加坡,我就對解數(shù)據(jù)科學進行了一些探究,令我驚訝的是,這個領域并沒有明確的定義。但總的來說,在我看來,數(shù)據(jù)科學涵蓋了編程、數(shù)學、統(tǒng)計知識以及一定專業(yè)知識。
盡管如此,我還是驚訝于數(shù)據(jù)是如何被用來為公司得出分析見解,并驅(qū)動商業(yè)價值。從理解業(yè)務問題,到收集和進行數(shù)據(jù)可視化,直到構(gòu)建原型開發(fā)階段,進行微調(diào),并將模型部署到實際應用程序中,在這些過程中我發(fā)現(xiàn)了通過使用數(shù)據(jù)解決復雜問題、完成挑戰(zhàn)的滿足感。
“沒有數(shù)據(jù),你只是一個空有想法的人”。
—— W. Edwards Deming
我的出發(fā)點—數(shù)據(jù)可視化
Tableau Dashboard
2017年8月,作為進入數(shù)據(jù)科學領域的第一步,我參加了由Tableau和IMDA(Infocomm Media Development Authority)共同組織的NIC Face-Off 數(shù)據(jù)競賽,當中我首次接觸到數(shù)據(jù)可視化。
當中我有機會使用Tableau Public對各種開放數(shù)據(jù)源進行可視化,這些數(shù)據(jù)調(diào)查了東南亞霧霾的起源,并提供了可操作性的的見解。
第一份數(shù)據(jù)分析兼職實習
在同月,我偶然發(fā)現(xiàn)了一個機會成為了mobilityX的一名數(shù)據(jù)分析實習生,這是一家由SMRT資助的初創(chuàng)公司??紤]到可讀性和廣泛社區(qū)的支持,我使用Python進行編程。
其實在我大一開始學習編程時,我想過放棄。為了運行一個簡單的for循環(huán),我可能要花費好幾天甚至幾周。而且我常常會感覺自己沒有天賦。
直到大三我和教授開始一項研究項目,我才開始對編程產(chǎn)生興趣。我開始使用Python進行構(gòu)建,并喜歡上了這個編程語言。
我開始不在自我懷疑,而是采用以下的步驟學習編程:
1. 理解編程的基本邏輯;
2. 選擇一種編程語言并學習如何使用(語法等);
3. 練習,練習,再練習;
4. 重復步驟1-3 。
實習一直持續(xù)到2018年3月,期間我的收獲頗多。我學會使用PostgreSQL和Python進行數(shù)據(jù)清理和操作、web抓取以及數(shù)據(jù)提取。
數(shù)據(jù)科學全職實習
之前經(jīng)歷進一步強化了我對數(shù)據(jù)科學的喜愛。之后我計劃了自己的學習時間表,并在2017年12月畢業(yè)后,開始了在Quantum Inventions的數(shù)據(jù)科學全職實習。
看到這里你可能會問 ,為什么我選擇去實習而不是一份數(shù)據(jù)科學的工作?那就是在申請全職工作之前,能夠通過處理實際的數(shù)據(jù),獲得更多的技術(shù)知識,并從頭開始體驗數(shù)據(jù)科學的整個流程。
學習資源
以下總結(jié)了我的學習過程,當中我接受了很多人的幫助,并充分利用了大量的在線資源。
1. 推薦書籍
我讀的第一本數(shù)據(jù)科學的書是《統(tǒng)計學習導論:基于R應用》(An Introduction to Statistical Learning?—?with Applications in R)。這本書對于初學者是非常不錯的選擇,當中著重統(tǒng)計建模和機器學習的基本概念,并提供詳細而直觀的解釋。如果你很擅長數(shù)學,那么你肯定會喜歡這本書:《統(tǒng)計學習基礎》(The Elements of Statistical Learning)。
還有一些相關(guān)書籍也是不錯的選擇,比如Sebastian Raschka的《面向初學者的機器學習》(Machine Learning for Absolute Beginners),《Python 和機器學習》(Python Machine Learning);以及Jake VanderPlas的《Python數(shù)據(jù)科學手冊》( Python Data Science Handbook)。
2. 在線課程
Coursera
我推薦Coursera聯(lián)合創(chuàng)始人吳恩達的《機器學習》課程。他能夠把復雜的概念分解成更簡單內(nèi)容。該課程為期11周,主要圍繞監(jiān)督式學習、無監(jiān)督學習以及機器學習的實際應用。當構(gòu)建機器學習模型時,我仍然會參考該課程講義,用來解決欠擬合或過度擬合的問題。
Udemy
Jose Portilla的《在數(shù)據(jù)科學和機器學習中使用Python》(Python for Data Science and Machine Learning Bootcamp)是不錯的選擇。該課程從Python基礎知識開始,逐步指導你如何使用scikit-learn和TensorFlow實現(xiàn)各種機器學習和深度學習代碼。本課程詳細介紹了Python中各種庫,用來實現(xiàn)機器學習模型。
此外,我強烈推薦Kirill Eremenko和Hadelin de Ponteves的課程《深度學習A-Z:人工神經(jīng)網(wǎng)絡》( Deep Learning A-Z?: Hands-On Artificial Neural Networks )。通過該課程,我第一次接觸到深度學習。課程主要通過實際操作的編程教程,把握監(jiān)督和無監(jiān)督深度學習。
Lynda
我推薦Lillian Pierson的課程《在數(shù)據(jù)科學基礎訓練中使用Python》( Python for Data Science Essential Training 。該課程以統(tǒng)計分析為基礎,圍繞數(shù)據(jù)管理和數(shù)據(jù)可視化。
3. LinkedIn
LinkedIn是與數(shù)據(jù)科學社區(qū)有緊密聯(lián)系的的強大平臺。人們愿意在上面分享他們的經(jīng)驗、想法和知識,從而幫助他人。在LinkedIn上,我學習到了很多,無論是技術(shù)知識還是職業(yè)咨詢等。
4. 其他資源
許多數(shù)據(jù)科學領域的初學者經(jīng)常會被大量的資源所淹沒。除了以上資源平臺以外,還有Towards Data Science、Quora、DZone、KDnuggets、Analytics Vidhya、DataTau、fast.ai 等都是不錯的選擇。
建立作品集
個人作品集能夠展示你的經(jīng)驗和能力,特別是當你沒有數(shù)據(jù)科學方面的博士學位時。
由于我只有物理學的學士學位,我沒有計算機科學相關(guān)學位,在大學的前三年中我也沒有任何相關(guān)的數(shù)據(jù)科學作品。建立個人作品集是很重要的,因為公司需要知道你學了些什么,如何能過為公司業(yè)務貢獻價值。這也是我決定實習和學習在線課程的原因。
不久之前,我和朋友一起參加由Shopee和工程與科技協(xié)會(IET)組織的Kaggle 機器學習挑戰(zhàn)賽。這是我第一次參加Kaggle比賽,我學習了如何使用卷積神經(jīng)網(wǎng)絡(CNN)和遷移學習進行圖像識別。
結(jié)語
我分享了我進入數(shù)據(jù)科學行業(yè)的一些情況,希望我的經(jīng)歷能夠讓你覺得數(shù)據(jù)科學其實很有趣,并不那么嚇人。直到我接觸到數(shù)據(jù)科學,我才愈發(fā)感受到什么是學無止境。我希望本文能夠激勵你去挑戰(zhàn)自己,實現(xiàn)自己的夢想。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10