
我是如何從物理學(xué)轉(zhuǎn)行到數(shù)據(jù)科學(xué)領(lǐng)域
很多人問我是如果從物理學(xué)轉(zhuǎn)行到數(shù)據(jù)科學(xué),本文講述了關(guān)于我為什么決定成為一名數(shù)據(jù)科學(xué)家,以及我是如何追求并實現(xiàn)目標的。希望能夠最終鼓勵更多的人追求自己的夢想。讓我們開始吧!
CERN 暑期項目
2017年CERN暑期項目
CERN(歐洲核子研究組織)暑期項目為物理、計算機和工程專業(yè)的本科生提供了千載難逢的機會,讓他們前往瑞士日內(nèi)瓦,與頂尖科學(xué)家一起參加研究項目。
2017年6月,我非常幸運地被選中參加這個項目。粒子物理學(xué)是我的研究方向,能夠參加CERN的研究項目讓我欣喜不已。在為期2個月的項目期間,針對CMS(緊湊μ子線圈)實驗,我通過世界級LHC(大型強子對撞機)計算網(wǎng)格和云計算進行了相關(guān)分析和模擬。
CMS(緊湊μ子線圈)
此外,暑期項目還包含了一系列圍繞粒子物理和計算領(lǐng)域的講座、研討會。
在此期間,通過參加講座、研討會以及項目,我開始接觸到機器學(xué)習(xí)和大數(shù)據(jù)分析。令我驚訝的是,機器學(xué)習(xí)技術(shù)能夠處理大量的數(shù)據(jù),并精確的對各種微觀粒子進行分類和檢測。接著我毫不猶豫地投入了對機器學(xué)習(xí)和云計算的探究與學(xué)習(xí)。
誰知道這次經(jīng)歷會成為我人生中的轉(zhuǎn)折點,我打算投身數(shù)據(jù)分析。然而此時我對數(shù)據(jù)科學(xué)的定義仍比較模糊。
數(shù)據(jù)科學(xué)領(lǐng)域初探
當(dāng)我一結(jié)束暑期項目回到新加坡,我就對解數(shù)據(jù)科學(xué)進行了一些探究,令我驚訝的是,這個領(lǐng)域并沒有明確的定義。但總的來說,在我看來,數(shù)據(jù)科學(xué)涵蓋了編程、數(shù)學(xué)、統(tǒng)計知識以及一定專業(yè)知識。
盡管如此,我還是驚訝于數(shù)據(jù)是如何被用來為公司得出分析見解,并驅(qū)動商業(yè)價值。從理解業(yè)務(wù)問題,到收集和進行數(shù)據(jù)可視化,直到構(gòu)建原型開發(fā)階段,進行微調(diào),并將模型部署到實際應(yīng)用程序中,在這些過程中我發(fā)現(xiàn)了通過使用數(shù)據(jù)解決復(fù)雜問題、完成挑戰(zhàn)的滿足感。
“沒有數(shù)據(jù),你只是一個空有想法的人”。
—— W. Edwards Deming
我的出發(fā)點—數(shù)據(jù)可視化
Tableau Dashboard
2017年8月,作為進入數(shù)據(jù)科學(xué)領(lǐng)域的第一步,我參加了由Tableau和IMDA(Infocomm Media Development Authority)共同組織的NIC Face-Off 數(shù)據(jù)競賽,當(dāng)中我首次接觸到數(shù)據(jù)可視化。
當(dāng)中我有機會使用Tableau Public對各種開放數(shù)據(jù)源進行可視化,這些數(shù)據(jù)調(diào)查了東南亞霧霾的起源,并提供了可操作性的的見解。
第一份數(shù)據(jù)分析兼職實習(xí)
在同月,我偶然發(fā)現(xiàn)了一個機會成為了mobilityX的一名數(shù)據(jù)分析實習(xí)生,這是一家由SMRT資助的初創(chuàng)公司。考慮到可讀性和廣泛社區(qū)的支持,我使用Python進行編程。
其實在我大一開始學(xué)習(xí)編程時,我想過放棄。為了運行一個簡單的for循環(huán),我可能要花費好幾天甚至幾周。而且我常常會感覺自己沒有天賦。
直到大三我和教授開始一項研究項目,我才開始對編程產(chǎn)生興趣。我開始使用Python進行構(gòu)建,并喜歡上了這個編程語言。
我開始不在自我懷疑,而是采用以下的步驟學(xué)習(xí)編程:
1. 理解編程的基本邏輯;
2. 選擇一種編程語言并學(xué)習(xí)如何使用(語法等);
3. 練習(xí),練習(xí),再練習(xí);
4. 重復(fù)步驟1-3 。
實習(xí)一直持續(xù)到2018年3月,期間我的收獲頗多。我學(xué)會使用PostgreSQL和Python進行數(shù)據(jù)清理和操作、web抓取以及數(shù)據(jù)提取。
數(shù)據(jù)科學(xué)全職實習(xí)
之前經(jīng)歷進一步強化了我對數(shù)據(jù)科學(xué)的喜愛。之后我計劃了自己的學(xué)習(xí)時間表,并在2017年12月畢業(yè)后,開始了在Quantum Inventions的數(shù)據(jù)科學(xué)全職實習(xí)。
看到這里你可能會問 ,為什么我選擇去實習(xí)而不是一份數(shù)據(jù)科學(xué)的工作?那就是在申請全職工作之前,能夠通過處理實際的數(shù)據(jù),獲得更多的技術(shù)知識,并從頭開始體驗數(shù)據(jù)科學(xué)的整個流程。
學(xué)習(xí)資源
以下總結(jié)了我的學(xué)習(xí)過程,當(dāng)中我接受了很多人的幫助,并充分利用了大量的在線資源。
1. 推薦書籍
我讀的第一本數(shù)據(jù)科學(xué)的書是《統(tǒng)計學(xué)習(xí)導(dǎo)論:基于R應(yīng)用》(An Introduction to Statistical Learning?—?with Applications in R)。這本書對于初學(xué)者是非常不錯的選擇,當(dāng)中著重統(tǒng)計建模和機器學(xué)習(xí)的基本概念,并提供詳細而直觀的解釋。如果你很擅長數(shù)學(xué),那么你肯定會喜歡這本書:《統(tǒng)計學(xué)習(xí)基礎(chǔ)》(The Elements of Statistical Learning)。
還有一些相關(guān)書籍也是不錯的選擇,比如Sebastian Raschka的《面向初學(xué)者的機器學(xué)習(xí)》(Machine Learning for Absolute Beginners),《Python 和機器學(xué)習(xí)》(Python Machine Learning);以及Jake VanderPlas的《Python數(shù)據(jù)科學(xué)手冊》( Python Data Science Handbook)。
2. 在線課程
Coursera
我推薦Coursera聯(lián)合創(chuàng)始人吳恩達的《機器學(xué)習(xí)》課程。他能夠把復(fù)雜的概念分解成更簡單內(nèi)容。該課程為期11周,主要圍繞監(jiān)督式學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及機器學(xué)習(xí)的實際應(yīng)用。當(dāng)構(gòu)建機器學(xué)習(xí)模型時,我仍然會參考該課程講義,用來解決欠擬合或過度擬合的問題。
Udemy
Jose Portilla的《在數(shù)據(jù)科學(xué)和機器學(xué)習(xí)中使用Python》(Python for Data Science and Machine Learning Bootcamp)是不錯的選擇。該課程從Python基礎(chǔ)知識開始,逐步指導(dǎo)你如何使用scikit-learn和TensorFlow實現(xiàn)各種機器學(xué)習(xí)和深度學(xué)習(xí)代碼。本課程詳細介紹了Python中各種庫,用來實現(xiàn)機器學(xué)習(xí)模型。
此外,我強烈推薦Kirill Eremenko和Hadelin de Ponteves的課程《深度學(xué)習(xí)A-Z:人工神經(jīng)網(wǎng)絡(luò)》( Deep Learning A-Z?: Hands-On Artificial Neural Networks )。通過該課程,我第一次接觸到深度學(xué)習(xí)。課程主要通過實際操作的編程教程,把握監(jiān)督和無監(jiān)督深度學(xué)習(xí)。
Lynda
我推薦Lillian Pierson的課程《在數(shù)據(jù)科學(xué)基礎(chǔ)訓(xùn)練中使用Python》( Python for Data Science Essential Training 。該課程以統(tǒng)計分析為基礎(chǔ),圍繞數(shù)據(jù)管理和數(shù)據(jù)可視化。
3. LinkedIn
LinkedIn是與數(shù)據(jù)科學(xué)社區(qū)有緊密聯(lián)系的的強大平臺。人們愿意在上面分享他們的經(jīng)驗、想法和知識,從而幫助他人。在LinkedIn上,我學(xué)習(xí)到了很多,無論是技術(shù)知識還是職業(yè)咨詢等。
4. 其他資源
許多數(shù)據(jù)科學(xué)領(lǐng)域的初學(xué)者經(jīng)常會被大量的資源所淹沒。除了以上資源平臺以外,還有Towards Data Science、Quora、DZone、KDnuggets、Analytics Vidhya、DataTau、fast.ai 等都是不錯的選擇。
建立作品集
個人作品集能夠展示你的經(jīng)驗和能力,特別是當(dāng)你沒有數(shù)據(jù)科學(xué)方面的博士學(xué)位時。
由于我只有物理學(xué)的學(xué)士學(xué)位,我沒有計算機科學(xué)相關(guān)學(xué)位,在大學(xué)的前三年中我也沒有任何相關(guān)的數(shù)據(jù)科學(xué)作品。建立個人作品集是很重要的,因為公司需要知道你學(xué)了些什么,如何能過為公司業(yè)務(wù)貢獻價值。這也是我決定實習(xí)和學(xué)習(xí)在線課程的原因。
不久之前,我和朋友一起參加由Shopee和工程與科技協(xié)會(IET)組織的Kaggle 機器學(xué)習(xí)挑戰(zhàn)賽。這是我第一次參加Kaggle比賽,我學(xué)習(xí)了如何使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遷移學(xué)習(xí)進行圖像識別。
結(jié)語
我分享了我進入數(shù)據(jù)科學(xué)行業(yè)的一些情況,希望我的經(jīng)歷能夠讓你覺得數(shù)據(jù)科學(xué)其實很有趣,并不那么嚇人。直到我接觸到數(shù)據(jù)科學(xué),我才愈發(fā)感受到什么是學(xué)無止境。我希望本文能夠激勵你去挑戰(zhàn)自己,實現(xiàn)自己的夢想。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03