
數(shù)據(jù)現(xiàn)在被認(rèn)為是增長最快、價(jià)值數(shù)十億美元的行業(yè)之一。因此,公司和組織正試圖最大限度地利用他們已經(jīng)擁有的數(shù)據(jù),并確定他們?nèi)匀恍枰东@和存儲(chǔ)哪些數(shù)據(jù)。此外,對數(shù)據(jù)科學(xué)家來說,理解這些數(shù)字的意義并為混亂的商業(yè)問題揭示隱藏的解決方案仍然是一個(gè)令人難以置信的需求。最近使用LinkedIn求職工具進(jìn)行的一項(xiàng)研究顯示,2020年的大多數(shù)頂級科技職位都需要數(shù)據(jù)科學(xué)技能。
在數(shù)據(jù)科學(xué)領(lǐng)域有許多令人興奮的機(jī)會(huì),對自己進(jìn)行數(shù)據(jù)科學(xué)方面的教育是獲得在這個(gè)競爭領(lǐng)域脫穎而出所需的技能和經(jīng)驗(yàn)的一個(gè)很好的方法,也是讓你的雇主在競爭中占據(jù)優(yōu)勢的一個(gè)很好的途徑。在進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域之前,檢查以下問題以評估數(shù)據(jù)科學(xué)是否真的適合您是很重要的。
數(shù)據(jù)科學(xué)是一個(gè)如此廣泛的領(lǐng)域,包括數(shù)據(jù)準(zhǔn)備和探索、數(shù)據(jù)表示和轉(zhuǎn)換、數(shù)據(jù)可視化和表示、預(yù)測分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、人工智能等幾個(gè)細(xì)分領(lǐng)域??梢钥紤]數(shù)據(jù)科學(xué)能力的三個(gè)級別(3個(gè)級別是根據(jù)現(xiàn)有最好的機(jī)器學(xué)習(xí)教科書之一所涉及的主題定義的:Sebastien Raschka的Python machine learning,3RdEdition),即:Level1(基本級別);Level2(中級級別);和Level 3(高級)。能力從級別1增加到級別3,如下面的圖1所示。
數(shù)據(jù)科學(xué)家利用數(shù)據(jù)得出意義和有洞察力的結(jié)論,這些結(jié)論可以推動(dòng)機(jī)構(gòu)或組織的決策。他們的工作職責(zé)包括數(shù)據(jù)收集、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)可視化和分析、建立預(yù)測模型、根據(jù)數(shù)據(jù)發(fā)現(xiàn)提供實(shí)施行動(dòng)的建議。數(shù)據(jù)科學(xué)家在不同的部門工作,如醫(yī)療保健、政府、工業(yè)、能源、學(xué)術(shù)界、技術(shù)、娛樂等。雇傭數(shù)據(jù)科學(xué)家的一些頂級公司是亞馬遜、谷歌、微軟、臉書、領(lǐng)英、推特、網(wǎng)飛、IBM等。
數(shù)據(jù)科學(xué)家的工作前景非常樂觀,IBM預(yù)測到2020年對數(shù)據(jù)科學(xué)家的需求將飆升28%。最近使用LinkedIn求職工具進(jìn)行的一項(xiàng)研究顯示,2020年的大多數(shù)頂級科技職位都需要數(shù)據(jù)科學(xué)、商業(yè)分析、機(jī)器學(xué)習(xí)和云計(jì)算方面的技能(參見下面的圖2)。
作為一名數(shù)據(jù)科學(xué)家,你的收入取決于你所工作的組織或公司、你的教育背景、你的經(jīng)驗(yàn)?zāi)晗藓湍愕木唧w工作角色。數(shù)據(jù)科學(xué)家的收入在5萬至25萬美元之間,工資中位數(shù)約為12萬美元。這篇文章更多地討論了數(shù)據(jù)科學(xué)家的工資。
大多數(shù)數(shù)據(jù)科學(xué)或業(yè)務(wù)分析程序都需要以下內(nèi)容:
因此,為了準(zhǔn)備數(shù)據(jù)科學(xué)領(lǐng)域的職業(yè)生涯,您可以從攻讀定量學(xué)科的學(xué)士學(xué)位開始,例如科學(xué)、技術(shù)、工程、數(shù)學(xué)、商業(yè)或經(jīng)濟(jì)學(xué)。
如果您對學(xué)習(xí)數(shù)據(jù)科學(xué)的基礎(chǔ)感興趣,您需要從某個(gè)地方開始。不要被數(shù)據(jù)科學(xué)家招聘廣告中提到的編程語言列表所淹沒。雖然學(xué)習(xí)盡可能多的數(shù)據(jù)科學(xué)工具是很重要的,但建議從一兩種編程語言開始。然后,一旦您在數(shù)據(jù)科學(xué)方面建立了堅(jiān)實(shí)的背景,您就可以挑戰(zhàn)自己,學(xué)習(xí)不同的編程語言或不同的平臺(tái)和生產(chǎn)率工具,這些工具可以增強(qiáng)您的技能。根據(jù)這篇文章,Python和R仍然是數(shù)據(jù)科學(xué)中使用的兩種頂級編程語言。我建議從Python開始,因?yàn)樵絹碓蕉嗟膶W(xué)術(shù)培訓(xùn)項(xiàng)目和行業(yè)正在使用Python作為數(shù)據(jù)科學(xué)的默認(rèn)語言。
如果您在分析學(xué)科方面有扎實(shí)的背景,例如物理學(xué)、數(shù)學(xué)、工程學(xué)、計(jì)算機(jī)科學(xué)、經(jīng)濟(jì)學(xué)或統(tǒng)計(jì)學(xué),那么您基本上可以自學(xué)數(shù)據(jù)科學(xué)的基礎(chǔ)知識。您可以從諸如X、Coursera、Ordatacamp等平臺(tái)上的免費(fèi)在線課程開始。第1級能力(參見圖1)可在6至12個(gè)月內(nèi)實(shí)現(xiàn)。第2級能力可在7至18個(gè)月內(nèi)實(shí)現(xiàn)。第3級能力可在18至48個(gè)月內(nèi)實(shí)現(xiàn)。獲得一定水平的能力所需的時(shí)間取決于你的背景和你愿意在數(shù)據(jù)科學(xué)研究上投入多少時(shí)間。通常,具有分析學(xué)科(如物理、數(shù)學(xué)、科學(xué)、工程、會(huì)計(jì)或計(jì)算機(jī)科學(xué))背景的個(gè)人比具有數(shù)據(jù)科學(xué)不互補(bǔ)背景的個(gè)人需要更少的時(shí)間。
數(shù)據(jù)科學(xué)項(xiàng)目可能很長,要求很高。從問題框架到模型構(gòu)建和應(yīng)用,這個(gè)過程可能需要幾周甚至幾個(gè)月的時(shí)間,這取決于問題的規(guī)模。作為一名實(shí)踐中的數(shù)據(jù)科學(xué)家,在一個(gè)項(xiàng)目中遇到障礙是不可避免的。耐心、堅(jiān)韌和毅力是成功的數(shù)據(jù)科學(xué)職業(yè)生涯所必需的關(guān)鍵品質(zhì)。
數(shù)據(jù)科學(xué)是一個(gè)非常實(shí)用的領(lǐng)域。請記住,你可能非常擅長處理數(shù)據(jù),并構(gòu)建良好的機(jī)器學(xué)習(xí)算法,但作為一名數(shù)據(jù)科學(xué)家,現(xiàn)實(shí)世界的應(yīng)用程序才是最重要的。每一個(gè)預(yù)測模型都必須在現(xiàn)實(shí)環(huán)境中產(chǎn)生有意義和可解釋的結(jié)果。預(yù)測模型必須根據(jù)現(xiàn)實(shí)進(jìn)行評估,才能被認(rèn)為有意義和有用。作為一名數(shù)據(jù)科學(xué)家,你的角色是從數(shù)據(jù)中提取有意義的見解,這些見解可以用于數(shù)據(jù)驅(qū)動(dòng)的決策,這些決策可以提高公司的效率或改進(jìn)業(yè)務(wù)進(jìn)行的方式,或者幫助增加利潤。
數(shù)據(jù)科學(xué)家需要能夠與團(tuán)隊(duì)中的其他成員或組織中的業(yè)務(wù)管理員交流他們的想法。良好的溝通技巧將在這里發(fā)揮關(guān)鍵作用,以便能夠向?qū)?shù)據(jù)科學(xué)中的技術(shù)概念了解甚少或根本不了解的人傳達(dá)和呈現(xiàn)非常技術(shù)性的信息。良好的溝通技巧將有助于與其他團(tuán)隊(duì)成員如數(shù)據(jù)分析師、數(shù)據(jù)工程師、現(xiàn)場工程師等建立團(tuán)結(jié)和團(tuán)結(jié)的氛圍。
數(shù)據(jù)科學(xué)是一個(gè)不斷發(fā)展的領(lǐng)域,所以要準(zhǔn)備好擁抱和學(xué)習(xí)新技術(shù)。與該領(lǐng)域的發(fā)展保持聯(lián)系的一種方法是與其他數(shù)據(jù)科學(xué)家建立網(wǎng)絡(luò)。一些促進(jìn)聯(lián)網(wǎng)的平臺(tái)是LinkedIn、GitHub和medium(面向數(shù)據(jù)科學(xué)和面向AI出版物)。這些平臺(tái)對于了解該領(lǐng)域最近發(fā)展的最新信息非常有用。
作為一名數(shù)據(jù)科學(xué)家,您將在一個(gè)由數(shù)據(jù)分析師、工程師、管理員組成的團(tuán)隊(duì)中工作,因此您需要良好的溝通技巧。您還需要成為一個(gè)好的傾聽者,尤其是在項(xiàng)目開發(fā)的早期階段,您需要依賴工程師或其他人員來設(shè)計(jì)和構(gòu)建一個(gè)好的數(shù)據(jù)科學(xué)項(xiàng)目。成為一個(gè)優(yōu)秀的團(tuán)隊(duì)成員可以幫助你在商業(yè)環(huán)境中茁壯成長,并與團(tuán)隊(duì)其他成員以及組織的管理員或董事保持良好的關(guān)系。
在數(shù)據(jù)科學(xué)中,倫理和隱私考慮是必須的。你需要理解你的項(xiàng)目的含義。對自己誠實(shí)。避免操縱數(shù)據(jù)或使用會(huì)故意在結(jié)果中產(chǎn)生偏見的方法。從數(shù)據(jù)收集和分析到模型建立、分析、測試和應(yīng)用的所有階段都要符合道德規(guī)范。避免為了誤導(dǎo)或操縱觀眾而捏造結(jié)果。在解釋數(shù)據(jù)科學(xué)項(xiàng)目發(fā)現(xiàn)的方式上要合乎道德。
如果你的情況允許,你可以攻讀數(shù)據(jù)科學(xué)或商業(yè)分析的碩士學(xué)位。如果你負(fù)擔(dān)不起碩士學(xué)位課程,你可以尋求自學(xué)路線來學(xué)習(xí)數(shù)據(jù)科學(xué)。通常,如果您在分析學(xué)科(如物理、數(shù)學(xué)、經(jīng)濟(jì)學(xué)、工程或計(jì)算機(jī)科學(xué))方面有asolid背景,并且您對探索數(shù)據(jù)科學(xué)領(lǐng)域感興趣,最好的方法是從大規(guī)模開放在線課程(massive open online courses,MOOCs)開始。然后,在建立了堅(jiān)實(shí)的基礎(chǔ)之后,您可能會(huì)尋求其他方法來增加您的知識和專長,例如從教科書中學(xué)習(xí),參與項(xiàng)目,以及與其他數(shù)據(jù)科學(xué)抱負(fù)者建立聯(lián)系。
下面是推薦的MOOCs和教科書,可以幫助您掌握數(shù)據(jù)科學(xué)的基礎(chǔ)知識。
推薦的MOOC:
數(shù)據(jù)科學(xué)專業(yè)證書(HarvardX,通過edX)
分析:基本工具和方法(Georgia TechX,通過edX)
應(yīng)用數(shù)據(jù)科學(xué)與Python專門化(密歇根大學(xué),通過Coursera)
推薦書籍:
從教科書中學(xué)習(xí)提供了比從在線課程中獲得的更精細(xì)和深入的知識。這本書提供了數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的偉大介紹,包括代碼:塞巴斯蒂安·拉什卡的“Python機(jī)器學(xué)習(xí)”。https://github.com/rasbt/python-machine-learning-book-3dition
作者以一種很容易理解的方式解釋了機(jī)器學(xué)習(xí)中的基本概念。此外,還包括代碼,因此您可以實(shí)際使用提供的代碼來實(shí)踐和構(gòu)建自己的模型。我個(gè)人發(fā)現(xiàn)這本書在我作為一名數(shù)據(jù)科學(xué)家的旅程中非常有用。我會(huì)把這本書推薦給任何有數(shù)據(jù)科學(xué)抱負(fù)的人。所有你需要的是基本的線性代數(shù)和編程技能,以便能夠理解這本書。
還有許多其他優(yōu)秀的數(shù)據(jù)科學(xué)教科書,如Wes McKinney的“Python for data Analysis”,Kuhn和Johnson的“應(yīng)用預(yù)測建模”,以及Ian H.Witten,Eibe Frank和Mark A.Hall的“數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)工具和技術(shù)”。
總之,我們討論了14個(gè)重要的數(shù)據(jù)科學(xué)領(lǐng)域的常見問題。對于不同的個(gè)人來說,基于他們的背景,數(shù)據(jù)科學(xué)的旅程可能是不同的,但本文提供的答案可以為考慮數(shù)據(jù)科學(xué)領(lǐng)域的個(gè)人提供一些指導(dǎo)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03