
CDA數(shù)據(jù)分析師 出品
來源:datacamp
編譯:Mika
根據(jù)《韋氏詞典》,數(shù)據(jù)指的是用作推理、討論或計(jì)算基礎(chǔ)的事實(shí)信息。
基于這個(gè)定義,我們可以進(jìn)一步得出:數(shù)據(jù)可以理解為是收集到的任何信息,可以使用、進(jìn)一步處理和分析以獲得見解。而且通常與計(jì)算機(jī)聯(lián)系在一起,因?yàn)閿?shù)據(jù)通常是在計(jì)算機(jī)中生成和存儲(chǔ)的,然而數(shù)據(jù)存在的時(shí)間比我們想象的要長(zhǎng)得多。
人類存儲(chǔ)和分析數(shù)據(jù)的最早例子可以追溯到公元前18000年,當(dāng)時(shí)人們發(fā)現(xiàn)史前人類使用計(jì)數(shù)棒進(jìn)行初步計(jì)算。這些舊石器時(shí)代部落的人在木棍和骨頭上刻上刻痕,以記錄人類的活動(dòng),比如交易和監(jiān)控物資。到公元前2400年,在巴比倫發(fā)明出了用于計(jì)算的算盤。
縱觀歷史,數(shù)據(jù)收集、處理和分析的不斷發(fā)展是通過石板、粘土、紙莎草、木頭和紙卷上的大量文字來體現(xiàn)的。最終,隨著更多形式的數(shù)據(jù)被發(fā)現(xiàn),處理、收集、存儲(chǔ)和分析數(shù)據(jù)的需求也在不斷發(fā)展。
隨著人類社會(huì)的進(jìn)步,對(duì)數(shù)據(jù)處理的要求也越來越高。
19世紀(jì),在美國(guó)開始人口普查進(jìn)行。人口普查中的數(shù)據(jù)點(diǎn)數(shù)量呈指數(shù)增長(zhǎng),美國(guó)人口普查局估計(jì),收集和分析人口普查中的所有數(shù)據(jù)需要幾年甚至幾十年的時(shí)間。
這是個(gè)很大的問題,因?yàn)橹挥性谙乱淮稳丝谄詹榧磳㈤_始時(shí),才會(huì)完成對(duì)當(dāng)前人口普查數(shù)據(jù)的匯編和分析。
幸運(yùn)的是,一位名叫赫爾曼·霍勒里斯的年輕工程師和發(fā)明家開發(fā)了霍勒里斯制表機(jī)。這是一種機(jī)電式制表機(jī),將收集和分析人口普查數(shù)據(jù)所需的時(shí)間從幾年縮短到僅僅幾個(gè)月。正因?yàn)槿绱?,霍勒里思被視為現(xiàn)代自動(dòng)計(jì)算之父,后來因創(chuàng)立IBM而聞名。
快進(jìn)到20世紀(jì),計(jì)算機(jī)出現(xiàn)了。隨著功能更強(qiáng)大的計(jì)算機(jī)的出現(xiàn),對(duì)數(shù)據(jù)存儲(chǔ)的要求也越來越高。
德國(guó)-奧地利工程師弗里茨·普夫勒默發(fā)明了一種在磁帶上磁性存儲(chǔ)信息的方法。他的一些發(fā)明原理至今仍被用于數(shù)字數(shù)據(jù)存儲(chǔ)。
在這個(gè)時(shí)代,“商業(yè)智能”一詞越來越流行,因?yàn)閷?duì)新興軟件以及用于分析商業(yè)和運(yùn)營(yíng)績(jī)效的系統(tǒng)的需求迅速增加。
1989年,蒂姆·伯納斯·李創(chuàng)建了萬維網(wǎng)(又稱互聯(lián)網(wǎng)),數(shù)據(jù)革命發(fā)生了真正的變化。這導(dǎo)致了全世界人民之間的自動(dòng)信息共享。這意味著今天有更多的數(shù)據(jù)被共享、創(chuàng)建和存儲(chǔ),從而產(chǎn)生了收集、使用和分析數(shù)據(jù)的新方法。
由于20世紀(jì)90年代互聯(lián)網(wǎng)的驚人增長(zhǎng)以及個(gè)人電腦和計(jì)算設(shè)備的穩(wěn)定發(fā)展,在線設(shè)備的數(shù)量以及由此產(chǎn)生的數(shù)據(jù)量迅速增長(zhǎng)。
雖然大數(shù)據(jù)的概念早在20世紀(jì)90年代就已經(jīng)存在,但直到2005年羅杰·穆加拉斯才正式給它貼上標(biāo)簽。他將其描述為"使用傳統(tǒng)商業(yè)智能工具幾乎無法管理和處理的大量數(shù)據(jù)"。
大數(shù)據(jù)是一個(gè)用來描述大量數(shù)據(jù)的術(shù)語,包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每天都會(huì)淹沒企業(yè)。它包括信息量、創(chuàng)建和收集信息的速度,以及所覆蓋數(shù)據(jù)點(diǎn)的種類或范圍。
考慮到大數(shù)據(jù)的規(guī)模和復(fù)雜性,收集、組織和分析它以發(fā)現(xiàn)模式和其他有用信息的過程已經(jīng)成為幫助許多組織做出商業(yè)決策的一部分。這反過來又催生了數(shù)據(jù)科學(xué)——一個(gè)跨學(xué)科領(lǐng)域,它使用科學(xué)方法、流程、算法和系統(tǒng)從大量數(shù)據(jù)中發(fā)現(xiàn)模式,并使商業(yè)領(lǐng)袖能夠獲得見解。
根據(jù)IBM的說法,數(shù)據(jù)科學(xué)是一種多學(xué)科方法,可以從當(dāng)今組織收集和創(chuàng)建的大量且不斷增加的數(shù)據(jù)中提取可操作的見解。
該領(lǐng)域通常需要計(jì)算機(jī)科學(xué)和純科學(xué)技能,因?yàn)閿?shù)據(jù)科學(xué)家在其方法中應(yīng)用科學(xué)方法,并使用預(yù)測(cè)分析和人工智能從數(shù)據(jù)中提取見解。
如今,“數(shù)據(jù)科學(xué)”經(jīng)常被企業(yè)和組織用作處理大量數(shù)據(jù)的通用術(shù)語,無論是準(zhǔn)備、清理、分析數(shù)據(jù)還是可視化數(shù)據(jù)以揭示模式。
以下我們列出了可從事的七種數(shù)據(jù)相關(guān)職業(yè):
數(shù)據(jù)科學(xué)家需要能夠應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)和科學(xué)方法。
使用多種工具和技術(shù)來清理和準(zhǔn)備數(shù)據(jù);進(jìn)行預(yù)測(cè)分析和人工智能;并解釋如何利用這些結(jié)果來為商業(yè)問題提供數(shù)據(jù)驅(qū)動(dòng)的解決方案。數(shù)據(jù)科學(xué)家需要的技能比數(shù)據(jù)分析師多得多。
數(shù)據(jù)分析師收集、處理和執(zhí)行統(tǒng)計(jì)數(shù)據(jù)分析,為組織得出有意義的結(jié)論。
數(shù)據(jù)分析師將大型數(shù)據(jù)集轉(zhuǎn)化并處理成可用的形式,如報(bào)告或演示。他們還通過研究重要的模式來幫助決策過程,并從數(shù)據(jù)中收集洞察力,然后有效地傳達(dá)給組織領(lǐng)導(dǎo),以幫助商業(yè)決策。
數(shù)據(jù)工程師負(fù)責(zé)準(zhǔn)備、處理和管理收集和存儲(chǔ)的數(shù)據(jù),用于分析或操作用途。
像傳統(tǒng)的工程師一樣,數(shù)據(jù)工程師建立和維護(hù)數(shù)據(jù) "管道",將數(shù)據(jù)從一個(gè)系統(tǒng)連接到另一個(gè)系統(tǒng),使數(shù)據(jù)科學(xué)家能夠獲得信息。正因?yàn)槿绱耍瑪?shù)據(jù)工程師被要求了解數(shù)據(jù)科學(xué)中使用的幾種編程語言,如Python、R和SQL。
數(shù)據(jù)架構(gòu)師主要是設(shè)計(jì)和創(chuàng)建數(shù)據(jù)管理系統(tǒng)的藍(lán)圖,然后由數(shù)據(jù)工程師建立。
類似于傳統(tǒng)的建筑師,數(shù)據(jù)架構(gòu)師是 "遠(yuǎn)見者",因?yàn)樗麄冐?fù)責(zé)可視化和設(shè)計(jì)一個(gè)組織的數(shù)據(jù)管理框架。此外,數(shù)據(jù)架構(gòu)師改善現(xiàn)有系統(tǒng)的性能,確保數(shù)據(jù)庫管理員和分析師能夠使用這些系統(tǒng)。
商業(yè)智能開發(fā)者是專門的工程師,他們使用軟件工具將數(shù)據(jù)轉(zhuǎn)化為有用的見解,以幫助商業(yè)決策。
他們負(fù)責(zé)簡(jiǎn)化技術(shù)信息,讓公司里的其他人都能輕松理解。簡(jiǎn)而言之,他們創(chuàng)建和運(yùn)行包含他們使用商業(yè)智能工具找到的數(shù)據(jù)的報(bào)告,并將信息轉(zhuǎn)化為更通俗的術(shù)語。
鑒于統(tǒng)計(jì)學(xué)是數(shù)據(jù)科學(xué)的主要基礎(chǔ)之一,許多統(tǒng)計(jì)學(xué)家可以輕松地過渡到數(shù)據(jù)科學(xué)領(lǐng)域。
統(tǒng)計(jì)學(xué)家主要負(fù)責(zé)數(shù)據(jù)的收集和處理。他們決定需要什么數(shù)據(jù)以及如何收集數(shù)據(jù)。此外,他們?cè)O(shè)計(jì)實(shí)驗(yàn),分析和解釋數(shù)據(jù),并報(bào)告結(jié)論。
機(jī)器學(xué)習(xí)工程師是另一組專業(yè)工程師,他們專注于研究、構(gòu)建和設(shè)計(jì)人工智能和機(jī)器學(xué)習(xí)系統(tǒng),以實(shí)現(xiàn)預(yù)測(cè)模型的自動(dòng)化。
基本上,他們開發(fā)的算法使用輸入數(shù)據(jù)并利用統(tǒng)計(jì)模型預(yù)測(cè)輸出,同時(shí)在新數(shù)據(jù)可用時(shí)不斷更新輸出。
下面我們看看以上這些數(shù)據(jù)科學(xué)職業(yè)的最受歡迎程度。下圖顯示了2021年12月8日美國(guó)的職位空缺情況。
數(shù)據(jù)架構(gòu)師是最受歡迎的數(shù)據(jù)科學(xué)職業(yè)道路,因?yàn)樗麄冊(cè)趧?chuàng)建其他數(shù)據(jù)科學(xué)專業(yè)人員隨后使用的數(shù)據(jù)管理系統(tǒng)方面非常重要。
接下來是機(jī)器學(xué)習(xí)工程師,考慮到利用人工智能預(yù)測(cè)許多科技公司結(jié)果的重要性。
需求最少的是統(tǒng)計(jì)人員,主要是因?yàn)樵S多傳統(tǒng)的統(tǒng)計(jì)學(xué)家現(xiàn)在正在成為數(shù)據(jù)科學(xué)家。統(tǒng)計(jì)學(xué)家從純統(tǒng)計(jì)學(xué)轉(zhuǎn)向數(shù)據(jù)科學(xué)相對(duì)簡(jiǎn)單是,他們已經(jīng)擁有成為一名成熟的數(shù)據(jù)科學(xué)家所需的基礎(chǔ)知識(shí)。
毫無疑問,數(shù)據(jù)科學(xué)如今非常流行,但更好的問題是,它在未來還會(huì)如此流行嗎?根據(jù)就業(yè)預(yù)測(cè),情況似乎的確如此。
美國(guó)勞工統(tǒng)計(jì)局2020-2030就業(yè)預(yù)測(cè)的數(shù)據(jù)顯示,數(shù)據(jù)科學(xué)職業(yè),包括統(tǒng)計(jì)學(xué)、數(shù)據(jù)科學(xué)以及數(shù)據(jù)工程等其他基于數(shù)學(xué)和科學(xué)的職業(yè),從2020年到2030年的百分比變化來看,將呈現(xiàn)出非常高的增長(zhǎng)率。統(tǒng)計(jì)學(xué)家總體排名第14位,而數(shù)據(jù)科學(xué)家和其他數(shù)學(xué)科學(xué)職業(yè)在數(shù)據(jù)中包含的790個(gè)職位中總體排名第31位。
盡管統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家在總勞動(dòng)力中所占的份額與其他職業(yè)相比很小,但隨著數(shù)據(jù)科學(xué)職業(yè)道路變得越來越流行,這些數(shù)字預(yù)計(jì)將在未來幾年增加。
下圖顯示了統(tǒng)計(jì)學(xué)家、數(shù)據(jù)科學(xué)家和其他數(shù)學(xué)科學(xué)職業(yè)與其他預(yù)計(jì)增長(zhǎng)率較高的職業(yè)的對(duì)比情況。
數(shù)據(jù)相關(guān)職業(yè)備受歡迎的一個(gè)主要原因在于其收入高。
下圖顯示了紐約市10種不同職業(yè)--包括數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師的工資范圍。這些數(shù)據(jù)來自Teleport,該網(wǎng)站匯總了不同城市的生活條件,如工資的數(shù)據(jù)。
根據(jù)Teleport的數(shù)據(jù),數(shù)據(jù)科學(xué)家的年薪中位數(shù)在紐約市排名第四,為114105美元,僅次于企業(yè)高管和醫(yī)護(hù)人員。事實(shí)上,在馬尼拉等其他一些城市,數(shù)據(jù)科學(xué)家的排名高達(dá)第二,僅次于企業(yè)高管。
數(shù)據(jù)分析師的薪資也很可觀,數(shù)據(jù)分析師的年薪中位數(shù)為61818美元,仍然相當(dāng)于紐約市的平均家庭收入。
數(shù)據(jù)科學(xué)受歡迎的另一個(gè)主要原因是,如今的企業(yè)將數(shù)據(jù)科學(xué)的原理整合到日常運(yùn)作中。下圖顯示了工作中涉及數(shù)據(jù)科學(xué)的前10個(gè)行業(yè),其中涉及到8000家公司的樣本數(shù)據(jù)。
毫不奇怪,包括谷歌、蘋果和優(yōu)步等科技公司占據(jù)了榜首。畢竟,大數(shù)據(jù)的激增是由互聯(lián)網(wǎng)的誕生引起的,互聯(lián)網(wǎng)與軟件和技術(shù)密切相關(guān)。數(shù)據(jù)科學(xué)實(shí)際上是使用各種工具和技術(shù)處理大量信息。
接下來是金融服務(wù)公司,這是金融科技公司崛起帶來的。作為“金融”和“技術(shù)”的門戶,金融科技公司將技術(shù)和創(chuàng)新整合到其服務(wù)和產(chǎn)品中,以改善其對(duì)客戶的交付,擾亂傳統(tǒng)金融服務(wù)。由于它涉及處理大量數(shù)據(jù),如客戶信息,金融服務(wù)公司看到了數(shù)據(jù)科學(xué)工具的潛力,可以幫助簡(jiǎn)化和優(yōu)化流程,改進(jìn)服務(wù)。
數(shù)據(jù)科學(xué)是一條非常有發(fā)展的職業(yè)道路,而且沒有放緩的跡象。在未來的許多年里,它將繼續(xù)塑造和影響企業(yè)和組織的運(yùn)作方式。
至于你應(yīng)該走哪條特定的數(shù)據(jù)科學(xué)職業(yè)道路,這主要取決于你的個(gè)人優(yōu)勢(shì)和總體興趣。重要的是,上述任何職業(yè)都是值得的。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場(chǎng)景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實(shí)際問題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09