
學(xué)習(xí)好這8項技能做21世紀(jì)最最性感的工作—“數(shù)據(jù)科學(xué)家”
你想找到一份數(shù)據(jù)科學(xué)家的工作嗎?如果你有這樣的想法的話,那么你就有伴兒了。最近由Thomas Davenport和D.J. Patil在《哈佛商業(yè)周刊》上面發(fā)表了一篇專欄,文章稱“數(shù)據(jù)科學(xué)家”是21世紀(jì)最最性感的工作。
那么你怎樣才能找到門路呢?很多實用性的資源可以幫助你成為一名數(shù)據(jù)科學(xué)家,只是需要你可以綜合性地駕馭多個學(xué)科領(lǐng)域,比如軟件開發(fā)、數(shù)據(jù)修改、數(shù)據(jù)庫、統(tǒng)計學(xué)、機器學(xué)習(xí)以及數(shù)據(jù)可視化。
請不要擔(dān)心,以我的經(jīng)驗來看,作為一名數(shù)據(jù)科學(xué)家,事實并非如此沉重。你真的沒有必要用盡可能快地花費一生的時間學(xué)習(xí)和數(shù)據(jù)相關(guān)的信息和技能。你需要做的就是仔細地閱讀數(shù)據(jù)科學(xué)崗位職責(zé)的描述。這樣就可以讓你根據(jù)自己已經(jīng)有的經(jīng)驗和技能去申請和數(shù)據(jù)科學(xué)家崗位相關(guān)的工作,或者根據(jù)具體崗位的需要加強具體的數(shù)據(jù)技能,以便于可以和你想要的工作更好的匹配。
4種數(shù)據(jù)科學(xué)工作崗位
“數(shù)據(jù)科學(xué)家”是一種綜合性的崗位頭銜,通常用來表示該崗位與其他類別崗位有相當(dāng)大的不同之處。下面是4種數(shù)據(jù)科學(xué)崗位:
一位數(shù)據(jù)科學(xué)家就是一位居住在舊金山的數(shù)據(jù)分析師
玩笑歸玩笑,實際上很多公司里面的數(shù)據(jù)科學(xué)家就等同于一名數(shù)據(jù)分析師。你的日常工作內(nèi)容可能由以下方面組成,比如從MySQL數(shù)據(jù)庫中拉取數(shù)據(jù),在Excel數(shù)據(jù)透視表方面你也是大拿,并且還得生成基本的數(shù)據(jù)可視化圖表(比如條形或者柱狀圖)。你可能還會偶爾分析A/B測試的結(jié)果,或者掌管公司在Google Analytics注冊的賬戶。對于渴望成為數(shù)據(jù)科學(xué)家并且想摸到竅門的你而言,這樣的公司的確是理想之地。
請放養(yǎng)我們的數(shù)據(jù)!
看起來已經(jīng)有很多企業(yè)的信息流量即將迎來高峰(而且還有不斷增長的數(shù)據(jù)量),企業(yè)正在尋找合適的人選建立大量的數(shù)據(jù)架構(gòu),以便于讓企業(yè)可以不斷向前發(fā)展。他們也在尋找能夠做數(shù)據(jù)分析的合適人選。你會發(fā)現(xiàn)這種類型崗位的公開招聘信息陳列在“數(shù)據(jù)科學(xué)家”和“數(shù)據(jù)工程師”的類目中。既然你想成為公司里面第一個數(shù)據(jù)方面的雇員,那么還是有個別唾手可得的崗位,這些崗位的重要性并沒有數(shù)據(jù)科學(xué)家這般重要,比如統(tǒng)計師或者機器學(xué)習(xí)專家。擁有軟件工程背景的數(shù)據(jù)科學(xué)家在公司里面的表現(xiàn)可能會更加突出,數(shù)據(jù)科學(xué)在公司里面的重要作用就是為產(chǎn)品代碼做出和數(shù)據(jù)有關(guān)的貢獻并提供基本的洞察和分析結(jié)果。但是在這種企業(yè)中,基層數(shù)據(jù)科學(xué)家崗位的員工不會太多的師徒制機會。因此,在這種環(huán)境當(dāng)中,你可以在很多考驗之后發(fā)光發(fā)熱并大紅大紫,但是這樣的環(huán)境也會缺少相對的安全性,因為單憑你的一己之力,你會面臨徹底失敗或者停滯不前的風(fēng)險。
我們就是數(shù)據(jù),數(shù)據(jù)就是我們
對很多公司而言,他們的數(shù)據(jù)(或者說他們的數(shù)據(jù)分析平臺)就是他們自己的產(chǎn)品。對于這種情況,公司所進行的數(shù)據(jù)分析或者機器學(xué)習(xí)環(huán)境非常激烈。這樣的環(huán)境可能對于那些具有正規(guī)的數(shù)學(xué)、統(tǒng)計或者物理專業(yè)背景并希望繼續(xù)在學(xué)術(shù)道路上深造的人而言再合適不過了。處于這種崗位配置環(huán)境中的數(shù)據(jù)科學(xué)家,與回答公司一些操作方面的問題相比,他們更傾向于集中精力生產(chǎn)更好的數(shù)據(jù)驅(qū)動的產(chǎn)品。這種類型的公司也許是一種具有大量數(shù)據(jù)的面向消費者的企業(yè)或者他們專門提供以數(shù)據(jù)為基礎(chǔ)的專業(yè)性服務(wù)。
規(guī)模適度的并由數(shù)據(jù)驅(qū)動的非數(shù)據(jù)企業(yè)
在這種類型的企業(yè)當(dāng)中,你的作用就是參與到由其他數(shù)據(jù)科學(xué)家組建的團隊當(dāng)中進行協(xié)作。你所應(yīng)聘的公司很關(guān)系數(shù)據(jù),但實際上他并非是一家數(shù)據(jù)公司。同樣重要的是你仍然需要能夠執(zhí)行分析、觸及產(chǎn)品代碼、讓數(shù)據(jù)可視化等。通常情況下,這種類型的公司要么是正在尋找綜合型的多面手,要么他們正在為公司填補團隊所缺少的專業(yè)人才,比如數(shù)據(jù)可視化或機器學(xué)習(xí)。當(dāng)你參加這種類型公司的面試時,對你最終要的技能就是熟悉使用專門為大數(shù)據(jù)所設(shè)計的軟件工具(比如Hive或者Pig)并且有處理現(xiàn)實生活中那些爛七八糟的數(shù)據(jù)庫。
但愿以上這四方面的信息可以讓你充分的了解為何一名“數(shù)據(jù)科學(xué)家”的頭銜具有如此寬泛的含義。以上這四種具有不同個性的公司對于候選人在技能、經(jīng)驗以及經(jīng)驗水平方面的要求也各有千秋。機關(guān)如此,所有公開招聘的工作都會把自己公司的崗位稱作是“數(shù)據(jù)科學(xué)家”,因此你一定要仔細地閱讀崗位職責(zé),了解你所將要加入的團隊的情況并能夠提升你哪些方面的技能。
掌握8項技能讓你如魚得水
以下就是8項你應(yīng)該發(fā)展的數(shù)據(jù)科學(xué)崗位技能:
基本工具
無論是應(yīng)聘的公司是哪種類型,你都應(yīng)該具備了解如何使用交易工具的經(jīng)驗。比如類似R或者Python這樣的統(tǒng)計編程語言,還有SQL這樣的數(shù)據(jù)庫查詢語言。
基本統(tǒng)計學(xué)
作為數(shù)據(jù)科學(xué)家懂得至少一種基本的統(tǒng)計學(xué)非常重要。曾經(jīng)有一位面試官告訴我說他所面試過的很多人都無法正確地提供p值的正確定義。因此你一定要對統(tǒng)計測試、分布、最大相似估計等了如指掌。試著回憶以下你的統(tǒng)計學(xué)課堂吧!對于機器學(xué)習(xí)方面的問題也有和這個情況一樣的時候,但是你的統(tǒng)計學(xué)知識的最重要的一方面就是你得知道在什么時候不同的技術(shù)方有效(或者無效)。統(tǒng)計學(xué)對各種類型的企業(yè)而言都非常重要,但尤其是對那些以數(shù)據(jù)為驅(qū)動的企業(yè)而言,他們的產(chǎn)品不是以數(shù)據(jù)為專注點,而且產(chǎn)品的利益相關(guān)者會根據(jù)你提供的幫助制定決策并設(shè)計/評估試驗結(jié)果。
如果你供職的企業(yè)有大量的數(shù)據(jù)資源,或者你所在的企業(yè)的產(chǎn)品本身受數(shù)據(jù)所驅(qū)動,在這種情況下需要你必須熟知機器學(xué)習(xí)算法。這意味著像k值臨近法、隨機森林,集成方法等和機器學(xué)習(xí)有關(guān)的所有流行詞匯都需要你有所了解。我們的確可以利用R或者Python庫執(zhí)行很多技術(shù),因為如果你不是主導(dǎo)算法如何奏效的行業(yè)專家的話,那你沒有必要成為一名血色交易使者。最重要的是你要懂得大致的框架,而且需要知道不同的時候采用相應(yīng)合適的技術(shù)。
多變量微積分和線性代數(shù)
當(dāng)你在接受面試的時候,很可能面試官會要求你導(dǎo)出一些機器學(xué)習(xí)或者統(tǒng)計學(xué)結(jié)果。即使你不問,那么面試官也會問你一些基本的多變量微積分或者線性代數(shù)問題,因為它們是很多技術(shù)的基礎(chǔ)。也許你想知道為什么一位數(shù)據(jù)科學(xué)家需要懂得這些東西,如果我們有很多sklearn或者R方面的工具幫助我們來實現(xiàn)這些功能。因為就某一點而言,數(shù)據(jù)科學(xué)家團隊值得為此內(nèi)部開發(fā)一個執(zhí)行工具。對于就職于生產(chǎn)由數(shù)據(jù)驅(qū)動的產(chǎn)品的公司的你而言,明白這些概念非常重要,并且對預(yù)算執(zhí)行或者算法方面的優(yōu)化改進會為企業(yè)帶來更多勝利的果實。
數(shù)據(jù)修改
通常情況下你所分析的數(shù)據(jù)會變得無比凌亂,讓你的工作變得異常艱難。因此很有必要弄清楚如何對待數(shù)據(jù)中出現(xiàn)的缺陷。常見的數(shù)據(jù)缺陷包括遺漏值、不一致的字符串格式(比如“New York”對“new york”對“ny”),還有日期格式(‘2014-01-01’ vs. ‘01/01/2014’等)。作為一名較早進入企業(yè)的數(shù)據(jù)技術(shù)人才,數(shù)據(jù)的修改工作是重中之重,無論你所在的這家公司規(guī)模很小,還是你所供職的企業(yè)所生產(chǎn)的產(chǎn)品和數(shù)據(jù)無關(guān)但是企業(yè)的發(fā)展需要依靠數(shù)據(jù)驅(qū)使,擁有這項數(shù)據(jù)修改技能非常重要。
數(shù)據(jù)可視化與信息交流
數(shù)據(jù)的可視化與通信化非常重要,尤其對與第一次制定數(shù)據(jù)驅(qū)動決策的年輕企業(yè),或者是把數(shù)據(jù)科學(xué)家視為幫助別人做數(shù)據(jù)驅(qū)動決策的企業(yè)。我們所謂的數(shù)據(jù)交流性,指的是你向受眾描述你的發(fā)現(xiàn)或者技術(shù)奏效的方式,無論是技術(shù)層面的還是非技術(shù)層面的。熟悉諸如ggplot 和d3.js這樣的數(shù)據(jù)可視化工具對你有莫大的幫助。不僅對數(shù)據(jù)可視化所需的工具的了解至關(guān)重要,還得學(xué)會了解可視化的數(shù)據(jù)編碼和交流信息隱含的原理
軟件工程
如果你應(yīng)聘的單位規(guī)模很小,而且你還是這家公司最早應(yīng)聘來的數(shù)據(jù)科學(xué)家之一,你最好具有軟件工程專業(yè)背景。因為一開始的時候你需要處理大量的數(shù)據(jù)日志文件和數(shù)據(jù)驅(qū)動的產(chǎn)品的開發(fā)。
像數(shù)據(jù)科學(xué)家一樣思考
公司非常想看到在你被雇傭之后,你是一名(數(shù)據(jù)驅(qū)動的)問題的解決者。這就是說,在你面試過程中的某一時刻,你會被問到一些難度很高的問題。比如關(guān)于企業(yè)想運行測試的方法或者他們向開發(fā)的以數(shù)據(jù)為驅(qū)動的產(chǎn)品。對你而言你要深重的思考在這個問題當(dāng)中那些是重要的,哪些不重要。作為一名數(shù)據(jù)科學(xué)家,你應(yīng)該如何與相關(guān)的工程師以及產(chǎn)品經(jīng)理進行有效的互動?你應(yīng)該采用何種方法?近似值在什么時候會發(fā)揮功效?
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10