
學(xué)習(xí)好這8項(xiàng)技能做21世紀(jì)最最性感的工作—“數(shù)據(jù)科學(xué)家”
你想找到一份數(shù)據(jù)科學(xué)家的工作嗎?如果你有這樣的想法的話(huà),那么你就有伴兒了。最近由Thomas Davenport和D.J. Patil在《哈佛商業(yè)周刊》上面發(fā)表了一篇專(zhuān)欄,文章稱(chēng)“數(shù)據(jù)科學(xué)家”是21世紀(jì)最最性感的工作。
那么你怎樣才能找到門(mén)路呢?很多實(shí)用性的資源可以幫助你成為一名數(shù)據(jù)科學(xué)家,只是需要你可以綜合性地駕馭多個(gè)學(xué)科領(lǐng)域,比如軟件開(kāi)發(fā)、數(shù)據(jù)修改、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)以及數(shù)據(jù)可視化。
請(qǐng)不要擔(dān)心,以我的經(jīng)驗(yàn)來(lái)看,作為一名數(shù)據(jù)科學(xué)家,事實(shí)并非如此沉重。你真的沒(méi)有必要用盡可能快地花費(fèi)一生的時(shí)間學(xué)習(xí)和數(shù)據(jù)相關(guān)的信息和技能。你需要做的就是仔細(xì)地閱讀數(shù)據(jù)科學(xué)崗位職責(zé)的描述。這樣就可以讓你根據(jù)自己已經(jīng)有的經(jīng)驗(yàn)和技能去申請(qǐng)和數(shù)據(jù)科學(xué)家崗位相關(guān)的工作,或者根據(jù)具體崗位的需要加強(qiáng)具體的數(shù)據(jù)技能,以便于可以和你想要的工作更好的匹配。
4種數(shù)據(jù)科學(xué)工作崗位
“數(shù)據(jù)科學(xué)家”是一種綜合性的崗位頭銜,通常用來(lái)表示該崗位與其他類(lèi)別崗位有相當(dāng)大的不同之處。下面是4種數(shù)據(jù)科學(xué)崗位:
一位數(shù)據(jù)科學(xué)家就是一位居住在舊金山的數(shù)據(jù)分析師
玩笑歸玩笑,實(shí)際上很多公司里面的數(shù)據(jù)科學(xué)家就等同于一名數(shù)據(jù)分析師。你的日常工作內(nèi)容可能由以下方面組成,比如從MySQL數(shù)據(jù)庫(kù)中拉取數(shù)據(jù),在Excel數(shù)據(jù)透視表方面你也是大拿,并且還得生成基本的數(shù)據(jù)可視化圖表(比如條形或者柱狀圖)。你可能還會(huì)偶爾分析A/B測(cè)試的結(jié)果,或者掌管公司在Google Analytics注冊(cè)的賬戶(hù)。對(duì)于渴望成為數(shù)據(jù)科學(xué)家并且想摸到竅門(mén)的你而言,這樣的公司的確是理想之地。
請(qǐng)放養(yǎng)我們的數(shù)據(jù)!
看起來(lái)已經(jīng)有很多企業(yè)的信息流量即將迎來(lái)高峰(而且還有不斷增長(zhǎng)的數(shù)據(jù)量),企業(yè)正在尋找合適的人選建立大量的數(shù)據(jù)架構(gòu),以便于讓企業(yè)可以不斷向前發(fā)展。他們也在尋找能夠做數(shù)據(jù)分析的合適人選。你會(huì)發(fā)現(xiàn)這種類(lèi)型崗位的公開(kāi)招聘信息陳列在“數(shù)據(jù)科學(xué)家”和“數(shù)據(jù)工程師”的類(lèi)目中。既然你想成為公司里面第一個(gè)數(shù)據(jù)方面的雇員,那么還是有個(gè)別唾手可得的崗位,這些崗位的重要性并沒(méi)有數(shù)據(jù)科學(xué)家這般重要,比如統(tǒng)計(jì)師或者機(jī)器學(xué)習(xí)專(zhuān)家。擁有軟件工程背景的數(shù)據(jù)科學(xué)家在公司里面的表現(xiàn)可能會(huì)更加突出,數(shù)據(jù)科學(xué)在公司里面的重要作用就是為產(chǎn)品代碼做出和數(shù)據(jù)有關(guān)的貢獻(xiàn)并提供基本的洞察和分析結(jié)果。但是在這種企業(yè)中,基層數(shù)據(jù)科學(xué)家崗位的員工不會(huì)太多的師徒制機(jī)會(huì)。因此,在這種環(huán)境當(dāng)中,你可以在很多考驗(yàn)之后發(fā)光發(fā)熱并大紅大紫,但是這樣的環(huán)境也會(huì)缺少相對(duì)的安全性,因?yàn)閱螒{你的一己之力,你會(huì)面臨徹底失敗或者停滯不前的風(fēng)險(xiǎn)。
我們就是數(shù)據(jù),數(shù)據(jù)就是我們
對(duì)很多公司而言,他們的數(shù)據(jù)(或者說(shuō)他們的數(shù)據(jù)分析平臺(tái))就是他們自己的產(chǎn)品。對(duì)于這種情況,公司所進(jìn)行的數(shù)據(jù)分析或者機(jī)器學(xué)習(xí)環(huán)境非常激烈。這樣的環(huán)境可能對(duì)于那些具有正規(guī)的數(shù)學(xué)、統(tǒng)計(jì)或者物理專(zhuān)業(yè)背景并希望繼續(xù)在學(xué)術(shù)道路上深造的人而言再合適不過(guò)了。處于這種崗位配置環(huán)境中的數(shù)據(jù)科學(xué)家,與回答公司一些操作方面的問(wèn)題相比,他們更傾向于集中精力生產(chǎn)更好的數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)品。這種類(lèi)型的公司也許是一種具有大量數(shù)據(jù)的面向消費(fèi)者的企業(yè)或者他們專(zhuān)門(mén)提供以數(shù)據(jù)為基礎(chǔ)的專(zhuān)業(yè)性服務(wù)。
規(guī)模適度的并由數(shù)據(jù)驅(qū)動(dòng)的非數(shù)據(jù)企業(yè)
在這種類(lèi)型的企業(yè)當(dāng)中,你的作用就是參與到由其他數(shù)據(jù)科學(xué)家組建的團(tuán)隊(duì)當(dāng)中進(jìn)行協(xié)作。你所應(yīng)聘的公司很關(guān)系數(shù)據(jù),但實(shí)際上他并非是一家數(shù)據(jù)公司。同樣重要的是你仍然需要能夠執(zhí)行分析、觸及產(chǎn)品代碼、讓數(shù)據(jù)可視化等。通常情況下,這種類(lèi)型的公司要么是正在尋找綜合型的多面手,要么他們正在為公司填補(bǔ)團(tuán)隊(duì)所缺少的專(zhuān)業(yè)人才,比如數(shù)據(jù)可視化或機(jī)器學(xué)習(xí)。當(dāng)你參加這種類(lèi)型公司的面試時(shí),對(duì)你最終要的技能就是熟悉使用專(zhuān)門(mén)為大數(shù)據(jù)所設(shè)計(jì)的軟件工具(比如Hive或者Pig)并且有處理現(xiàn)實(shí)生活中那些爛七八糟的數(shù)據(jù)庫(kù)。
但愿以上這四方面的信息可以讓你充分的了解為何一名“數(shù)據(jù)科學(xué)家”的頭銜具有如此寬泛的含義。以上這四種具有不同個(gè)性的公司對(duì)于候選人在技能、經(jīng)驗(yàn)以及經(jīng)驗(yàn)水平方面的要求也各有千秋。機(jī)關(guān)如此,所有公開(kāi)招聘的工作都會(huì)把自己公司的崗位稱(chēng)作是“數(shù)據(jù)科學(xué)家”,因此你一定要仔細(xì)地閱讀崗位職責(zé),了解你所將要加入的團(tuán)隊(duì)的情況并能夠提升你哪些方面的技能。
掌握8項(xiàng)技能讓你如魚(yú)得水
以下就是8項(xiàng)你應(yīng)該發(fā)展的數(shù)據(jù)科學(xué)崗位技能:
基本工具
無(wú)論是應(yīng)聘的公司是哪種類(lèi)型,你都應(yīng)該具備了解如何使用交易工具的經(jīng)驗(yàn)。比如類(lèi)似R或者Python這樣的統(tǒng)計(jì)編程語(yǔ)言,還有SQL這樣的數(shù)據(jù)庫(kù)查詢(xún)語(yǔ)言。
基本統(tǒng)計(jì)學(xué)
作為數(shù)據(jù)科學(xué)家懂得至少一種基本的統(tǒng)計(jì)學(xué)非常重要。曾經(jīng)有一位面試官告訴我說(shuō)他所面試過(guò)的很多人都無(wú)法正確地提供p值的正確定義。因此你一定要對(duì)統(tǒng)計(jì)測(cè)試、分布、最大相似估計(jì)等了如指掌。試著回憶以下你的統(tǒng)計(jì)學(xué)課堂吧!對(duì)于機(jī)器學(xué)習(xí)方面的問(wèn)題也有和這個(gè)情況一樣的時(shí)候,但是你的統(tǒng)計(jì)學(xué)知識(shí)的最重要的一方面就是你得知道在什么時(shí)候不同的技術(shù)方有效(或者無(wú)效)。統(tǒng)計(jì)學(xué)對(duì)各種類(lèi)型的企業(yè)而言都非常重要,但尤其是對(duì)那些以數(shù)據(jù)為驅(qū)動(dòng)的企業(yè)而言,他們的產(chǎn)品不是以數(shù)據(jù)為專(zhuān)注點(diǎn),而且產(chǎn)品的利益相關(guān)者會(huì)根據(jù)你提供的幫助制定決策并設(shè)計(jì)/評(píng)估試驗(yàn)結(jié)果。
如果你供職的企業(yè)有大量的數(shù)據(jù)資源,或者你所在的企業(yè)的產(chǎn)品本身受數(shù)據(jù)所驅(qū)動(dòng),在這種情況下需要你必須熟知機(jī)器學(xué)習(xí)算法。這意味著像k值臨近法、隨機(jī)森林,集成方法等和機(jī)器學(xué)習(xí)有關(guān)的所有流行詞匯都需要你有所了解。我們的確可以利用R或者Python庫(kù)執(zhí)行很多技術(shù),因?yàn)槿绻悴皇侵鲗?dǎo)算法如何奏效的行業(yè)專(zhuān)家的話(huà),那你沒(méi)有必要成為一名血色交易使者。最重要的是你要懂得大致的框架,而且需要知道不同的時(shí)候采用相應(yīng)合適的技術(shù)。
多變量微積分和線(xiàn)性代數(shù)
當(dāng)你在接受面試的時(shí)候,很可能面試官會(huì)要求你導(dǎo)出一些機(jī)器學(xué)習(xí)或者統(tǒng)計(jì)學(xué)結(jié)果。即使你不問(wèn),那么面試官也會(huì)問(wèn)你一些基本的多變量微積分或者線(xiàn)性代數(shù)問(wèn)題,因?yàn)樗鼈兪呛芏嗉夹g(shù)的基礎(chǔ)。也許你想知道為什么一位數(shù)據(jù)科學(xué)家需要懂得這些東西,如果我們有很多sklearn或者R方面的工具幫助我們來(lái)實(shí)現(xiàn)這些功能。因?yàn)榫湍骋稽c(diǎn)而言,數(shù)據(jù)科學(xué)家團(tuán)隊(duì)值得為此內(nèi)部開(kāi)發(fā)一個(gè)執(zhí)行工具。對(duì)于就職于生產(chǎn)由數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)品的公司的你而言,明白這些概念非常重要,并且對(duì)預(yù)算執(zhí)行或者算法方面的優(yōu)化改進(jìn)會(huì)為企業(yè)帶來(lái)更多勝利的果實(shí)。
數(shù)據(jù)修改
通常情況下你所分析的數(shù)據(jù)會(huì)變得無(wú)比凌亂,讓你的工作變得異常艱難。因此很有必要弄清楚如何對(duì)待數(shù)據(jù)中出現(xiàn)的缺陷。常見(jiàn)的數(shù)據(jù)缺陷包括遺漏值、不一致的字符串格式(比如“New York”對(duì)“new york”對(duì)“ny”),還有日期格式(‘2014-01-01’ vs. ‘01/01/2014’等)。作為一名較早進(jìn)入企業(yè)的數(shù)據(jù)技術(shù)人才,數(shù)據(jù)的修改工作是重中之重,無(wú)論你所在的這家公司規(guī)模很小,還是你所供職的企業(yè)所生產(chǎn)的產(chǎn)品和數(shù)據(jù)無(wú)關(guān)但是企業(yè)的發(fā)展需要依靠數(shù)據(jù)驅(qū)使,擁有這項(xiàng)數(shù)據(jù)修改技能非常重要。
數(shù)據(jù)可視化與信息交流
數(shù)據(jù)的可視化與通信化非常重要,尤其對(duì)與第一次制定數(shù)據(jù)驅(qū)動(dòng)決策的年輕企業(yè),或者是把數(shù)據(jù)科學(xué)家視為幫助別人做數(shù)據(jù)驅(qū)動(dòng)決策的企業(yè)。我們所謂的數(shù)據(jù)交流性,指的是你向受眾描述你的發(fā)現(xiàn)或者技術(shù)奏效的方式,無(wú)論是技術(shù)層面的還是非技術(shù)層面的。熟悉諸如ggplot 和d3.js這樣的數(shù)據(jù)可視化工具對(duì)你有莫大的幫助。不僅對(duì)數(shù)據(jù)可視化所需的工具的了解至關(guān)重要,還得學(xué)會(huì)了解可視化的數(shù)據(jù)編碼和交流信息隱含的原理
軟件工程
如果你應(yīng)聘的單位規(guī)模很小,而且你還是這家公司最早應(yīng)聘來(lái)的數(shù)據(jù)科學(xué)家之一,你最好具有軟件工程專(zhuān)業(yè)背景。因?yàn)橐婚_(kāi)始的時(shí)候你需要處理大量的數(shù)據(jù)日志文件和數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)品的開(kāi)發(fā)。
像數(shù)據(jù)科學(xué)家一樣思考
公司非常想看到在你被雇傭之后,你是一名(數(shù)據(jù)驅(qū)動(dòng)的)問(wèn)題的解決者。這就是說(shuō),在你面試過(guò)程中的某一時(shí)刻,你會(huì)被問(wèn)到一些難度很高的問(wèn)題。比如關(guān)于企業(yè)想運(yùn)行測(cè)試的方法或者他們向開(kāi)發(fā)的以數(shù)據(jù)為驅(qū)動(dòng)的產(chǎn)品。對(duì)你而言你要深重的思考在這個(gè)問(wèn)題當(dāng)中那些是重要的,哪些不重要。作為一名數(shù)據(jù)科學(xué)家,你應(yīng)該如何與相關(guān)的工程師以及產(chǎn)品經(jīng)理進(jìn)行有效的互動(dòng)?你應(yīng)該采用何種方法?近似值在什么時(shí)候會(huì)發(fā)揮功效?
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03