
掌握8項技能讓你擁有數據科學崗位
你想找到一份數據科學家的工作嗎?如果你有這樣的想法的話,那么你就有伴兒了。最近由Thomas Davenport和D.J. Patil在《哈佛商業(yè)周刊》上面發(fā)表了一篇專欄,文章稱“數據科學家”是21世紀最最性感的工作。
那么你怎樣才能找到門路呢?很多實用性的資源可以幫助你成為一名數據科學家,只是需要你可以綜合性地駕馭多個學科領域,比如軟件開發(fā)、數據修改、數據庫、統(tǒng)計學、機器學習以及數據可視化。
請不要擔心,以我的經驗來看,作為一名數據科學家,事實并非如此沉重。你真的沒有必要用盡可能快地花費一生的時間學習和數據相關的信息和技能。你需要做的就是仔細地閱讀數據科學崗位職責的描述。這樣就可以讓你根據自己已經有的經驗和技能去申請和數據科學家崗位相關的工作,或者根據具體崗位的需要加強具體的數據技能,以便于可以和你想要的工作更好的匹配。
4種數據科學工作崗位
“數據科學家”是一種綜合性的崗位頭銜,通常用來表示該崗位與其他類別崗位有相當大的不同之處。下面是4種數據科學崗位:
一位數據科學家就是一位居住在舊金山的數據分析師
玩笑歸玩笑,實際上很多公司里面的數據科學家就等同于一名數據分析師。你的日常工作內容可能由以下方面組成,比如從MySQL數據庫中拉取數據,在Excel數據透視表方面你也是大拿,并且還得生成基本的數據可視化圖表(比如條形或者柱狀圖)。你可能還會偶爾分析A/B測試的結果,或者掌管公司在Google Analytics注冊的賬戶。對于渴望成為數據科學家并且想摸到竅門的你而言,這樣的公司的確是理想之地。
請放養(yǎng)我們的數據!
看起來已經有很多企業(yè)的信息流量即將迎來高峰(而且還有不斷增長的數據量),企業(yè)正在尋找合適的人選建立大量的數據架構,以便于讓企業(yè)可以不斷向前發(fā)展。他們也在尋找能夠做數據分析的合適人選。你會發(fā)現這種類型崗位的公開招聘信息陳列在“數據科學家”和“數據工程師”的類目中。既然你想成為公司里面第一個數據方面的雇員,那么還是有個別唾手可得的崗位,這些崗位的重要性并沒有數據科學家這般重要,比如統(tǒng)計師或者機器學習專家。擁有軟件工程背景的數據科學家在公司里面的表現可能會更加突出,數據科學在公司里面的重要作用就是為產品代碼做出和數據有關的貢獻并提供基本的洞察和分析結果。但是在這種企業(yè)中,基層數據科學家崗位的員工不會太多的師徒制機會。因此,在這種環(huán)境當中,你可以在很多考驗之后發(fā)光發(fā)熱并大紅大紫,但是這樣的環(huán)境也會缺少相對的安全性,因為單憑你的一己之力,你會面臨徹底失敗或者停滯不前的風險。
我們就是數據,數據就是我們
對很多公司而言,他們的數據(或者說他們的數據分析平臺)就是他們自己的產品。對于這種情況,公司所進行的數據分析或者機器學習環(huán)境非常激烈。這樣的環(huán)境可能對于那些具有正規(guī)的數學、統(tǒng)計或者物理專業(yè)背景并希望繼續(xù)在學術道路上深造的人而言再合適不過了。處于這種崗位配置環(huán)境中的數據科學家,與回答公司一些操作方面的問題相比,他們更傾向于集中精力生產更好的數據驅動的產品。這種類型的公司也許是一種具有大量數據的面向消費者的企業(yè)或者他們專門提供以數據為基礎的專業(yè)性服務。
規(guī)模適度的并由數據驅動的非數據企業(yè)
在這種類型的企業(yè)當中,你的作用就是參與到由其他數據科學家組建的團隊當中進行協作。你所應聘的公司很關系數據,但實際上他并非是一家數據公司。同樣重要的是你仍然需要能夠執(zhí)行分析、觸及產品代碼、讓數據可視化等。通常情況下,這種類型的公司要么是正在尋找綜合型的多面手,要么他們正在為公司填補團隊所缺少的專業(yè)人才,比如數據可視化或機器學習。當你參加這種類型公司的面試時,對你最終要的技能就是熟悉使用專門為大數據所設計的軟件工具(比如Hive或者Pig)并且有處理現實生活中那些爛七八糟的數據庫。
但愿以上這四方面的信息可以讓你充分的了解為何一名“數據科學家”的頭銜具有如此寬泛的含義。以上這四種具有不同個性的公司對于候選人在技能、經驗以及經驗水平方面的要求也各有千秋。機關如此,所有公開招聘的工作都會把自己公司的崗位稱作是“數據科學家”,因此你一定要仔細地閱讀崗位職責,了解你所將要加入的團隊的情況并能夠提升你哪些方面的技能。
掌握8項技能讓你如魚得水
以下就是8項你應該發(fā)展的數據科學崗位技能:
基本工具
無論是應聘的公司是哪種類型,你都應該具備了解如何使用交易工具的經驗。比如類似R或者Python這樣的統(tǒng)計編程語言,還有SQL這樣的數據庫查詢語言。
基本統(tǒng)計學
作為數據科學家懂得至少一種基本的統(tǒng)計學非常重要。曾經有一位面試官告訴我說他所面試過的很多人都無法正確地提供p值的正確定義。因此你一定要對統(tǒng)計測試、分布、最大相似估計等了如指掌。試著回憶以下你的統(tǒng)計學課堂吧!對于機器學習方面的問題也有和這個情況一樣的時候,但是你的統(tǒng)計學知識的最重要的一方面就是你得知道在什么時候不同的技術方有效(或者無效)。統(tǒng)計學對各種類型的企業(yè)而言都非常重要,但尤其是對那些以數據為驅動的企業(yè)而言,他們的產品不是以數據為專注點,而且產品的利益相關者會根據你提供的幫助制定決策并設計/評估試驗結果。
如果你供職的企業(yè)有大量的數據資源,或者你所在的企業(yè)的產品本身受數據所驅動,在這種情況下需要你必須熟知機器學習算法。這意味著像k值臨近法、隨機森林,集成方法等和機器學習有關的所有流行詞匯都需要你有所了解。我們的確可以利用R或者Python庫執(zhí)行很多技術,因為如果你不是主導算法如何奏效的行業(yè)專家的話,那你沒有必要成為一名血色交易使者。最重要的是你要懂得大致的框架,而且需要知道不同的時候采用相應合適的技術。
多變量微積分和線性代數
當你在接受面試的時候,很可能面試官會要求你導出一些機器學習或者統(tǒng)計學結果。即使你不問,那么面試官也會問你一些基本的多變量微積分或者線性代數問題,因為它們是很多技術的基礎。也許你想知道為什么一位數據科學家需要懂得這些東西,如果我們有很多sklearn或者R方面的工具幫助我們來實現這些功能。因為就某一點而言,數據科學家團隊值得為此內部開發(fā)一個執(zhí)行工具。對于就職于生產由數據驅動的產品的公司的你而言,明白這些概念非常重要,并且對預算執(zhí)行或者算法方面的優(yōu)化改進會為企業(yè)帶來更多勝利的果實。
數據修改
通常情況下你所分析的數據會變得無比凌亂,讓你的工作變得異常艱難。因此很有必要弄清楚如何對待數據中出現的缺陷。常見的數據缺陷包括遺漏值、不一致的字符串格式(比如“New York”對“new york”對“ny”),還有日期格式(‘2014-01-01’ vs. ‘01/01/2014’等)。作為一名較早進入企業(yè)的數據技術人才,數據的修改工作是重中之重,無論你所在的這家公司規(guī)模很小,還是你所供職的企業(yè)所生產的產品和數據無關但是企業(yè)的發(fā)展需要依靠數據驅使,擁有這項數據修改技能非常重要。
數據可視化與信息交流
數據的可視化與通信化非常重要,尤其對與第一次制定數據驅動決策的年輕企業(yè),或者是把數據科學家視為幫助別人做數據驅動決策的企業(yè)。我們所謂的數據交流性,指的是你向受眾描述你的發(fā)現或者技術奏效的方式,無論是技術層面的還是非技術層面的。熟悉諸如ggplot 和d3.js這樣的數據可視化工具對你有莫大的幫助。不僅對數據可視化所需的工具的了解至關重要,還得學會了解可視化的數據編碼和交流信息隱含的原理
軟件工程
如果你應聘的單位規(guī)模很小,而且你還是這家公司最早應聘來的數據科學家之一,你最好具有軟件工程專業(yè)背景。因為一開始的時候你需要處理大量的數據日志文件和數據驅動的產品的開發(fā)。
像數據科學家一樣思考
公司非常想看到在你被雇傭之后,你是一名(數據驅動的)問題的解決者。這就是說,在你面試過程中的某一時刻,你會被問到一些難度很高的問題。比如關于企業(yè)想運行測試的方法或者他們向開發(fā)的以數據為驅動的產品。對你而言你要深重的思考在這個問題當中那些是重要的,哪些不重要。作為一名數據科學家,你應該如何與相關的工程師以及產品經理進行有效的互動?你應該采用何種方法?近似值在什么時候會發(fā)揮功效?
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03