
作者Jo Stichbury,自由技術(shù)作家
數(shù)據(jù)科學(xué)是一個(gè)新興的成熟領(lǐng)域,從數(shù)據(jù)工程和數(shù)據(jù)分析到機(jī)器和深度學(xué)習(xí),各種工作職能不斷涌現(xiàn)。數(shù)據(jù)科學(xué)家必須結(jié)合科學(xué)、創(chuàng)造性和調(diào)查性的思維,從一系列數(shù)據(jù)集中提取意義,并解決客戶面臨的潛在挑戰(zhàn)。
從零售、交通和金融到醫(yī)療保健和醫(yī)學(xué)研究,生活的各個(gè)領(lǐng)域都產(chǎn)生了越來越多的數(shù)據(jù)。
可用計(jì)算能力的增加和人工智能的最新進(jìn)展將數(shù)據(jù)科學(xué)家--獲取原始數(shù)據(jù)、分析數(shù)據(jù)并使其有用和可用的人--推到了聚光燈下。
根據(jù)收入潛力、報(bào)告的工作滿意度和Glassdoor上的職位空缺數(shù)量等標(biāo)準(zhǔn),自2016年以來,數(shù)據(jù)科學(xué)一直位居北美50個(gè)最佳職位榜首。
那么成為一名數(shù)據(jù)科學(xué)家需要什么呢?
為了獲得成功的一些技巧,我采訪了Ben Chu,他是atRefinitiv Labs的資深數(shù)據(jù)科學(xué)家。
朱棣文擁有人工智能的背景,尤其是語言學(xué)、語義學(xué)和圖形領(lǐng)域,并在新加坡路孚特實(shí)驗(yàn)室工作了兩年。
朱棣文在我們的采訪開始時(shí)說,數(shù)據(jù)科學(xué)家應(yīng)該像調(diào)查人員一樣思考。
你需要通過問“為什么?”來感到好奇和興奮?!斑@有點(diǎn)像當(dāng)偵探,把一個(gè)個(gè)點(diǎn)串起來,發(fā)現(xiàn)新線索?!?
在金融領(lǐng)域,數(shù)據(jù)科學(xué)家從一系列數(shù)據(jù)集中提取意義,以通知客戶并指導(dǎo)他們的關(guān)鍵決策。
數(shù)據(jù)科學(xué)家必須放大客戶想要解決的挑戰(zhàn),并從他們正在處理的數(shù)據(jù)中獲取線索。
從與朱棣文的交談中,我了解到能夠轉(zhuǎn)移焦點(diǎn)并考慮調(diào)查的背景是多么重要。
如果不能解決根本問題,完美的分析是沒有幫助的。有時(shí)你需要回頭,嘗試一種新的方法,重新定義你試圖回答的問題。其核心是好奇心。你需要喜歡問題!
數(shù)據(jù)科學(xué)家使用一系列工具來管理他們的工作流、數(shù)據(jù)、注釋和代碼。
“我必須非常勤奮。我需要衡量和跟蹤我的進(jìn)展,這樣我就可以備份和嘗試一個(gè)新的方向,重用以前的工作,并比較結(jié)果。
“重要的是要科學(xué),在你前進(jìn)的過程中進(jìn)行觀察、實(shí)驗(yàn)和記錄,這樣你就可以復(fù)制你的發(fā)現(xiàn)。我需要組織我的觀察,所以我用概念作為我的主要工具,把我所有的筆記、論文和可視化放在一個(gè)地方?!?
朱棣文強(qiáng)調(diào),需要保存記錄,不僅要追溯到他目前的調(diào)查,還要追溯到所有以前的發(fā)現(xiàn)。
“這就像數(shù)據(jù)科學(xué)日記。當(dāng)我遇到類似的情況時(shí),我會(huì)保留很好的參考點(diǎn),并參考它們來指導(dǎo)我的下一步行動(dòng)?!?
數(shù)據(jù)科學(xué)不僅僅是有一個(gè)科學(xué)的方法。職稱可能會(huì)誤導(dǎo)人;你不必來自科學(xué)背景,但你確實(shí)需要能夠創(chuàng)造性地思考。通常,另類思維是你應(yīng)對(duì)挑戰(zhàn)的關(guān)鍵。
“我必須在解決問題的科學(xué)思維和引導(dǎo)我走上新的和不同的探索道路的創(chuàng)造性思維之間切換。
“邏輯的、科學(xué)的思維對(duì)幫助我得出結(jié)論至關(guān)重要,但戴上一頂創(chuàng)造性的帽子同樣重要:我用好的和失敗的例子作為觀察新模式的線索。這都是關(guān)于‘編碼智能’的?!?
您需要扎實(shí)的編碼技能,以便能夠使用各種數(shù)據(jù)處理技術(shù)對(duì)不同的數(shù)據(jù)源進(jìn)行預(yù)處理,以解決噪聲或不完整的數(shù)據(jù)。
您還需要能夠創(chuàng)建機(jī)器學(xué)習(xí)管道,這將要求您知道如何構(gòu)建模型,并使用工具和框架來評(píng)估和分析其性能。
Chu和大多數(shù)數(shù)據(jù)科學(xué)家一樣使用Python,因?yàn)橛泻芏鄡?yōu)秀的包可以操作和建模數(shù)據(jù)。
事實(shí)上,Glassdoor在2017年上半年對(duì)其網(wǎng)站上的10,000份數(shù)據(jù)科學(xué)家工作列表進(jìn)行了抽樣,發(fā)現(xiàn)三種特殊的技能--Python、R和SQL--構(gòu)成了數(shù)據(jù)科學(xué)領(lǐng)域大多數(shù)職位空缺的基礎(chǔ)。
Ben Chu的團(tuán)隊(duì)依賴于開源機(jī)器學(xué)習(xí)包,如Tensorflow,Pytorch和Bert。
“我們主要將合流用作文檔工具;用于機(jī)器學(xué)習(xí)的MLFlow,Amazon Sagemaker,Scikit-Learn、Tensorflow,PyTorch和BERT;Apache Spark在大型數(shù)據(jù)集中構(gòu)建快速數(shù)據(jù)管道;和雅典娜作為我們的數(shù)據(jù)庫(kù)來存儲(chǔ)我們處理過的數(shù)據(jù)。
“我們還使用Superset來連接數(shù)據(jù),并更容易地構(gòu)建儀表板來輸出圖表,這使其更加直觀?!?
朱棣文現(xiàn)在是路孚特實(shí)驗(yàn)室的一名高級(jí)數(shù)據(jù)科學(xué)家,但他從小就想成為一名音樂家,并對(duì)語言著迷。對(duì)于我在自然語言處理領(lǐng)域的工作,我需要很好地理解語言學(xué),特別是語義學(xué)和語言的細(xì)微差別。
他解釋說,一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)需要一系列的技能--他和他的同事有來自不同背景的重疊技能。
“你需要的技能將取決于你工作的領(lǐng)域。例如,我需要對(duì)金融有很好的了解。
“例如,數(shù)據(jù)分析正被應(yīng)用于減少欺詐,通過建立異常檢測(cè)方法來檢測(cè)欺詐‘行為',作為交易數(shù)據(jù)中的不規(guī)則模式。
“像我這樣的數(shù)據(jù)科學(xué)家需要精通如何處理各種孤立的金融數(shù)據(jù)。知道要結(jié)合什么是至關(guān)重要的,因?yàn)闆]有這種理解,我就無法建立一個(gè)成功的模型?!?
進(jìn)入數(shù)據(jù)科學(xué)并不一定要成為一名計(jì)算機(jī)科學(xué)家或數(shù)學(xué)家。沒有人在每個(gè)領(lǐng)域都擁有所有的專業(yè)知識(shí)。你可以有法律、經(jīng)濟(jì)或科學(xué)背景。都是關(guān)于你思考的方式。
如果您能夠靈活和系統(tǒng)化,您將能夠在使用工具、框架和數(shù)據(jù)集時(shí)熟悉這些工具、框架和數(shù)據(jù)集的細(xì)節(jié)。
對(duì)于那些渴望發(fā)展數(shù)據(jù)科學(xué)技能的人,朱棣文提供了一些實(shí)用的建議,盡管新冠肺炎造成了干擾,但你可以很容易地采用這些建議。
你可以在網(wǎng)上尋找研究社區(qū)、參加網(wǎng)絡(luò)研討會(huì)和找到培訓(xùn)課程。一旦面對(duì)面的網(wǎng)絡(luò)再次可行,朱建議您積極參與數(shù)據(jù)科學(xué)社區(qū)。
“去參加會(huì)議和黑客馬拉松,這將幫助你建立一個(gè)強(qiáng)大的網(wǎng)絡(luò)來討論你的想法,啟發(fā)你的研究,回答你的問題”。
此外,請(qǐng)記住,數(shù)據(jù)科學(xué)領(lǐng)域是一個(gè)新的領(lǐng)域,而且仍在不斷成熟。
出現(xiàn)了各種不同的職位頭銜,如數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師和數(shù)據(jù)分析師,以及機(jī)器學(xué)習(xí)和深度學(xué)習(xí)工程師。您可能會(huì)發(fā)現(xiàn)一個(gè)角色比另一個(gè)角色更適合您的興趣和技能。
挖掘你的好奇心和創(chuàng)造力,提高你的Python技能,進(jìn)入數(shù)據(jù)科學(xué)!
本文最初出現(xiàn)在2020年4月初的《路孚特透視》上。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場(chǎng)景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實(shí)際問題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價(jià)值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案 ...
2025-09-09