
數(shù)據(jù)科學(xué)家是干什么的?聽七位受歡迎的專業(yè)人士發(fā)表見解
我們來跟上這些從事該職業(yè)的獨角獸的步伐,了解使他們?nèi)〉贸删偷墓ぷ鳌⒓寄芎徒逃?
來會一會數(shù)據(jù)科學(xué)家
我們中的很多人上大學(xué)時,那時沒有數(shù)據(jù)科學(xué)家的職位。這是分析數(shù)據(jù)的科學(xué)和統(tǒng)計方法混合在一起,知道如何使用從海量數(shù)據(jù)庫中提取模式和答案的工具。聽起來很沉悶?還好啦。事實上,早在2012年,《哈佛商業(yè)評論》就把它稱為“21世紀(jì)最性感的工作”。
所以,大家自然都需要數(shù)據(jù)科學(xué)家。但更重要的是,既然我們深入信息時代,所有的企業(yè)——不管它們的最終產(chǎn)品是什么或客戶是什么人——都需要一個數(shù)據(jù)科學(xué)家。
據(jù)IBM介紹,世界上大部分的數(shù)據(jù)都是在過去兩年中創(chuàng)建的。而且我們正在以前所未有的速度創(chuàng)建著數(shù)據(jù):我們作為世界人口,每天都生成2.5個五萬億字節(jié)的數(shù)據(jù)。但是如果沒有引導(dǎo)和探測的方法,人類很有可能淹沒在數(shù)據(jù)的洪流中,而不是用它來理解噪音,幫公司回應(yīng)客戶的需求和抱怨,控制費用和制造,了解趨勢如何影響利潤,以及其它可以從空前的數(shù)據(jù)泛濫中挖掘到的東西。
問題是什么呢?數(shù)據(jù)科學(xué)家是——如果你聽過坊間傳言——就像獨角獸一樣罕見。
我們確實找到了一些數(shù)據(jù)科學(xué)家。而且,一旦我們強行與他們交談,向這些專業(yè)的求索者提出質(zhì)疑。我們就會學(xué)到一些東西,即用上物理學(xué)、甚至天體物理學(xué)——工作依然是混亂的,即使是鞋匠也有大量的數(shù)據(jù),即使你提出了有關(guān)大量的數(shù)據(jù)的大問題,仍然需要有人來決定要做什么。
往下讀,一起來會一會這些獨角獸。
Meggie von Haartman
Meggie von Haartman自從標(biāo)題出現(xiàn)之前就一直是一位實踐的數(shù)據(jù)科學(xué)家。她擁有工業(yè)工程專業(yè)博士學(xué)位,專攻優(yōu)化和運營研究,她在硅谷的一家初創(chuàng)公司工作了很久,然后著手建立數(shù)據(jù)模型,幫助Efinancial實現(xiàn)營銷目標(biāo)。關(guān)于她的頭銜,她說:“在某個時候重新塑造品牌是很有意義的”。
在不處理數(shù)據(jù)的時候,她喜歡做一些自己的研究。她說:“我目前正在研究培養(yǎng)一個快樂的孩子的最佳方法?!?
她最近讀什么書?
Seth Stephens Davidowitz寫的《人人都撒謊:大數(shù)據(jù),新數(shù)據(jù),以及互聯(lián)網(wǎng)能怎樣告訴我們到底是誰》。
她喜歡喝什么?
身為一名比利時特拉普主義者。她說:“我最喜歡喝的是智美啤酒。我曾經(jīng)兩次來到Chimay小鎮(zhèn)喝啤酒,第二次是花三個小時從巴黎繞道而過的。
Anthony Rose
在從Anthony Rose看來,處理粒子物理學(xué)的數(shù)據(jù)和在機場叫優(yōu)步的所涉及到的數(shù)據(jù)挑戰(zhàn)之間沒有太大的區(qū)別。
他在優(yōu)步管理著一支專注于改善在機場、大型活動和郊區(qū)等復(fù)雜的環(huán)境找網(wǎng)約車的數(shù)據(jù)科學(xué)家團隊。他們與工程和產(chǎn)品團隊密切合作,處理從統(tǒng)計分析、數(shù)據(jù)可視化、實驗、機器學(xué)習(xí)和建模等方面的所有工作。他說:“我們擁有大量的數(shù)據(jù),只要時間充足,我們可以問大量有趣的問題。”
這與他在粒子物理學(xué)方面所做的工作沒有什么不同。他在CERN的大型強子對撞機做博士后研究,研究希格斯的發(fā)現(xiàn),探索新物理學(xué),以及涉及大量數(shù)據(jù)和復(fù)雜答案的大量其它問題。他說:“這種工作非常適合我在工業(yè)界所做的工作。具有深藏不露的信號的大數(shù)據(jù)集、實驗設(shè)計、以及大量的統(tǒng)計和編碼。”
她最近讀什么書?
Douglas Hofstadter寫的《哥德爾、艾舍爾、巴赫》
她喜歡喝什么?
通常是咖啡,至少在做數(shù)據(jù)科學(xué)的時候喝咖啡。
Danielle Dean
對于Danielle Dean來說,數(shù)據(jù)科學(xué)始于心理學(xué)。他說:“我曾攻讀量化心理學(xué)方面的博士學(xué)位。因為我對如何用數(shù)學(xué)和統(tǒng)計學(xué)來大量研究個人行為感到好奇。”
這聽起來很像我們現(xiàn)在所說的數(shù)據(jù)科學(xué)。她說:“我學(xué)會了如何思考數(shù)據(jù)測量、分析和可視化,并使用技術(shù)(編程語言和工具)來實現(xiàn)它。她非常適合在微軟的人工智能和研究小組工作,她領(lǐng)導(dǎo)一個跨學(xué)科團隊——有物理學(xué)、海洋學(xué)、計算機科學(xué)、統(tǒng)計學(xué)和神經(jīng)科學(xué)的代表——數(shù)據(jù)科學(xué)家和工程師在構(gòu)建預(yù)測分析和機器學(xué)習(xí)解決方案。
她最近讀什么書?
Cathy O'Neil的《大規(guī)模數(shù)學(xué)性武器:大數(shù)據(jù)如何加劇不平等并對民主產(chǎn)生威脅》。她說:“這是對我們生活中的冪算法的一個很好的提醒。
她喜歡喝什么?
蘇打水
Brad Morgart
博思艾倫咨詢公司的Morgart團隊分析了不動產(chǎn)和基礎(chǔ)設(shè)施組合,幫助客戶確定資金需求并影響他們的決策。他說:“基礎(chǔ)設(shè)施和不動產(chǎn)的維護費用非常高昂。我們的團隊使用數(shù)據(jù)分析以高效的資產(chǎn)管理來支持客戶?!?
他說:“我由于受到這種需求的刺激,迫不及待地接受了博思艾倫咨詢公司提供的額外培訓(xùn),成了一名數(shù)據(jù)科學(xué)家”。該公司一直致力于培養(yǎng)一流的數(shù)據(jù)科學(xué)團隊,并于最近推出了一個基礎(chǔ)課程,幫助將分析師轉(zhuǎn)變?yōu)閿?shù)據(jù)科學(xué)家。
他最大的工作挑戰(zhàn)是解讀客戶的請求,以便他的團隊可以提供有意義的分析。他說:“你可以使用高級分析工具快速地處理和分析大量數(shù)據(jù),但是你仍然需要了解客戶的使命和目標(biāo)。我們所做的大部分工作是分析。但它最終是一個影響我們決策的工具?!?
她最近讀什么書?
James Michener的《加勒比》?!拔胰チ硕嗝啄峒庸埠蛧睦固乩{斯,想了解這個地區(qū)?!?
她喜歡喝什么?
幾乎總是咖啡
Lisa Burton
Lisa Burton管理一個早期的溫室,媒體和科技領(lǐng)域的女性主導(dǎo)的創(chuàng)業(yè)公司。她說:“我們的團隊發(fā)掘有潛力的公司并投資它們。”
她的博士學(xué)位攻讀的是機械工程專業(yè),專注于數(shù)據(jù)驅(qū)動的數(shù)學(xué)建模,這是邁向數(shù)據(jù)科學(xué)很自然的一步。她說:“我畢業(yè)的時候,那時數(shù)據(jù)剛剛開始興起。但是當(dāng)我了解到公司想從數(shù)據(jù)科學(xué)家那里得到的東西時,我很快就意識到這正是我喜歡研究的一切東西?!?
所以,從研究生院一畢業(yè),她就成了奧斯汀一家廣告技術(shù)初創(chuàng)公司的第一位數(shù)據(jù)科學(xué)家。她喜歡這份工作。她利用數(shù)據(jù)優(yōu)化了付費搜索廣告的出價,實現(xiàn)了自動化并改進流程。從那里開始那里,她去了一家移動支付初創(chuàng)公司,然后自立門戶成為一名為初創(chuàng)公司提供數(shù)據(jù)驅(qū)動科學(xué)咨詢服務(wù)的顧問。在那里,她遇到了一個客戶,他最終成為了一家使用社交媒體數(shù)據(jù)幫助各大品牌了解客戶的公司的共同創(chuàng)始人。
她將所有這些經(jīng)驗帶到她目前的職位中。她說:“我們遇到了最不可思議的創(chuàng)始人和公司。但是,自打她從第一份工作中學(xué)到的一件事情影響了一切,因為我認為這能夠?qū)?shù)據(jù)科學(xué)傳達給廣泛的受眾,讓他們產(chǎn)生興趣并支持我們的工作,這一點非常重要。這適用于我以后所做的一切?!?
她最近讀什么書?
Cathy O'Neil的《大規(guī)模數(shù)學(xué)性武器:大數(shù)據(jù)如何加劇不平等并對民主產(chǎn)生威脅》。她說:“它談到了創(chuàng)建模型時引入的潛在的偏見和不平等。
她喜歡喝什么?
香檳酒?!熬拖衲闷苼霾冒鸵粯樱亿A了喝香檳慶祝,輸了也喝香檳安慰自己?!?
Nitin Mayande
Mayande一直著迷于網(wǎng)絡(luò)以及它們的工作原理。但在他畢業(yè)獲得了電子學(xué)和電信學(xué)位后,他想研究天體物理學(xué)。在申請研究生院時,他在印度的一家工程公司工作。他說:“我注意到,我一直想要實施最好的技術(shù)解決方案,但是管理層總是選擇技術(shù)上較差,但花費較少時間的解決方案?!边@讓他對決策科學(xué)感興趣,并走上了陰差陽錯的道路。他沒有選擇天體物理學(xué),而是攻讀工程學(xué)、天體物理學(xué)或管理學(xué)的博士學(xué)位——解決方案全部是關(guān)于結(jié)構(gòu)的。這最終導(dǎo)致我成為一名數(shù)據(jù)科學(xué)家。“
如今,Nitin做能支持耐克的重要產(chǎn)品規(guī)劃決策的預(yù)測。
他還想糾正一個關(guān)于數(shù)據(jù)科學(xué)家的錯誤觀念。他說:“人們認為我們花費所有的時間來構(gòu)建復(fù)雜的算法,但我們大部分時間都花在清理數(shù)據(jù)上,以便將其轉(zhuǎn)化為可用的格式”。一旦一切能正常工作,分析立刻就會發(fā)生?!暗堑侥莻€地步,需要做大量的細節(jié)工作和解決問題。”
她最近讀什么書?
P.G. Wodehouse的《布蘭丁城堡的塘鵝》
她喜歡喝什么?
埃塞俄比亞淺度烘培咖啡
Ye Zhao
作為聲田(Spotify)的新型自助式服務(wù)廣告平臺Ad Studio的數(shù)據(jù)科學(xué)家,Ye尋找有助于音樂公司做出產(chǎn)品決策的洞察。這本質(zhì)上是一個流媒體音樂公司的營銷工作。但Ye一開始是一個物理學(xué)家。
她一直對物理學(xué)感興趣,在學(xué)術(shù)界做過物理學(xué)研究,甚至還有一個以她命名的小行星來證明它。她最終怎么就選擇在聲田工作的?她說:“我巴不得數(shù)據(jù)科學(xué)能采用物理學(xué)的嚴謹和技術(shù)性的部分,并將其應(yīng)用于一個引人入勝的話題:人類行為。”
她把所有你希望從小行星物理學(xué)中看到的極客般的、熱愛泰迪熊般的創(chuàng)客精神帶到了她在音樂公司的工作中。她說:“我們在一個由2000個LED組成的自定義LED陣列上進行了物理數(shù)據(jù)可視化,以在聲田上顯示美國的流媒體數(shù)據(jù)。這是硬件、后端和數(shù)據(jù)工作的完美結(jié)合。我們是在奇思妙想周(譯注:hackweek的意思大致是,給你一周的時間,找一個感興趣的項目,找?guī)讉€人組個隊,然后把想法實現(xiàn)出來)期間做的?!?
她最近讀什么書?
Kurban的《阿里和尼諾》。她說:“這是關(guān)于一個穆斯林王子和格魯吉亞公主之間的種族通婚。
她喜歡喝什么?
咖啡。她說:“絕對是咖啡,如果沒有咖啡,我無法開始新的一天。我偶爾也會在晚上喝香檳?!?
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11