
在 Booking 當(dāng)數(shù)據(jù)科學(xué)家是怎樣一種體驗(yàn)
Nishikant是Booking公司的一名高級(jí)數(shù)據(jù)分析師,在本文中他分享了自己在Booking從數(shù)據(jù)科學(xué)家新手到大師的發(fā)展歷程。
求職
在迪拜做了3年咨詢類工作之后,我作為一名數(shù)據(jù)科學(xué)家加入了Booking 。從咨詢轉(zhuǎn)行到數(shù)據(jù)科學(xué)領(lǐng)域是我職業(yè)生涯中的重大轉(zhuǎn)變,現(xiàn)在看來我很高興當(dāng)初做了這一選擇。
在面試時(shí),我就對(duì)Booking的感覺特別好。我有機(jī)會(huì)與數(shù)據(jù)科學(xué)家交談,面試官的背景非常多樣,其中一位擁有天文學(xué)的博士學(xué)位,另一位是自己創(chuàng)業(yè)公司的首席技術(shù)官。
同時(shí)Booking的伙食特別好,這也是我選擇Booking的原因之一。
入職
我還記得入職的第一天,同事問我”你對(duì)你的屏幕還滿意嗎?”這讓我很意外,因?yàn)槲乙郧肮ぷ鲿r(shí)只配備了一臺(tái)筆記本電腦。Booking之后給我配備了一臺(tái)Mac、兩個(gè)大屏幕以及其他一些酷炫的設(shè)備。
入職后不久,我參與的第一個(gè)入職項(xiàng)目涉及到分析大量文本,我需要從中得出業(yè)務(wù)見解。以前我只有結(jié)構(gòu)化數(shù)據(jù)方面的經(jīng)驗(yàn),因此我對(duì)這個(gè)新挑戰(zhàn)感到興奮。我希望提高自己文本數(shù)據(jù)的水平,但不久之后我就遇到困難了,那就是Booking龐大的數(shù)據(jù)規(guī)模。
Booking每24小時(shí)訂出150萬個(gè)房間,同時(shí)有數(shù)百萬人訪問網(wǎng)站,這意味著數(shù)據(jù)科學(xué)家所接觸的數(shù)據(jù)規(guī)模相當(dāng)大。還好公司有使用Spark進(jìn)行分布式計(jì)算的內(nèi)部培訓(xùn)。通過培訓(xùn),如今我能夠在多臺(tái)機(jī)器上運(yùn)行分析。
項(xiàng)目
我的第二個(gè)項(xiàng)目是為合作網(wǎng)站構(gòu)建推薦引擎。以前我只做過標(biāo)準(zhǔn)回歸和分類模型,這是我第一次接觸到協(xié)同過濾和分解機(jī)。
由于數(shù)據(jù)規(guī)模,我不得不用PySpark進(jìn)行稀疏分布矩陣。在編寫代碼之后,我們進(jìn)行了A / B測(cè)試,看這樣是否會(huì)對(duì)我們的業(yè)務(wù)帶來積極影響。這也是我第一次接觸A / B測(cè)試,但幸運(yùn)的是公司配有完備的實(shí)驗(yàn)工具和基礎(chǔ)設(shè)施,從而讓這一過程并不困難。通過多次迭代,我們順利處理了冷啟動(dòng)問題,并成功完成了該項(xiàng)目。
Booking的數(shù)據(jù)科學(xué)家在Analytics Fair上展示項(xiàng)目
接下來是大量的項(xiàng)目,每個(gè)項(xiàng)目都有不同的挑戰(zhàn),作為數(shù)據(jù)科學(xué)家我需要不斷地學(xué)習(xí)。例如,其中一個(gè)項(xiàng)目需要我將業(yè)務(wù)問題表示為加權(quán)網(wǎng)絡(luò)圖,并進(jìn)行相關(guān)分析; 在另一個(gè)項(xiàng)目中,我需要從簡(jiǎn)單的數(shù)據(jù)分析中得出有價(jià)值的見解。
就這樣過了兩年半,我目前是Booking的高級(jí)數(shù)據(jù)科學(xué)家?,F(xiàn)在我致力于研究人工智能產(chǎn)品的機(jī)器翻譯,并通過部署神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)解決方案構(gòu)建全面的生產(chǎn)系統(tǒng)。
團(tuán)隊(duì)構(gòu)成
下面我打算介紹下Booking的團(tuán)隊(duì)構(gòu)成。
我們采用“嵌入式”結(jié)構(gòu),數(shù)據(jù)科學(xué)家與業(yè)務(wù)緊密相連。我參與的團(tuán)隊(duì)中有開發(fā)人員、數(shù)據(jù)科學(xué)家、產(chǎn)品負(fù)責(zé)人和其他專家。團(tuán)隊(duì)結(jié)合所有的力量,將相關(guān)概念實(shí)施到具體產(chǎn)品。在日常運(yùn)營(yíng)中,我們遵循一定的準(zhǔn)則:每日會(huì)議、回顧、待辦事項(xiàng)、團(tuán)隊(duì)目標(biāo)、KPI和OKR(目標(biāo)和關(guān)鍵結(jié)果)。再加上每?jī)芍芤淮蔚臅?huì)議,能夠讓團(tuán)隊(duì)穩(wěn)步發(fā)展,并盡快學(xué)習(xí)。
正是與業(yè)務(wù)的緊密聯(lián)系,Booking的數(shù)據(jù)科學(xué)家都有很強(qiáng)的溝通能力和商業(yè)意識(shí),同時(shí)還有很強(qiáng)的專業(yè)技能。這些都是我們?cè)诿嬖嚽舐氄邥r(shí)要測(cè)試的基本技能。
出色的數(shù)據(jù)科學(xué)家
Booking共有120 多名數(shù)據(jù)科學(xué)家,而且社區(qū)在日益壯大。每位數(shù)據(jù)科學(xué)家都有不同的背景和技能強(qiáng)項(xiàng)。
有些人是數(shù)據(jù)科學(xué)新手,有些人則有豐富的工作經(jīng)驗(yàn); 有些人是貝葉斯派,有些人是頻率學(xué)派; 有些人喜歡用R語言,有些人更喜歡用Python; 有些人喜歡用Vowpal Wabbit,有些人則喜歡使用Spark和H2O進(jìn)行分布式計(jì)算。
這種多樣性可以讓大家彼此學(xué)習(xí)和進(jìn)步。我們每周都會(huì)舉行相關(guān)的聚會(huì)和會(huì)談,當(dāng)中我們會(huì)談?wù)撟钚碌男袠I(yè)動(dòng)向和研究論文,并結(jié)合解決Booking的實(shí)際問題。此外,公司還會(huì)定期舉辦相關(guān)技術(shù)培訓(xùn),包括A / B測(cè)試、Git、Hive、Python、R、Spark、H2O、TensorFlow等內(nèi)容。
Booking數(shù)據(jù)科學(xué)社區(qū)每周會(huì)談
在我看來,在Booking工作最大的財(cái)富就是出色的數(shù)據(jù)科學(xué)社區(qū),在當(dāng)中我每天都能學(xué)習(xí)新事物,并且十分開心。
面對(duì)的挑戰(zhàn)
同時(shí)我們也有面對(duì)一些挑戰(zhàn)。
首先,由于我們的數(shù)據(jù)科學(xué)社區(qū)發(fā)展得非???,這也為分享知識(shí)帶來了難度。為了解決這個(gè)問題,我們嘗試了很多方法,比如針對(duì)專業(yè)的話題(比如自然語言處理),黑客馬拉松等方面展開討論,從而更好地分享知識(shí)。
讓數(shù)據(jù)科學(xué)家參與業(yè)務(wù)也有其不利之處。有時(shí)在日常工作中我們會(huì)缺少同事的相關(guān)反饋。為了解決這個(gè)問題,我們鼓勵(lì)大家分享各自的成果,并與同事一起討論他們的最新項(xiàng)目。同時(shí)我們也為新員工提供導(dǎo)師計(jì)劃。
盡管我們已多次為數(shù)據(jù)科學(xué)社區(qū)做出貢獻(xiàn),但我們也希望將成果分享給外部。我們目前正在制定一些指導(dǎo)方案。
Booking的數(shù)據(jù)科學(xué)家們?cè)诖暇蹠?huì)
最后我想說,在Booking當(dāng)數(shù)據(jù)科學(xué)家非常愉快,而且從來不會(huì)缺少機(jī)遇與挑戰(zhàn)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10