
2018-10-31
在大數(shù)據(jù)和機(jī)器學(xué)習(xí)的時代,有一種職業(yè)脫穎而出——數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)家在近年來備受追捧,也有越來越多的人想投身入數(shù)據(jù)科學(xué)領(lǐng)域。
最近,CDA 采訪了幾位來自不同行業(yè)的數(shù)據(jù)科學(xué)團(tuán)隊負(fù)責(zé)人,聊聊他們眼中的數(shù)據(jù)科學(xué)家是什么樣的,以及對于初入數(shù)據(jù)科學(xué)行業(yè)的人群有些什么建議。
今天請到的是來自TalkingData的研發(fā)副總裁——閻志濤,讓我們看看研發(fā)總裁眼中的數(shù)據(jù)科學(xué)家是什么樣的吧。
點(diǎn)擊播放采訪視頻,建議wifi下播放。
http://edu.cda.cn/course/946/task/16002/show
以下是采訪的文字整理部分。
閻志濤 TalkingData,研發(fā)副總裁
大家好,我叫閻志濤,是TalkingData的研發(fā)副總裁。我在TalkingData于2011年成立,我是2012年加入的,到現(xiàn)在已經(jīng)過了六年時間。
Q1:請介紹下您目前從事的數(shù)據(jù)科學(xué)相關(guān)的工作內(nèi)容。
我們公司是既有數(shù)據(jù)也有業(yè)務(wù),因此數(shù)據(jù)科學(xué)相關(guān)的工作,首先是數(shù)據(jù)本身。這部分包含了數(shù)據(jù)治理、數(shù)據(jù)準(zhǔn)備,到最后把數(shù)據(jù)應(yīng)用到不同的業(yè)務(wù)場景里。比方說將數(shù)據(jù)建模提供給不同的客戶,以及通過我們的線上平臺,給企業(yè)客戶提供從數(shù)據(jù)到模型的能力。
另外我們也在構(gòu)建一個開放的平臺。實(shí)際上就是賦能給其他數(shù)據(jù)科學(xué)家,利用我們的數(shù)據(jù)和平臺讓他們建模。
如今對于國內(nèi)企業(yè)而言,數(shù)據(jù)科學(xué)家是現(xiàn)在稀缺的職業(yè)。因此我們公司在教育方面也做投入,比如TDU騰云大學(xué),而且還跟一些國外高校合作了“梧桐計劃”,讓優(yōu)秀院校的畢業(yè)生能夠在我們這邊接受培訓(xùn),用我們的數(shù)據(jù)結(jié)合業(yè)務(wù)場景進(jìn)行實(shí)踐。
對于數(shù)據(jù)科學(xué)而言,算法方面如果有較好的數(shù)學(xué)基礎(chǔ),掌握起來并不是特別難。但如果想落地,一定需要場景和數(shù)據(jù)。這是很多大學(xué)現(xiàn)在所欠缺的,沒有數(shù)據(jù)也沒有場景,只能拿像Kaggle里的一些開源數(shù)據(jù)集去做嘗試。
但是我們這兒有真正生產(chǎn)中可以用的數(shù)據(jù),有具體的問題讓他們?nèi)ソ鉀Q問題,去真正去鍛煉自己的能力。
從我自己目前來講,我現(xiàn)在側(cè)重幾個方面。一個就是數(shù)據(jù)科學(xué)賦能,因?yàn)槲覀冊诖蛟煳覀冏约旱臄?shù)據(jù)科學(xué)平臺。這個平臺實(shí)際上是一個開放的平臺,我們希望把自己的數(shù)據(jù)做一些處理,然后把它變成能讓大家用來建模的數(shù)據(jù)集。結(jié)合業(yè)務(wù)場景,讓不同公司的數(shù)據(jù)科學(xué)家能夠支持他們的業(yè)務(wù),這是我們想做的事情。
這當(dāng)中涉及到血多工作,我們需要做很多數(shù)據(jù)工程的工作,比方說清洗。然后平臺構(gòu)建方面,需要很多這種數(shù)據(jù)整理工作。
我們現(xiàn)在做一個很有意思事情,關(guān)于數(shù)據(jù)現(xiàn)在都在講GDPR,也就是數(shù)據(jù)隱私,如果做到數(shù)據(jù)脫敏。我們現(xiàn)在做叫embedding的事情,把我們的數(shù)據(jù)能夠打平脫敏,變成機(jī)器能夠理解,但人不能理解的內(nèi)容。
Q2:請分享下您工作中所做的具體案例…
因?yàn)楝F(xiàn)在大家都知道大數(shù)據(jù),或者數(shù)據(jù)應(yīng)用的典型場景是廣告或者營銷。這里邊實(shí)際上就有一個非常常見的算法,叫做look alike,就是找相似人群,這是一個典型的數(shù)據(jù)科學(xué)在營銷領(lǐng)域,結(jié)合大數(shù)據(jù)去做的場景。
我們是實(shí)際上約從14年開始就在嘗試用Look alike,利用我們的數(shù)據(jù)幫助一些廣告主,或者是比方廣告的DSP(需求方平臺),提供更好的營銷效果。我們在不同的場景里邊都做過使用,而且都取得不錯的效果,而且現(xiàn)在已經(jīng)將代碼部署在我們的數(shù)據(jù)智能市場上,已經(jīng)把它變成了標(biāo)準(zhǔn)化服務(wù)。也就是說用戶有自己的樣本種子數(shù)據(jù)上傳上來,利用我們的數(shù)據(jù),它就可以做種子人群放大,去可以找到相似的人群去做精準(zhǔn)營銷和投放,這是一個比較具體的案例了。
Q3:您覺得當(dāng)下企業(yè)需要的數(shù)據(jù)科學(xué)家應(yīng)該具備哪些技能?
對于數(shù)據(jù)科學(xué)家來講,我覺得首先硬技能是基礎(chǔ)。首先,你要有比較好的數(shù)據(jù)工程的基礎(chǔ)能力。因?yàn)楝F(xiàn)在的數(shù)據(jù)科學(xué)家并不像原來的數(shù)據(jù)分析師,并不是有人幫你清洗數(shù)據(jù),幫你去做各種數(shù)據(jù)的持,你只需要做簡單的算法模型就行了。
第一,你要有數(shù)據(jù)整理和數(shù)據(jù)工程的能力。因?yàn)楝F(xiàn)在大數(shù)據(jù)的場景里,很多數(shù)據(jù)一開始并不那么干凈,你要能自己去整理這些數(shù)據(jù)。
第二,你需要有對數(shù)據(jù)的理解能力。因?yàn)槟阋龉こ痰脑?,如果不理解?shù)據(jù)是很難的。雖然現(xiàn)在說深度學(xué)習(xí)可以不做特征工程,但是對于大部分業(yè)務(wù)場景,對數(shù)據(jù)進(jìn)行理解,然后去做特征仍然是很關(guān)鍵的。
第三,數(shù)據(jù)科學(xué)能力,熟練掌握各種算法。這也是數(shù)據(jù)科學(xué)家區(qū)別于數(shù)據(jù)工程師的關(guān)鍵能力。
算法對于數(shù)據(jù)科學(xué)家來說,是你的安身立命的工具,是用來解決問題的重要工具。你必須了解在什么場景下,面向什么樣的數(shù)據(jù),采用什么算法,去解決什么樣的業(yè)務(wù)問題,這是核心技能。
第四,對業(yè)務(wù)的理解能力。因?yàn)樗械臄?shù)據(jù)科學(xué)它不是空中樓閣,數(shù)據(jù)科學(xué)家并不是只做科學(xué),而是需要解決具體的業(yè)務(wù)問題。這時掌握業(yè)務(wù)領(lǐng)域知識,對業(yè)務(wù)理解就變得非常的關(guān)鍵。
第五,溝通能力。這個軟技能對數(shù)據(jù)科學(xué)家也是非常關(guān)鍵的。
因?yàn)閿?shù)據(jù)科學(xué)家不是獨(dú)立工作,你要面向業(yè)務(wù)去解決問題。數(shù)據(jù)科學(xué)家跟工程師不太一樣,工程師的問題一般是確定性的,有時只要問題定義清楚就能去做了;但是科學(xué)家需要很多次迭代,這樣你跟業(yè)務(wù)團(tuán)隊、跟不同的人溝通就變得非常關(guān)鍵。
第六,項(xiàng)目管理和時間管理都很關(guān)鍵。數(shù)據(jù)科學(xué)工作經(jīng)常需要多次迭代。如何管理整個不同的資源,如何控制時間,一步步=接近到你的目標(biāo)也是至關(guān)重要的。
硬技能和軟技能一樣,對于數(shù)據(jù)科學(xué)家確實(shí)都是非常重要的,所以說這是一個非常綜合的職業(yè)。
Q4:您覺得數(shù)據(jù)科學(xué)家最核心的一個能力是什么?
對數(shù)學(xué)科學(xué)家而言,數(shù)據(jù)科學(xué)是核心能力。
這里可以去其他的幾個職業(yè)進(jìn)行區(qū)分。數(shù)據(jù)工程師需要數(shù)據(jù)科學(xué)能力,但工程能力就更關(guān)鍵,而分析師業(yè)務(wù)理解更關(guān)鍵。數(shù)據(jù)科學(xué)家的核心素質(zhì),一定是算法等相關(guān)能力。
你一定要緊跟時代的發(fā)展。目前,雖然人工智能很熱,但整個數(shù)據(jù)科學(xué)還是在爬坡階段,各種新的算法層出不窮。我覺得在掌握常見基礎(chǔ)算法的情況下,一定要多去看國外的先進(jìn)文獻(xiàn)和論文,去了解更新的算法。因?yàn)楫?dāng)中有很多算法,并不是大家能在大學(xué)里學(xué)到的。
Q5:請您給正在職場打拼的數(shù)據(jù)分析師、數(shù)據(jù)工程師們一些職業(yè)發(fā)展建議!
實(shí)際上我是工程師出身的,這兩個角色確實(shí)不太相同。對于數(shù)據(jù)工程師來講,想轉(zhuǎn)成數(shù)據(jù)科學(xué)家需要思維方式的轉(zhuǎn)變。
工程師解決的問題經(jīng)常是具象的、確定性的,工程師一般是根據(jù)確定性的問題,找到解決方案。解決方案出來后,它就能出現(xiàn)確定性的結(jié)果。
但是對于數(shù)據(jù)科學(xué)家而言,面向的結(jié)果是不確定性的。你要要做好思想準(zhǔn)備,在工作中逐步嘗試,接近更完美更好的效果。
在有思想準(zhǔn)備之后,你還需要之前所提的硬技能。數(shù)據(jù)工程師的強(qiáng)項(xiàng)是工程能力,寫代碼的能力。但數(shù)據(jù)科學(xué)需要掌握很多算法,可以通過培訓(xùn)、線上課程等資料補(bǔ)齊這些知識。大學(xué)里學(xué)過的概率論、統(tǒng)計、線性代數(shù)等知識也需要復(fù)習(xí)。
然后還需要再實(shí)際動手。面向問題找到對應(yīng)問題的數(shù)據(jù),去動手一步一步的梳理。
以上是我的一些建議和想法。
Q6:您對CDA LEVEL 3 數(shù)據(jù)科學(xué)家人才標(biāo)準(zhǔn)有何建議和期待?
就國內(nèi)目前來說,數(shù)據(jù)科學(xué)家人才是比較缺乏的。CDA LEVEL 3的課程設(shè)置很好,能夠讓更多的人加入到數(shù)據(jù)科學(xué)隊伍里來,為市場輸送了很多優(yōu)秀的數(shù)據(jù)分析人才,從而進(jìn)一步強(qiáng)大數(shù)據(jù)科學(xué)團(tuán)隊,這是非常有價值的。
如何進(jìn)階為數(shù)據(jù)科學(xué)家
CDA LEVEL 3數(shù)據(jù)科學(xué)家精英培訓(xùn)已正式發(fā)布,旨在面向從業(yè)多年的、有技術(shù)基礎(chǔ)的大數(shù)據(jù)及數(shù)據(jù)分析專業(yè)人士、數(shù)據(jù)工程師等,為他們提供一個成為數(shù)據(jù)領(lǐng)袖的跳板。了解更多詳情:http://www.3lll3.cn/kecheng/53.html
完 謝謝觀看