
2018-10-30
在大數(shù)據(jù)和機器學習的時代,有一種職業(yè)脫穎而出——數(shù)據(jù)科學家。數(shù)據(jù)科學家在近年來備受追捧,也有越來越多的人想投身入數(shù)據(jù)科學領域。
最近,CDA 采訪了幾位來自不同行業(yè)的數(shù)據(jù)科學團隊負責人,聊聊他們眼中的數(shù)據(jù)科學家是什么樣的,以及對于初入數(shù)據(jù)科學行業(yè)的人群有些什么建議。
今天請到的是來自新浪微博的產(chǎn)品總監(jiān)——王大禹,讓我們看看產(chǎn)品眼中的數(shù)據(jù)科學家是什么樣的吧。
點擊播放采訪視頻,建議wifi下播放。
http://edu.cda.cn/course/946/task/16001/show
以下是采訪的文字整理部分。
王大禹,新浪微博產(chǎn)品總監(jiān)
大家好,我是王大禹。目前在新浪微博工作,任產(chǎn)品專家。
在新浪微博之前,我曾經(jīng)服務于美非能源和微軟。在以前的公司我都做過和數(shù)據(jù)相關的一系列工作。目前我在新浪微博負責給微博的內(nèi)容和用戶進行屬性分類。
對于內(nèi)容,要知道內(nèi)容在講什么;對于用戶,要知道他們喜歡什么,喜歡看什么、喜歡發(fā)表什么內(nèi)容。這樣我們能根據(jù)相應內(nèi)容找到相應的讀者,讓微博的用戶可以閱讀到他們喜歡類型的內(nèi)容,想獲得想得到的信息。
與此同時,我還負責一個數(shù)據(jù)平臺。這個數(shù)據(jù)平臺會匯集著微博上所有的文本的信息、圖片視頻信息以及用戶行為數(shù)據(jù)。這些數(shù)據(jù)支持著我們進行內(nèi)容和用戶的計算,以及相應內(nèi)容和相應用戶之間的匹配計算。
Q 1:在微博這樣偉大的產(chǎn)品中,有多少數(shù)據(jù)分析師參與?他們起到多大的作用呢?
目前來看,微博中有大量的數(shù)據(jù)分析師。他們對我們產(chǎn)品進行策略的更新,策略的更新指的是,在呈現(xiàn)內(nèi)容的時,有多重方式可采取,那么哪種方式最好,我們要用數(shù)據(jù)來說話。
同樣,比如說有一種新的推薦辦法,我們想看這個辦法是否適合某種類型的用戶和內(nèi)容的推薦。這時我們要做一些實驗,比如Telemetry(計量數(shù)據(jù)收集),收集一些數(shù)據(jù),通過數(shù)據(jù)來看下一個解決方案是會對性能有提升。
數(shù)據(jù)科學家就幫我們來解決了這個問題。數(shù)據(jù)科學家越來越多地融入到產(chǎn)品和算法工程師的工作中來。當然也有一些會編程的數(shù)據(jù)分析師,他們有些擔任算法工程師。這就是目前我們公司數(shù)據(jù)分析師的的情況。
據(jù)我了解,不僅僅是互聯(lián)網(wǎng)IT行業(yè)大量需要數(shù)據(jù)分析師,大量傳統(tǒng)的企業(yè)同樣需要。比如戴姆勒、西門子等傳統(tǒng)公司,他們也在大量招收數(shù)據(jù)科學家,希望數(shù)據(jù)也能為公司決策起作用。
數(shù)據(jù)的作用我覺得分為兩個層次。一個層次是戰(zhàn)術層次,就是短期計劃或市場計劃。比如說計劃會起多大效果,是否有作用,做完事情需要用數(shù)據(jù)進行評估,那么數(shù)據(jù)分析師就可以起到這個作用。
其次從高層程度說,公司一個年度,甚至幾年的戰(zhàn)略決策,當中也離不開數(shù)據(jù)分析師的支持。比如說保險公司、金融行業(yè),以及現(xiàn)在常說的金融科技領域,這些都非常依賴數(shù)據(jù)分析師、數(shù)據(jù)科學家以及數(shù)據(jù)工程師等職業(yè)來幫他們從數(shù)據(jù)中挖掘信息,然后用挖掘出來的信息指導公司戰(zhàn)略決策。
Q 2 :您覺得當下企業(yè)需要的數(shù)據(jù)科學家應該具備哪些技能?
我覺得可分為硬技能和軟技能。硬技能方面,第一是對數(shù)據(jù)最基本的處理技能。
尤其是小公司或大公司的初始項目,這類公司以及這類項目中,收集的數(shù)據(jù)往往是未經(jīng)過清洗的,或者非常有可能是非結構化的。這些數(shù)據(jù)中可能有一部分是錯誤數(shù)據(jù),不能放到處理之中。還有一部分數(shù)據(jù)需要經(jīng)過處理,才可能進入到訓練模型或訓練算法中。因此最基本的數(shù)據(jù)處理的能力是要有的。
第二,編程技能。
最起碼需要掌握像Python這種簡單、高效的腳本語言。因為在處理有些數(shù)據(jù)時,的,如果不會這些語言是很難做到的。
舉個最簡單的例子,如果我要把一周的數(shù)據(jù)按天分成七列數(shù)據(jù),通過寫一個簡單的腳本就能很容易做到。但如果否則用Excel等其他工具來完成會非常困難,甚至是不可能的。
如今,我們已經(jīng)由大數(shù)據(jù)時代進入人工智能時代。大數(shù)據(jù)時代講究的是,收集這些數(shù)據(jù),并利用這些數(shù)據(jù)。那么在收集和存儲數(shù)據(jù)時,顯然需要用到大數(shù)據(jù)相關的技術,因此大數(shù)據(jù)相關知識也是必備的。
收集到了數(shù)據(jù)之后,我們還需要用人工智能算法來處理。
人工智能算法中最有代表性的一類就是機器學習算法。因此需要對最常用的機器學習算法,包括有指導的、半指導的、無指導的這些算法有一些理解,以及掌握這些算法適合哪種應用場景。
第三,再高級一點的說就是需要具備項目管理和產(chǎn)品管理的能力。
因為對于大型公司而言,他需要了解整個軟件開發(fā)的周期和流程,以及整個產(chǎn)品的生命周期。比如,收集市場和用戶的反饋意見;把意見形成新的需求列表;用優(yōu)先級對需求列表排序;用大量收集數(shù)據(jù)來進行項目評估。如果掌握項目管理和產(chǎn)品管理的流程,就能更好的融入工作當中。
第四,還有自然語言處理等其他硬技能。
國內(nèi)許多項目中,收集到用戶評論等語言相關數(shù)據(jù)都是非結構化的。因此在處理用戶評論等非結構的文本中,自然語言處理知識是必要的。
除了硬技能,軟技能也至關重要。軟技能指的是在職場中解決問題所具備的能力,主要是溝通能力。
你要知道公司想讓你做什么,做完之后需要把結果告訴大家。你需要根據(jù)公司的戰(zhàn)略和長遠目標做好自己的工作,并更好地進行拓展,這些都是非常重要的。同時你還需要能夠很好地與公司同事和領導進行溝通,這些都是軟技能。
Q 3:您認為或者您當前工作中,數(shù)據(jù)科學家需要具備的一個最重要的能力是什么?
我覺得最重要的技能是如何把這些數(shù)據(jù)分析相關的知識和理論落地,即了解其應用領域。
我曾經(jīng)提出過一個G+S理論。G類學科指的是通用類的學科,包括外語、計算機知識編程這些技能,也包括數(shù)據(jù)分析和處理的技能,以及財務會計這類技能。
這些技能是不分領域的,任何領域都需要。無論是工業(yè)、農(nóng)業(yè)、商業(yè)等,這行業(yè)都需要數(shù)據(jù)分析師來提供數(shù)據(jù)方案。
除此之外就是S類技能,即特殊領域的知識,比如說金融領域、醫(yī)療領域、IT互聯(lián)網(wǎng)等領域。
如果比起其他人,你十分了解這個領域,那么的你競爭力也就更強。無論是人工智能算法還是數(shù)據(jù)分析方法,你都必須要知道這個領域是做什么的,這個領域在當前發(fā)展情況下,痛點和難點是什么。
因此我覺得,無論是大數(shù)據(jù)、數(shù)據(jù)科學家,還是人工智能,如何把這些知識技能在某領域落地,這是非常重要的。
Q 4:請您給正在職場打拼的數(shù)據(jù)科學家、數(shù)據(jù)分析師、以及數(shù)據(jù)工程師們一些職業(yè)發(fā)展建議!
我想有三個建議。
第一,作為數(shù)據(jù)科學家需要掌握很多硬技能,CDA的Level 1、2和3課程中就已經(jīng)完整覆蓋了這些技能。在就業(yè)中,需要針對不足的技能進行補充,因為有些想從事數(shù)據(jù)分析行業(yè)的同學是來自非理工學科的,沒有任何編程的技能,那么就需要針對具體方面的進行學習。
比如學習Python和R語言等,取長補短。如果不了解機器學習、NLP方面也可以進一步學習。必須完善整個知識結構,因為數(shù)據(jù)科學是跨領域的學科。它不單純是數(shù)學、統(tǒng)計、計算機或商業(yè)分析等方面,而是跨領域的,因此要保證知識結構的健全。
第二,熟悉具體應用領域。
數(shù)據(jù)科學家一定要熟悉他所工作的領域,不能是割裂的、只是單純做數(shù)據(jù)。而是要了解整個公司的背景,了解所在的部門的背景,這是必不可少的。
第三,提升軟技能。
主要涉及到數(shù)據(jù)呈現(xiàn)。我們在收集和分析數(shù)據(jù)等環(huán)節(jié)已經(jīng)完美地完成了數(shù)據(jù)科學家的職責,那么就結束了嗎?不一定。還涉及到呈現(xiàn)數(shù)據(jù)的方式。
數(shù)據(jù)的呈現(xiàn)需要一定技巧,因為除了在幫助公司決策之外,公司也需要用數(shù)據(jù)呈現(xiàn)給投資方和市場,從而體現(xiàn)公司有良好的目標。
數(shù)據(jù)的呈現(xiàn)本身就是藝術。隨著工作經(jīng)驗的積累,你首先要知道公司和上級需要你做什么,希望通過你的數(shù)據(jù)得到什么樣的結果,并且希望呈現(xiàn)出來什么成品。
CDA 數(shù)據(jù)分析師確實能幫助大家走向數(shù)據(jù)科學家之路。
目前,全球范圍內(nèi)很多有名的大學都開設了數(shù)據(jù)科學課程,但是通過這些課程是一個漫長的過程,而在CDA我們盡可能用最直接的方式,用最符合業(yè)內(nèi)需求的課程的內(nèi)容教授數(shù)據(jù)科學技能。這是非常好的事情,因為市場需要這些人才,據(jù)我了解很多公司都苦于尋找出色的數(shù)據(jù)科學人才。
Q 5:您對CDA LEVEL 3 數(shù)據(jù)科學家人才標準有何建議和期待?
據(jù)我了解,CDA Level III是CDA中最高級別,也就是專家級別,當中主要覆蓋三塊,分別是數(shù)據(jù)治理;大數(shù)據(jù)相關技術以及機器學習。正如我之前所說的,這三部分是數(shù)據(jù)科學家的必備技能。
學完這些內(nèi)容之余,我覺得可以學一些自然語言處理方面的內(nèi)容,然后如何將知識在具體的應用領域應用。
另外,商業(yè)方面知識也是必備的。
數(shù)據(jù)科學家需要為公司的戰(zhàn)略決策提供數(shù)據(jù)支持,了解一些市場商業(yè)方面知識是非常有幫助的。
如今數(shù)據(jù)科學家的薪水是很可觀的,以我的一位學生為例,他在美國讀了MBA,現(xiàn)在的年薪在12萬美元左右。目前國內(nèi)的數(shù)據(jù)科學家主要以初、中級為多,大概的年薪約在20萬到60萬之間,數(shù)據(jù)科學家專家年薪約為60萬到100萬。
我很期待CDA Level 3畢業(yè)的學員未來幾年的發(fā)展,目前許多公司都渴望這些高級人才,越高級的人才實際上越難招。我覺得在這方面CDA做了很大的貢獻,為市場輸送了很多優(yōu)秀的數(shù)據(jù)分析人才,最后祝各位CDA Level 3學員前程似錦,在數(shù)據(jù)科學職業(yè)道路上大展身手。
如何進階為數(shù)據(jù)科學家
CDA LEVEL 3數(shù)據(jù)科學家精英培訓已正式發(fā)布,旨在面向從業(yè)多年的、有技術基礎的大數(shù)據(jù)及數(shù)據(jù)分析專業(yè)人士、數(shù)據(jù)工程師等,為他們提供一個成為數(shù)據(jù)領袖的跳板。了解更多詳情:http://www.3lll3.cn/kecheng/53.html
完 謝謝觀看
相關閱讀