99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀數(shù)據(jù)科學(xué)家的工作性質(zhì),以及面臨的挑戰(zhàn)
數(shù)據(jù)科學(xué)家的工作性質(zhì),以及面臨的挑戰(zhàn)
2015-01-13
收藏

數(shù)據(jù)科學(xué)家的工作性質(zhì),以及面臨的挑戰(zhàn)


托馬斯.庫恩在《科學(xué)革命的結(jié)構(gòu)》中指出,范式(paradigm)是一個群體共享的信仰、價值和技術(shù)等等??茖W(xué)范式指的是科學(xué)發(fā)現(xiàn)中賴以運作的理論基礎(chǔ)和實踐的規(guī)范,是科學(xué)工作者們所遵從的普適的世界觀和行為方式。它代表了人類思維的方式和根基,也是交流科學(xué)知識時所默認的共有法則。在歷史上,人類先后經(jīng)歷了經(jīng)驗、理論和計算的三個范式?;阼F球比羽毛更快落地的觀察,亞里士多德總結(jié)說越重的物體降落越快,這就是最典型的基于經(jīng)驗的科學(xué)發(fā)現(xiàn)的范式。而在被無法阻擋的數(shù)據(jù)洪流沖擊的今天,人們發(fā)現(xiàn)傳統(tǒng)的三種科學(xué)發(fā)現(xiàn)模式已經(jīng)不能在一些領(lǐng)域發(fā)揮有效的作用,比如分子生物學(xué),社會科學(xué)。于是,圖靈獎的獲得者Jim Gray提出了著名的第四范式(The Fourth Paradigm),也就是數(shù)據(jù)思維或者數(shù)據(jù)科學(xué)。由此,數(shù)據(jù)科學(xué)家也成為了第四范式的實際踐行者這個群體的統(tǒng)稱。在這片文章里,咱們來探討一下數(shù)據(jù)科學(xué)家跟科學(xué)的關(guān)系,他們的工作性質(zhì),以及面臨的挑戰(zhàn)等等。

數(shù)據(jù)科學(xué)家與科學(xué)

早前,在港科大計算機系讀博士的時候聽教授這樣調(diào)侃,大意是:只有那些不能嚴(yán)格被算為科學(xué)而又想擠進科學(xué)的學(xué)科,才會在命名的時候加上“科學(xué)”二字作為后綴,比如計算機科學(xué)。這么算來,數(shù)據(jù)科學(xué)家就是一群很難算得上很科學(xué)的人,到底是不是這樣呢?

在《大數(shù)據(jù)研究的科學(xué)價值》這篇文章里,李國杰院士給出了確定的結(jié)論:數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué)。盡管在現(xiàn)階段,作為客觀事物間接存在形式的“數(shù)據(jù)界”仍然依賴于各個領(lǐng)域的“物理世界”,其究竟有什么共性問題還不清楚。但是,過去的研究已經(jīng)表明,不同領(lǐng)域的數(shù)據(jù)分析方法和結(jié)果存在一定程度的普適性。比如,電網(wǎng)數(shù)據(jù)分析的算法也可應(yīng)用于供水和交通管理上。所以,數(shù)據(jù)科學(xué)目前還處在先做“白盒研究”的階段,也就是說數(shù)據(jù)科學(xué)家們至少在5-10年內(nèi),還需要先協(xié)助其他領(lǐng)域的學(xué)者解決大數(shù)據(jù)帶來的技術(shù)挑戰(zhàn)問題。等到知識積累多了,很可能在“數(shù)據(jù)界”抽象出通用性較強的“黑盒模型”和普適規(guī)律。李院士指出,數(shù)據(jù)科學(xué)的發(fā)展很可能類似與數(shù)據(jù)庫理論的建立:在經(jīng)歷了層次數(shù)據(jù)庫、網(wǎng)狀數(shù)據(jù)庫多年實踐之后,柯德發(fā)現(xiàn)了數(shù)據(jù)庫應(yīng)用的共性規(guī)律,建立了有堅實理論基礎(chǔ)的關(guān)系模型。從而有力的證明了數(shù)據(jù)庫中存在的共性理論。

在筆者十年的數(shù)據(jù)分析經(jīng)歷中,利用機器學(xué)習(xí)的各種模型,包括決策樹、隨機森林、貝葉斯網(wǎng)絡(luò)、SVM等等,處理過分類、聚類、相關(guān)性分析等數(shù)據(jù)挖掘問題。而這些問題又是來源于中醫(yī)、市場營銷、計算廣告學(xué)、社會學(xué)等截然不同的領(lǐng)域??赡茉谙喈?dāng)長的階段,我們都是要為各個領(lǐng)域的業(yè)務(wù)服務(wù),從解決目標(biāo)領(lǐng)域的問題中來積累經(jīng)驗,幫助提煉數(shù)據(jù)思維中的共性問題。

數(shù)據(jù)科學(xué)家的工作

權(quán)威雜志《哈佛商業(yè)評論》宣布,數(shù)據(jù)科學(xué)家是二十一世紀(jì)最性感的職業(yè)。所謂性感,既代表著勾動人心的誘惑,又說明大家還不明確它干的到底是什么。

在現(xiàn)階段,數(shù)據(jù)科學(xué)家的工作是很務(wù)實的。LinkedIn的首席數(shù)據(jù)科學(xué)家Manu Sharma在TiE Summit上接受采訪時說,數(shù)據(jù)科學(xué)家的工作包括,采集數(shù)據(jù),整理數(shù)據(jù),建立正確的模型,測試模型,還要有一定的編程能力。通過這一系列工作,數(shù)據(jù)科學(xué)家開發(fā)出的數(shù)據(jù)應(yīng)用不僅僅幫助開發(fā)創(chuàng)新的數(shù)據(jù)產(chǎn)品,從內(nèi)部數(shù)據(jù)發(fā)現(xiàn)趨勢和機會,更重要的是能推動LinkedIn的業(yè)務(wù)增長?;仡欁约涸跀?shù)據(jù)分析領(lǐng)域所做的種種工作,筆者總結(jié)了數(shù)據(jù)科學(xué)家主要的工作為幾個方面:

1. 數(shù)據(jù)的處理平臺的搭建:包括公司的基礎(chǔ)數(shù)據(jù)平臺以及各個具體業(yè)務(wù)線的指標(biāo)數(shù)據(jù)和日志數(shù)據(jù)平臺。此步的設(shè)計和技術(shù)選型嚴(yán)重依賴于后兩步的分析需求。

2. 歷史數(shù)據(jù)的分析挖掘:包括跟各種產(chǎn)品線相關(guān)的業(yè)務(wù)分析,用戶畫像,用戶行為分析,用戶留存分析等等。類似的分析可以以圖標(biāo)或其他可視化的方式展現(xiàn),目的是讓業(yè)務(wù)決策者對于現(xiàn)狀有清晰、系統(tǒng)、完整的認識,從而輔助其做出下一步的動作(action)。

3. 數(shù)據(jù)驅(qū)動的預(yù)測性分析:比如建立推薦模型并且利用模型對于未來的情況進行預(yù)測。在計算廣告里面,點擊率預(yù)估(CTR)模型就是能被用來給特定的人和場景推薦合適的廣告。這一部分的工作是大數(shù)據(jù)挖掘下最有意義的工作,也是和產(chǎn)品線聯(lián)系最緊密的部分。

不管數(shù)據(jù)科學(xué)家現(xiàn)在的工作范疇到底是如何界定,最近幾年這個崗位的需求數(shù)量快速攀升。如今,所有規(guī)模的企業(yè)都在探索從大數(shù)據(jù)中挖掘出有價值的信息和可以轉(zhuǎn)化成行動的洞察力。數(shù)據(jù)科學(xué)家具備從大數(shù)據(jù)掘金的能力,能為各行業(yè)的數(shù)據(jù)包括醫(yī)療數(shù)據(jù)、移動設(shè)備數(shù)據(jù)、社交媒體流數(shù)據(jù)等進行預(yù)測,帶來巨大的商業(yè)價值。在未來5年數(shù)據(jù)科學(xué)家這一領(lǐng)域人才將出現(xiàn)供不應(yīng)求的局面。McKinsey報告指出去年大數(shù)據(jù)強有力的增長。McKinsey同時預(yù)測在未來6年,僅在美國本土就可能面臨缺乏14萬至19萬具備深入分析數(shù)據(jù)能力人才的情況,同時具備通過分析大數(shù)據(jù)并為企業(yè)做出有效決策的數(shù)據(jù)的管理人員和分析師也有150萬人的缺口。

數(shù)據(jù)科學(xué)家的挑戰(zhàn)

Kaggle是一個供數(shù)據(jù)科學(xué)家大顯身手的眾包平臺,在這個平臺上,數(shù)據(jù)科學(xué)家們可以看到真實的預(yù)測性分析需求和業(yè)務(wù)數(shù)據(jù),選擇感興趣的作分析,并且能看到自己的分析效果的實時排名。Kaggle總裁兼首席科學(xué)家Jeremy Howard認為一個偉大的數(shù)據(jù)科學(xué)家應(yīng)具備創(chuàng)新、堅韌、好奇、深厚技術(shù)這四項素質(zhì)。具備數(shù)據(jù)收集、數(shù)據(jù)改寫、可視化、機器學(xué)習(xí)、計算機編程等技術(shù)的數(shù)據(jù)科學(xué)家使數(shù)據(jù)驅(qū)動決策并主導(dǎo)產(chǎn)品。他們更喜歡用數(shù)據(jù)說話。

我們看到,為了進行大數(shù)據(jù)的分析,我們首先面臨知識范疇的挑戰(zhàn):數(shù)據(jù)科學(xué)家需要有數(shù)據(jù)庫系統(tǒng)及數(shù)據(jù)管理的知識來應(yīng)對大量數(shù)據(jù)的導(dǎo)入和存儲;同時必須掌握機器學(xué)習(xí)中的算法和模型處理預(yù)測性的需求;在整個過程中,統(tǒng)計學(xué)的概念和人工智能的理論都是指導(dǎo)我們選擇正確、合適的分析方法和對分析結(jié)果進行評估的重要依據(jù)。所以,Bitly首席科學(xué)家HilaryMason認為數(shù)據(jù)科學(xué)家是融合數(shù)學(xué)、算法,并可從大數(shù)據(jù)中尋求問題答案的人。

相對于知識而言,理念上的突破對于數(shù)據(jù)科學(xué)家顯得更為重要。很多數(shù)據(jù)科學(xué)家都具有深厚的統(tǒng)計學(xué)背景,而統(tǒng)計學(xué)的目標(biāo)是從各種類型的數(shù)據(jù)中提取有價值的信息,給人以后見之明,但不強調(diào)對事物的洞察力(insight),不強調(diào)深度的知識。所以,如何從固有的統(tǒng)計思維突破到數(shù)據(jù)的思維,就是一大挑戰(zhàn)。舉例來說,在大數(shù)據(jù)分析領(lǐng)域,我們更多關(guān)心事物的相關(guān)性或者關(guān)聯(lián)性。與傳統(tǒng)的邏輯推理研究注重條件和結(jié)果之間的因果關(guān)系不同,相關(guān)分析是為了找出數(shù)據(jù)集里隱藏的相互關(guān)系網(wǎng),一般用支持度、可信度和興趣度來衡量。大數(shù)據(jù)分析的巨大驅(qū)動是商業(yè)盈利。就像在著名的啤酒尿布的例子中,可以這種相關(guān)性來采取措施增加企業(yè)利潤,而不用去深究背后的內(nèi)在規(guī)律和機制。

除此之外,交流合作的能力也是數(shù)據(jù)科學(xué)家普遍需要解決的自身問題。這兒的交流不僅僅指的是數(shù)據(jù)科學(xué)家內(nèi)部的知識分享,技能學(xué)習(xí),更重要的是向業(yè)務(wù)人員、運營同事、領(lǐng)域?qū)<业奶撔恼埥毯蛯W(xué)習(xí)。唯此,我們才能更清楚業(yè)務(wù)的需求,了解現(xiàn)有數(shù)據(jù)的特性和不足,再此基礎(chǔ)上開發(fā)出針對性的數(shù)據(jù)產(chǎn)品。所以,分析人員不僅僅要醉心于技術(shù),更要走進業(yè)務(wù)去采風(fēng),一方面普及數(shù)據(jù)挖掘的知識和功能,一方面收集需求。

結(jié)語

圖靈獎獲得者Jim Gray在總結(jié)了科學(xué)研究在人類歷史上所先后經(jīng)歷的實驗、理論和計算三個范式之后,提出了基于數(shù)據(jù)而思維的第四范式(The Fourth Paradigm)。在數(shù)據(jù)的洪流無法阻擋的今天,傳統(tǒng)的科學(xué)模式確實不能在一些領(lǐng)域發(fā)揮有效的作用。而實際的業(yè)務(wù)場景中,經(jīng)驗+感覺的方式也必將會被數(shù)字+事實的決策所取代。所以,數(shù)據(jù)科學(xué)家們,讓我們行動起來,為實現(xiàn)基于數(shù)據(jù)的探索(data exploration)和數(shù)據(jù)驅(qū)動的業(yè)務(wù)(data-drivenbusiness)努力吧。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }