99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀2016年數(shù)據(jù)科學(xué)家將扮演什么角色?
2016年數(shù)據(jù)科學(xué)家將扮演什么角色?
2016-07-04
收藏

2016年數(shù)據(jù)科學(xué)家將扮演什么角色?

數(shù)據(jù)科學(xué)家已被譽(yù)為2016年美國最好的工作,但是這一崗位的定義和所要求的技能卻一直在變化。技術(shù)進(jìn)步與商業(yè)需求不斷驅(qū)動(dòng)數(shù)據(jù)科學(xué)崗位的演化,其所處的行業(yè)也是日新月異。在本文中,我們將更加仔細(xì)地審視2016年數(shù)據(jù)科學(xué)家將扮演的角色。

Dave Holtz寫道,“數(shù)據(jù)科學(xué)家”常用作“一攬子頭銜”(blanket title)的統(tǒng)稱,描述一組截然不同的工作崗位。他將這個(gè)現(xiàn)象的原因,歸結(jié)為數(shù)據(jù)科學(xué)領(lǐng)域仍處在早期發(fā)展階段,對其定義不夠準(zhǔn)確。如果接受數(shù)據(jù)科學(xué)是一個(gè)“跨學(xué)科領(lǐng)域”這種大而全的說法,那么數(shù)據(jù)科學(xué)家的工作就是從不同形式的大量數(shù)據(jù)中提取知識或洞察。我們已經(jīng)處在大數(shù)據(jù)時(shí)代,這是無法改變的事實(shí)。隨著數(shù)據(jù)量與日俱增,從這些數(shù)據(jù)中提取出價(jià)值的工作只會慢慢變得更加復(fù)雜和困難。

大數(shù)據(jù)經(jīng)濟(jì)背后的邏輯,正在以無法想象或預(yù)測的方式重塑我們的生活;我們做出的每一個(gè)電子操作都將產(chǎn)生數(shù)據(jù),并留下與自己生活相關(guān)的蛛絲馬跡。作為消費(fèi)者經(jīng)濟(jì)的參與者,我們訪問任何網(wǎng)站或電子服務(wù)時(shí),所產(chǎn)生的數(shù)據(jù)都會被挖掘,而數(shù)據(jù)科學(xué)家就要通過計(jì)算機(jī)科學(xué)、數(shù)據(jù)分析和復(fù)雜的商業(yè)知識,來收集、清洗、分析我們提供的數(shù)據(jù),并據(jù)此進(jìn)行預(yù)測。下面的圖表列出了一名數(shù)據(jù)科學(xué)家所需要的技能集。我們可以發(fā)現(xiàn),與一般意義上的大數(shù)據(jù)開發(fā)者或商業(yè)分析師不同,這個(gè)崗位的職責(zé)要求掌握多種技能集。

圖1:數(shù)據(jù)科學(xué)家的技能集

是什么讓數(shù)據(jù)科學(xué)家不同于類似的數(shù)據(jù)崗位?

Rivera 和 Haverson認(rèn)為,之前的數(shù)據(jù)專業(yè)人員關(guān)注的是數(shù)據(jù)的流動(dòng)過程和解釋,而數(shù)據(jù)科學(xué)家更注重?cái)?shù)學(xué)視角 —— 聚焦于從歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)中洞察出未來的模式。如果僅從字面上理解這兩個(gè)詞,“科學(xué)”意味著通過系統(tǒng)研究獲得的知識;“數(shù)據(jù)”則是由定性化或定量化變量組成的信息集合。因此,數(shù)據(jù)科學(xué)家的字面定義應(yīng)該是:一個(gè)系統(tǒng)性地研究信息的組織與性質(zhì)的人。盡管統(tǒng)計(jì)人員和其他研究數(shù)據(jù)分析的人也扮演著重要的角色,但是Anjul Bhambari所描述的數(shù)據(jù)科學(xué)家既是分析師,又是藝術(shù)家,其角色注定是變革傳統(tǒng)數(shù)據(jù)的分析和使用方法。

數(shù)據(jù)科學(xué)家的需求不斷上升

商業(yè)社交網(wǎng)站LinkedIn的成功,很好地證明了數(shù)據(jù)科學(xué)家為商業(yè)智能所帶來的重大利好。作為一家?guī)缀跫兇庖蕾嚻?.8億名用戶相互聯(lián)系所產(chǎn)生數(shù)據(jù)的企業(yè),LinkedIn正在利用受過正規(guī)培訓(xùn)、有著強(qiáng)烈好奇心的數(shù)據(jù)科學(xué)家們不斷探索大數(shù)據(jù)的世界。LinkedIn與Facebook、Google等其他大型知識型企業(yè)都在利用數(shù)據(jù)科學(xué)家對大量的雜亂數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,確定數(shù)據(jù)的價(jià)值大小,以及變量之間的系統(tǒng)性關(guān)系。

KPMG近期對企業(yè)高管的一項(xiàng)調(diào)查顯示,99%的受訪者認(rèn)為大數(shù)據(jù)分析對于制定次年的戰(zhàn)略非常重要。預(yù)計(jì)到2020年,每天產(chǎn)生的企業(yè)數(shù)據(jù)將超過240EB,在這一時(shí)代背景下,對于掌握了從數(shù)據(jù)中提取價(jià)值洞見能力的數(shù)據(jù)科學(xué)家的需求比以往更加重要…但是,Venture Beat公司的Travis Wright在一篇文章中提到,對數(shù)據(jù)科學(xué)家的需求遠(yuǎn)遠(yuǎn)超過了供給,如果想跟上新型數(shù)據(jù)經(jīng)濟(jì)的步伐,僅美國的公司就需要雇傭14-19萬名數(shù)據(jù)科學(xué)家。

令人諷刺的是,關(guān)于數(shù)據(jù)科學(xué)家的平均收入的數(shù)據(jù)卻存在許多相互沖突的地方。不過,比較明顯的是平均收入與對數(shù)據(jù)科學(xué)家的高需求是正相關(guān)的。如果雇主要求員工能夠熟練使用數(shù)據(jù)挖掘算法、精通像R和Python這樣的語言、又具備處理大型數(shù)據(jù)庫(SQL或類似數(shù)據(jù)庫)的經(jīng)驗(yàn),還得開發(fā)Java應(yīng)用、處理NoSQL數(shù)據(jù)庫(引用自某個(gè)職位要求,上述要求只占十分之一)——此外,還要能夠?qū)⒁陨线@些清楚地傳達(dá)給非技術(shù)同事,那么平均12萬美元的薪資看上去也就不那么過分了。

數(shù)據(jù)科學(xué)家的角色

盡管數(shù)據(jù)科學(xué)家的角色與傳統(tǒng)意義上的數(shù)據(jù)分析崗位有重合之處,但是區(qū)別也尤其明顯。一名數(shù)據(jù)分析師或數(shù)據(jù)架構(gòu)師能夠從大規(guī)模數(shù)據(jù)集中提取信息。但是他們只掌握SQL查詢命令和對數(shù)據(jù)進(jìn)行切片的分析包。借助對機(jī)器學(xué)習(xí)的深刻了解和編程開發(fā)等方面的知識,數(shù)據(jù)科學(xué)家可以隨心所欲地處理數(shù)據(jù),挖掘出更深的洞見。他們擺脫了這些程序的束縛。普通的數(shù)據(jù)分析師會觀察過去發(fā)生的事情,但是數(shù)據(jù)科學(xué)家必須具備長遠(yuǎn)的眼光,展望未來。通過應(yīng)用先進(jìn)的統(tǒng)計(jì)知識和復(fù)雜的數(shù)據(jù)建模,他們必須挖掘出數(shù)據(jù)中隱藏的模式,對未來做出預(yù)測。數(shù)據(jù)科學(xué)家所需要的技能成功的數(shù)據(jù)分析需要做到能夠清洗、集成和轉(zhuǎn)變數(shù)據(jù) —— 這些都是數(shù)據(jù)科學(xué)家必須掌握的重要技能。將科學(xué)背景與計(jì)算分析技能結(jié)合在一起之后,你就能夠“勝人一籌”。下面的圖2列出了數(shù)據(jù)科學(xué)通常關(guān)注的幾個(gè)領(lǐng)域。

圖2.數(shù)據(jù)科學(xué)關(guān)注的領(lǐng)域

不過我們還是要更細(xì)致地探討一下成為數(shù)據(jù)科學(xué)家所需要的實(shí)際技能。Mark van Rijmenam是Data Floq公司的CEO,為了能夠開發(fā)出提出正確的問題并尋找正確答案的算法,他建議數(shù)據(jù)科學(xué)家掌握以下技能:統(tǒng)計(jì)技能、數(shù)學(xué)和倫理學(xué)技能,并且具備構(gòu)建預(yù)測性模型的豐富經(jīng)驗(yàn)。

來自LinkedIn的Ferris Jumah更是將所要求的技能進(jìn)行了歸類,盡管數(shù)據(jù)科學(xué)家可能需要的技能和擔(dān)任的崗位角色紛繁復(fù)雜。

數(shù)據(jù)科學(xué)家必須做到:

以數(shù)學(xué)思維看待數(shù)據(jù)。學(xué)習(xí)諸如機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)分析和統(tǒng)計(jì)學(xué)等技能十分重要。數(shù)據(jù)科學(xué)家需要從數(shù)學(xué)的角度對數(shù)據(jù)進(jìn)行解釋和分析。

使用一門常用語言,進(jìn)行數(shù)據(jù)訪問、探索和建模。掌握一門統(tǒng)計(jì)編程語言將是關(guān)鍵。R、Python或MATLAB等語言,以及類似SQL等數(shù)據(jù)庫查詢語言是最受追捧的技能。數(shù)據(jù)提取、探索和假設(shè)檢驗(yàn)是數(shù)據(jù)科學(xué)實(shí)踐的核心。

具備很強(qiáng)的計(jì)算機(jī)科學(xué)和軟件工程背景。這需要掌握包括Java、C++或算法知識和Hadoop。這些技能將用于利用數(shù)據(jù)來設(shè)計(jì)系統(tǒng)架構(gòu)。

數(shù)據(jù)科學(xué)家使用的工具

與使用標(biāo)準(zhǔn)工具的普通程序員不同,數(shù)據(jù)科學(xué)家一般會使用各種各樣的工具,而且工具時(shí)刻在更新。這是因?yàn)閿?shù)據(jù)科學(xué)領(lǐng)域正在快速發(fā)展,許多新工具還遠(yuǎn)未成熟。盡管如此,下面我們還是精選了一些數(shù)據(jù)科學(xué)家常用的工具:

數(shù)據(jù)分析

在這方面,使用的工具其實(shí)就是數(shù)據(jù)科學(xué)家用于提取和分析數(shù)據(jù)的編程語言。一般來說是Python、R和SQL。

數(shù)據(jù)倉庫

數(shù)據(jù)科學(xué)家可以選擇自己用于提取和分析數(shù)據(jù)的數(shù)據(jù)庫。處理合理大小的數(shù)據(jù)集時(shí),最流行的選擇是MySQL。進(jìn)入大數(shù)據(jù)領(lǐng)域之后,他們通常會轉(zhuǎn)向使用Hive或Redshift。

數(shù)據(jù)可視化

數(shù)據(jù)可視化方面最常提及的工具,是D3.js和Tableau。只要是你能想象出來的數(shù)據(jù)可視化方式,數(shù)據(jù)科學(xué)家都可以利用D3.js實(shí)現(xiàn)。Tableau是目前市面上最流行的數(shù)據(jù)可視化工具,支持從數(shù)百個(gè)輸入源匯集數(shù)據(jù),并輕松地將這些數(shù)據(jù)轉(zhuǎn)換成可視圖表。

機(jī)器學(xué)習(xí)

這或許是每天新增工具最多的一個(gè)領(lǐng)域了。知名度最高、使用最廣泛的工具可能是Scikit-learn,它利用Python進(jìn)行機(jī)器學(xué)習(xí)。然后當(dāng)然還有Spark MLlib,這是Apache推出的針對Spark和Hadoop機(jī)器學(xué)習(xí)庫。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }