99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀硅谷資深數(shù)據(jù)科學(xué)家教你認清探索性數(shù)據(jù)分析(EDA)的價值
硅谷資深數(shù)據(jù)科學(xué)家教你認清探索性數(shù)據(jù)分析(EDA)的價值
2018-01-10
收藏

硅谷資深數(shù)據(jù)科學(xué)家教你認清探索性數(shù)據(jù)分析(EDA)的價值

從外表來看,數(shù)據(jù)科學(xué)通常被認為完全是由高等統(tǒng)計學(xué)和機器學(xué)習(xí)技術(shù)組成。然而,另一個重要組成部分往往被低估或遺忘:探索性數(shù)據(jù)分析(EDA)。EDA指對已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗假定下進行探索,通過作圖、制表、方程擬合、計算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。在深入機器學(xué)習(xí)或統(tǒng)計建模之前,EDA是一個重要的步驟,這是因為它提供了為現(xiàn)有問題開發(fā)適當模型并正確解釋其結(jié)果所需的來龍去脈。

但隨著工具的興起,只需要簡單的將數(shù)據(jù)提供給黑盒就可以輕松實現(xiàn)強大的機器學(xué)習(xí)算法,因此略過EDA這一步將變得異常誘惑。然而簡單地將數(shù)據(jù)提供給黑盒并不總是一個好主意——這是因為EDA對于所有類型的數(shù)據(jù)科學(xué)問題具有關(guān)鍵價值。

EDA對數(shù)據(jù)科學(xué)家而言是有價值的,這是因為EDA能確保他們生成的結(jié)果是有效的、能被正確解析以及適用于所需的業(yè)務(wù)環(huán)境。在確保技術(shù)交付成果之外,EDA還通過確認正在提出正確的問題而不是基于假設(shè)調(diào)查以及通過提供問題的背景來確保數(shù)據(jù)科學(xué)家的輸?shù)某鰸撛诘膬r值可以最大化。

這篇文章將高度概述EDA通常涉及的內(nèi)容,然后描述EDA對于成功建模和解釋其結(jié)果至關(guān)重要的三個主要方式。無論您是數(shù)據(jù)科學(xué)家還是數(shù)據(jù)科學(xué)的消費者,希望在閱讀本文后,您將了解為什么EDA應(yīng)該是在項目數(shù)據(jù)科學(xué)操作中的關(guān)鍵一部分。

什么是EDA?

盡管EDA已經(jīng)存在于數(shù)據(jù)分析,據(jù)說1977年約翰·圖克(John W. Tukey)寫的“探索性數(shù)據(jù)分析”一書中已經(jīng)創(chuàng)造了這個詞并發(fā)展了這個領(lǐng)域。概括來講,EDA用于理解和總結(jié)數(shù)據(jù)集的內(nèi)容,通常用于調(diào)查特定問題或更高級的建模。EDA通常很大程度上依賴于可視化數(shù)據(jù)來評估模式并利用一些定量方法來描述數(shù)據(jù)。

EDA通常涉及以下幾種方法的組合:

原始數(shù)據(jù)集中每個字段的單變量可視化和匯總統(tǒng)計(見圖1)

用于評估數(shù)據(jù)集中每個變量與感興趣目標變量之間的關(guān)系的雙變量可視化和匯總統(tǒng)計(例如,時間流失,花費)(見圖2)

多元可視化以了解數(shù)據(jù)中不同字段之間的交互作用(見圖3)。

降維以了解數(shù)據(jù)中的字段,這些字段占據(jù)了觀察值之間的最大差異,并允許處理減少的數(shù)據(jù)量。

通過將數(shù)據(jù)折疊成幾個小數(shù)據(jù)點讓觀察值聚類成有區(qū)別的小組,可以更容易地識別行為模式(參見圖4)

通過這些方法,數(shù)據(jù)科學(xué)家驗證假設(shè)并識別有助于理解問題和模型選擇的模式,為數(shù)據(jù)建立直覺以確保高質(zhì)量分析,并驗證數(shù)據(jù)是按預(yù)期的方式生成。

驗證假設(shè)和模式識別

EDA的主要目的之一是在假設(shè)任何事情之前查看數(shù)據(jù),這是很重要的。首先,數(shù)據(jù)科學(xué)家可以驗證在構(gòu)建模型時可能已經(jīng)做出的任何假設(shè),或者是使用某些算法所必需的假設(shè)。其次,對數(shù)據(jù)的自由假設(shè)探索可以幫助識別模式以及觀察到行為的潛在原因,這可能有助于回答遇到的問題或告知建模的選擇。

通常有兩種類型的假設(shè)可能影響分析的有效性:技術(shù)和商業(yè)。正確使用特定的分析模型和算法依賴于具體的技術(shù)假設(shè)是否正確,例如變量之間沒有共線性、數(shù)據(jù)中的方差與數(shù)據(jù)值無關(guān)以及數(shù)據(jù)是否以某種方式丟失或損壞。在EDA中,評估各種技術(shù)假設(shè)以幫助選擇對手頭數(shù)據(jù)和任務(wù)而言的最佳模型。如果沒有這樣的評估,可以使用一個模型來違反那些假設(shè)使得該模型不再適用于有關(guān)數(shù)據(jù),并可能導(dǎo)致對組織有負面影響的不良預(yù)測和不正確的結(jié)論。

第二種假設(shè),商業(yè)假設(shè)有點更難以捉摸。通過對模型的了解,數(shù)據(jù)科學(xué)家知道每種類型的假設(shè)必須對其使用有效并可以系統(tǒng)地檢查它們。另一方面,商業(yè)假設(shè)可以完全無法識別并深深地糾纏于問題及其框架。有一次,我們正在與一位正在試圖了解用戶與他們的應(yīng)用程序如何進行互動以及發(fā)生什么交互信號可能會流失的用戶的客戶進行合作,他們深深地嵌入在假設(shè)出現(xiàn)問題的框架中,他們的假設(shè)是用戶群是由有經(jīng)驗的廚師組成,并希望通過復(fù)雜的食譜提高他們的烹飪水平。事實上,用戶群主要由無經(jīng)驗的用戶組成,試圖找到快速、易于準備的食物的食譜。當我們發(fā)現(xiàn)客戶假設(shè)是錯誤后,他們不得不開始理解一整套新的問題以告知之后的應(yīng)用開發(fā)。

在驗證這些技術(shù)和商業(yè)假設(shè)的同時,數(shù)據(jù)科學(xué)家將系統(tǒng)地評估每個數(shù)據(jù)字段的內(nèi)容及其與其他變量的相互作用,特別是表示企業(yè)想要了解或預(yù)測的行為的關(guān)鍵度量(例如使用生命周期、支出)。人類是自然模式識別器,通過以不同的方式對數(shù)據(jù)進行詳盡的可視化,并將這些可視化策略性地配置在一起,數(shù)據(jù)科學(xué)家可以利用其模式識別能力來識別行為的潛在原因、識別潛在的有問題或虛假的數(shù)據(jù)點以及開發(fā)可以通知其分析和模式的假設(shè)。

建立對數(shù)據(jù)的直覺

為什么EDA是更先進的建模前采取的必要步驟,還有一個較為具體的原因是數(shù)據(jù)科學(xué)家需要親自熟練掌握數(shù)據(jù),并為培養(yǎng)一種對數(shù)據(jù)是什么的直覺,這種直覺對于能夠快速識別何時出現(xiàn)問題尤為重要。比如在EDA中,繪制使用壽命與年齡曲線并進行比較,可以發(fā)現(xiàn)年輕用戶傾向于停留某個產(chǎn)品的時間更長,那么結(jié)論是當年齡下降時會增加使用周期。如果訓(xùn)練的模型顯示不同的行為,就會很快意識到應(yīng)該調(diào)查發(fā)生了什么,并確保沒有犯任何的錯誤。沒有EDA,數(shù)據(jù)突出的問題或模型的實施中的錯誤會被長時間忽視,這可能會導(dǎo)致基于錯誤信息做出決策。

驗證數(shù)據(jù)是不是像你認為的那樣

在Tukey風(fēng)格的EDA中,分析師通常很清楚他們分析的數(shù)據(jù)是如何生成的。然而,現(xiàn)在隨著組織內(nèi)部生成大量數(shù)據(jù)集以及獲取的第三方數(shù)據(jù),分析師通常遠離數(shù)據(jù)生成的過程。如果數(shù)據(jù)不是你認為的那樣,那么你的結(jié)果可能會受到不良影響,更糟的是誤解后采取的行動。

這個例子會展示數(shù)據(jù)生成的方式可能被誤解,讓我們來具體看看該例子:A公司正在嘗試預(yù)測哪些用戶將訂閱新產(chǎn)品以瞄準其產(chǎn)品定位。他們正在努力開發(fā)一個模型,但每次嘗試都會導(dǎo)致糟糕的預(yù)測結(jié)果。然后有人認為執(zhí)行廣泛的EDA,他們最初認為這是沒有必要的。但結(jié)果表明,預(yù)測的用戶是控制員工訂閱的產(chǎn)品的較大企業(yè)賬戶的一部分。這種控制意味著用戶可以以各種方式在數(shù)據(jù)中看起來完全相同,但具有不同的目標結(jié)果,這意味著個人層面的數(shù)據(jù)幾乎沒有能力告知預(yù)測。在這種情形中,EDA不僅在技術(shù)問題上暴露了所采取方法的技術(shù)問題,而且還表明出現(xiàn)的錯誤問題。如果用戶的行為受到其組織的控制,則無法對用戶進行定位。該公司需要瞄準并預(yù)測新產(chǎn)品訂閱的企業(yè)帳戶。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }