99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀如何成為一名數(shù)據(jù)分析師:數(shù)據(jù)的初步認知
如何成為一名數(shù)據(jù)分析師:數(shù)據(jù)的初步認知
2017-12-12
收藏

如何成為一名數(shù)據(jù)分析師:數(shù)據(jù)的初步認知

對所有從事數(shù)據(jù)相關(guān)工作的人而言,都有一個老生常談的問題: 數(shù)據(jù)認知 !畢竟在真正開始分析、BI 報表開發(fā)或者建模前,對數(shù)據(jù)進行一定的審查和認知是必須的。今天,就在此和大家一同探討下數(shù)據(jù)的初步認知。在本文的講解中,會將數(shù)據(jù)的初步認知劃分為三大步驟: 數(shù)據(jù)質(zhì)量檢查、數(shù)據(jù)類型認知、指標值統(tǒng)計 。

一、數(shù)據(jù)質(zhì)量檢查

1) 關(guān)注不同數(shù)據(jù)源在統(tǒng)計質(zhì)量上的差異

不同的數(shù)據(jù)來源,因統(tǒng)計、管控、可共享程度等原因在數(shù)據(jù)粒度和數(shù)據(jù)質(zhì)量的保障上都有天壤之別。根據(jù)數(shù)據(jù)來源的渠道主要可將它劃分為:內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),下面逐個介紹它們之間的特點和差異。

1. 內(nèi)部數(shù)據(jù)源

業(yè)務數(shù)據(jù):主要指后端研發(fā)主動存儲的業(yè)務數(shù)據(jù),一般是對公司運營非常核心的數(shù)據(jù),如訂單數(shù)據(jù)、用戶信息等。這類數(shù)據(jù)的準確性一般是最高的,因為它往往關(guān)系到公司產(chǎn)品能否正常運轉(zhuǎn),統(tǒng)計的正確性也就至關(guān)重要;

埋點數(shù)據(jù):通過埋點技術(shù)采集的用戶訪問數(shù)據(jù),不論是自建埋點還是采用第三方埋點工具,因為埋點實施、統(tǒng)計上傳機制等,都會造成埋點數(shù)據(jù)的準確性遠不如業(yè)務數(shù)據(jù);

數(shù)據(jù)倉庫的數(shù)據(jù):數(shù)據(jù)倉庫數(shù)據(jù)它是由生產(chǎn)庫數(shù)據(jù)經(jīng)過一輪或者多輪次的數(shù)據(jù)轉(zhuǎn)換,中間可能發(fā)生的異常情況比生產(chǎn)庫的數(shù)據(jù)更多。諸如:無人維護、轉(zhuǎn)換邏輯與理解不一致等。

對于業(yè)務數(shù)據(jù)、埋點數(shù)據(jù)、數(shù)據(jù)倉庫數(shù)據(jù)三種類型的數(shù)據(jù)源我們檢查的側(cè)重點有所不同:

業(yè)務數(shù)據(jù):業(yè)務數(shù)據(jù)的復雜度主要在于字段含義、表之間關(guān)聯(lián)關(guān)系以及字段與業(yè)務的實際對應關(guān)系,主要檢查的也是這三點;

埋點數(shù)據(jù):埋點數(shù)據(jù)主要需要檢查埋點是否與你所期望的業(yè)務事件匹配,包括埋點采集的是頁面訪問還是按鈕點擊、埋點采集時機等;

數(shù)據(jù)倉庫數(shù)據(jù):主要了解其中業(yè)務指標統(tǒng)計邏輯、計算轉(zhuǎn)換邏輯、腳本更新機制等。

2. 外部數(shù)據(jù)源

用戶調(diào)研數(shù)據(jù):通過市場調(diào)研得到用戶反饋數(shù)據(jù),存在的風險主要在于市場調(diào)研人員的敷衍執(zhí)行自行捏造數(shù)據(jù)以及被調(diào)研對象自身對自身判斷的錯誤;

行業(yè)發(fā)展數(shù)據(jù):通過百度指數(shù)、微信指數(shù)、阿里指數(shù)或者其它行業(yè)觀察機構(gòu)統(tǒng)計的數(shù)據(jù)來觀察行業(yè)發(fā)展情況的數(shù)據(jù);

合作方數(shù)據(jù):合作方提供的數(shù)據(jù),不同公司之間在指標定義和統(tǒng)計規(guī)范上都可能有明顯差異,需要重點關(guān)注。此外,兩家公司之間的用戶匹配也是一大難點,需要被重點關(guān)注。

外部數(shù)據(jù)源的數(shù)據(jù)粒度一般較粗糙,數(shù)據(jù)質(zhì)量上也比較難以保證,需要做更多的觀察和驗證。我們可實施的檢查措施也相對較少,只能在使用保持更高的警惕性,慎之又慎才能更多地規(guī)避錯誤。

2) 關(guān)注取數(shù)過程,檢查取數(shù)代碼

我們通過各種方法獲取數(shù)據(jù),SQL 查詢是數(shù)據(jù)類工作人員最常見的取數(shù)方式。SQL 語句的出錯將導致得到的數(shù)據(jù)集出錯,以下是進行 SQL 檢查時需要被重點關(guān)注的點:

關(guān)注 join 處理的邏輯關(guān)系,包括采用的 SQL 連接方式 inner、left 還是 outer、兩張表之間數(shù)據(jù)對應關(guān)系是 1:1、1:n 還是n:m 等;

關(guān)注 SQL 細節(jié),包括是否采用 distinct 去重、采用 case 語句劃分類別時的分類區(qū)間邊界、group by 進行數(shù)據(jù)聚合的指標粒度是否正確;

多版本代碼檢查時關(guān)注選擇條件,對于 SQL 復用的場景,我們要重點關(guān)注數(shù)據(jù)選擇條件的更新替換是否完全;

聚合處理時,最好結(jié)合 if 條件排除極端值、異常值。

3) 關(guān)注處理數(shù)據(jù)集的空值和異常值

在對數(shù)據(jù)集是否正確的檢查中,最容易發(fā)現(xiàn)需要被處理的情況就是 空值和異常值 。空值出現(xiàn)在數(shù)據(jù)集中往往一眼便能識別;異常值則需要一定經(jīng)驗性地判斷,例如:數(shù)值特別夸張、文本特別長、不匹配的數(shù)據(jù)類型。在后續(xù)步驟的數(shù)據(jù)認知中,對指標進行統(tǒng)計匯總、分布觀察等也能幫助識別異常值

1. 空值處理

空值,如果在平時的匯總統(tǒng)計中可忽略則忽略,如果不可忽略則可采用以下方法來處理:

替換:使用平均值、眾數(shù)進行替換或者使用最接近的數(shù)據(jù)替換它,需要仔細對比尋找該行數(shù)據(jù)的其它值是否相近;

推斷:運用模型結(jié)合使用非空變量進行推斷、預測計算得到這個空值,如:時間序列、回歸模型等;

刪除:實在無法處理的空值,而且你已經(jīng)確定它會影響到后續(xù)的計算、分析,那么你可以考慮將該行記錄刪除。如果不確定是否會影響,可考慮暫不處理。

2. 異常值處理

初步觀察尋找異常值

在 Excel 中可以通過篩選功能或去除重復值對數(shù)據(jù)列進行觀察;

SQL 中可以通過 distinct 進行去重觀察;

在 Python 中,可以通過 pandas.drop_duplicates() 等方式進行去重觀察。

垃圾數(shù)據(jù)或者異常值能采取的處理手段較少,當數(shù)據(jù)記錄占比較大,我們首先應去尋找造成數(shù)據(jù)異常的原因,嘗試從源頭解決它;當數(shù)據(jù)記錄占比不多時,我們可以采取直接刪除的方式。

二、數(shù)據(jù)類型認知

數(shù)據(jù)類型的認知主要可從類型、數(shù)據(jù)單位、數(shù)據(jù)量綱三個角度去觀察、去認知數(shù)據(jù)。這一過程后,我們一般對數(shù)據(jù)整體有一個比較粗線條的認識,知道各列的統(tǒng)計單位、各列的數(shù)據(jù)類型、量綱或者說數(shù)量級等。

類型:同一列數(shù)據(jù)的數(shù)據(jù)類型必須保持一致!如:時間序列不得與數(shù)值型數(shù)據(jù)混合、數(shù)值型數(shù)據(jù)不得與文本數(shù)據(jù)混合;

數(shù)據(jù)單位:同一列數(shù)據(jù)的單位必須保持一致!否則量級將完全不一致,不具備任何可比性。如:成交金額,不能既有以分為單位也有以元為單位的混合;

數(shù)據(jù)量綱:不同數(shù)據(jù)列的量綱有時會有明顯差異,主要指整數(shù)型數(shù)據(jù)和百分比數(shù)據(jù)。如:活躍用戶數(shù)與平臺用戶活躍率。當需要進行作圖對比觀察時候,我們需要對量綱進行處理,這涉及到標準化/歸一化,常見的歸一化方法有:

標準差標準化:

離差標準化:

對數(shù)標準化:

三、指標值統(tǒng)計

1) 通過描述統(tǒng)計對數(shù)據(jù)集中趨勢、離散程度、分布作認知

描述統(tǒng)計指對數(shù)據(jù)進行一些描述性的統(tǒng)計,包括均值、中位數(shù)、方差等。它主要包含三個方面:

通過均值、眾數(shù)、中位數(shù)等觀察平均水平或說是集中趨勢;

通過方差標準差等指標觀察離散程度、波動大小;

通過分位數(shù)、最大最小值、數(shù)據(jù)分布圖等觀察指標的區(qū)間分布情況。

1. 平均數(shù)

常常說的是算術(shù)平均數(shù),即“N 個數(shù)字相加后除以 N“。在實際業(yè)務中,我們還會使用加權(quán)平均數(shù),即“給不同維度的指標賦予不同業(yè)務權(quán)重后再相加除以權(quán)重總和,一般權(quán)重可以設為 1”。

平均數(shù)的表示含義是:一個群體在某項數(shù)據(jù)上的一般水平或者集中趨勢。

2. 眾數(shù)

眾數(shù),即序列中出現(xiàn)最多的那個數(shù)字。

眾數(shù)真正的價值,不在于數(shù)值型數(shù)據(jù)中的使用而在于用在類別型的數(shù)據(jù)中。在數(shù)值型數(shù)字中,可能因為數(shù)字精度太細,導致數(shù)字出現(xiàn)次數(shù)都很少,幾乎沒有眾數(shù);而類別型數(shù)據(jù)中,眾數(shù)有時會比較具有代表性。比如:系統(tǒng)每 5 分鐘從天氣預報網(wǎng)站讀取一次實時天氣,以小時為單位預測未來天氣時,我們可以簡單取 12 次讀取中出現(xiàn)次數(shù)最多的記錄作為這個小時的平均天氣。

3. 中位數(shù)

顧名思義,中位數(shù)就是指排在中間位置的數(shù)字,將序列分為兩部分。

中位數(shù)的優(yōu)勢在于它能避免數(shù)據(jù)的平均水平受到異常值的影響。在數(shù)據(jù)未進行較完整的清洗時,強烈建議采用中位數(shù)代表序列的中間水平。

4. 方差標準差

方差標準差是在概率論和統(tǒng)計方差衡量隨機變量或一組數(shù)據(jù)時離散程度的度量,衡量數(shù)據(jù)序列的波動情況。

以上為方差計算公式,開方的結(jié)果即為標準差。

5. 四分位數(shù)

百分位即降數(shù)據(jù)升序排列后,具體數(shù)據(jù)值的序號除以數(shù)據(jù)值的總數(shù),所得出的百分比,即該數(shù)據(jù)值對應的百分位數(shù)。我們一般比較關(guān)心:25%、50%、75% 分位數(shù)。

6. 最大值、最小值

顧名思義,最大值、最小值本身沒有什么好解釋的。

四分位數(shù)組合最大值、最小值,可以讓我們初步認知數(shù)據(jù)的分布特征。

7. 數(shù)據(jù)分布

進行了簡單的描述統(tǒng)計,我們想對數(shù)據(jù)的分布進行簡單的觀察,得到一個更加直觀的感受,可以制作頻率分布圖、箱線圖來進行觀察。

2) 相關(guān)系數(shù)統(tǒng)計,對指標間的相互作用關(guān)系進行認知

當我們需要觀察兩個字段之間是否存在相互影響的關(guān)系時,我們可以簡單的使用相關(guān)系數(shù)。以下介紹三種相關(guān)系數(shù),在不通場景有不同的適用度。

1. 皮爾遜相關(guān)

用于度量兩個變量X和Y之間的相關(guān)(線性相關(guān)),其值介于-1和1之間。

當 r>0 時,表示兩變量正相關(guān),r<0 時,兩變量為負相關(guān);

當 |r|=1 時,表示兩變量為完全線性相關(guān),即為函數(shù)關(guān)系;

當 r=0 時,表示兩變量間無線性相關(guān)關(guān)系;

當 0<|r|<1 時,表示兩變量存在一定程度的線性相關(guān)。且 |r| 越接近 1,兩變量間線性關(guān)系越密切;|r| 越接近于 0,表示兩變量的線性相關(guān)越弱;

一般可按三級劃分:0.8-1.0 極強相關(guān),0.6-0.8 強相關(guān),0.4-0.6 中等程度相關(guān),0.2-0.4 弱相關(guān),0.0-0.2 極弱相關(guān)或無相關(guān)。

適用條件:

數(shù)據(jù)(近似)服從正態(tài)分布

盡可能沒有異常點

用于描述線性相關(guān)

缺點:當樣本量 n 較小時,相關(guān)系數(shù)的波動較大;

2. 斯皮爾曼等級相關(guān)

斯皮爾曼等級相關(guān)是根據(jù)等級資料研究兩個變量間相關(guān)關(guān)系的方法,是依據(jù)兩列成對等級的各對等級數(shù)之差來進行計算的。它與相關(guān)系數(shù)一樣,取值在 -1 到 +1 之間,所不同的是它是建立在等級的基礎上計算的。

適用條件:斯皮爾曼等級相關(guān)對原始變量的分布不作要求,屬于非參數(shù)統(tǒng)計方法,使用范圍更廣。

缺點:

斯皮爾曼等級相關(guān)系數(shù)和皮爾遜相關(guān)系數(shù)都與樣本的容量有關(guān),尤其是在樣本容量比較小的情況下,其變異程度較大;

需要先對數(shù)據(jù)進行等級劃分。

3. 肯德爾和諧系數(shù)

肯德爾和諧系數(shù)是計算多個等級變量相關(guān)程度的一種相關(guān)量。

前述的斯皮爾曼等級相關(guān)討論的是兩個等級變量的相關(guān)程度,用于評價時只適用于兩個評分者評價 N 個人或N件作品,或同一個人先后兩次評價 N 個人或 N 件作品,而肯德爾和諧系數(shù)則適用于數(shù)據(jù)資料是多列相關(guān)的等級資料,即可是 k 個評分者評 (N) 個對象,也可以是同一個人先后 k 次評 N 個對象。

通過求得肯德爾和諧系數(shù),可以較為客觀地選擇好的作品或好的評分者。

3) 多維交叉觀察,利用數(shù)據(jù)進行業(yè)務分析

多維交叉觀察,其實已經(jīng)是分析階段的主要工作。在初步的數(shù)據(jù)觀察中,我們不會進行過多的交叉對比,除非不可避免的要對某些維度進行觀察、驗證。

以上就是關(guān)于數(shù)據(jù)初步認知的介紹.

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }