
如何成為一名數(shù)據(jù)分析師:數(shù)據(jù)的初步認知
對所有從事數(shù)據(jù)相關(guān)工作的人而言,都有一個老生常談的問題: 數(shù)據(jù)認知 !畢竟在真正開始分析、BI 報表開發(fā)或者建模前,對數(shù)據(jù)進行一定的審查和認知是必須的。今天,就在此和大家一同探討下數(shù)據(jù)的初步認知。在本文的講解中,會將數(shù)據(jù)的初步認知劃分為三大步驟: 數(shù)據(jù)質(zhì)量檢查、數(shù)據(jù)類型認知、指標值統(tǒng)計 。
1) 關(guān)注不同數(shù)據(jù)源在統(tǒng)計質(zhì)量上的差異
不同的數(shù)據(jù)來源,因統(tǒng)計、管控、可共享程度等原因在數(shù)據(jù)粒度和數(shù)據(jù)質(zhì)量的保障上都有天壤之別。根據(jù)數(shù)據(jù)來源的渠道主要可將它劃分為:內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),下面逐個介紹它們之間的特點和差異。
1. 內(nèi)部數(shù)據(jù)源
業(yè)務數(shù)據(jù):主要指后端研發(fā)主動存儲的業(yè)務數(shù)據(jù),一般是對公司運營非常核心的數(shù)據(jù),如訂單數(shù)據(jù)、用戶信息等。這類數(shù)據(jù)的準確性一般是最高的,因為它往往關(guān)系到公司產(chǎn)品能否正常運轉(zhuǎn),統(tǒng)計的正確性也就至關(guān)重要;
埋點數(shù)據(jù):通過埋點技術(shù)采集的用戶訪問數(shù)據(jù),不論是自建埋點還是采用第三方埋點工具,因為埋點實施、統(tǒng)計上傳機制等,都會造成埋點數(shù)據(jù)的準確性遠不如業(yè)務數(shù)據(jù);
數(shù)據(jù)倉庫的數(shù)據(jù):數(shù)據(jù)倉庫數(shù)據(jù)它是由生產(chǎn)庫數(shù)據(jù)經(jīng)過一輪或者多輪次的數(shù)據(jù)轉(zhuǎn)換,中間可能發(fā)生的異常情況比生產(chǎn)庫的數(shù)據(jù)更多。諸如:無人維護、轉(zhuǎn)換邏輯與理解不一致等。
對于業(yè)務數(shù)據(jù)、埋點數(shù)據(jù)、數(shù)據(jù)倉庫數(shù)據(jù)三種類型的數(shù)據(jù)源我們檢查的側(cè)重點有所不同:
業(yè)務數(shù)據(jù):業(yè)務數(shù)據(jù)的復雜度主要在于字段含義、表之間關(guān)聯(lián)關(guān)系以及字段與業(yè)務的實際對應關(guān)系,主要檢查的也是這三點;
埋點數(shù)據(jù):埋點數(shù)據(jù)主要需要檢查埋點是否與你所期望的業(yè)務事件匹配,包括埋點采集的是頁面訪問還是按鈕點擊、埋點采集時機等;
數(shù)據(jù)倉庫數(shù)據(jù):主要了解其中業(yè)務指標統(tǒng)計邏輯、計算轉(zhuǎn)換邏輯、腳本更新機制等。
2. 外部數(shù)據(jù)源
用戶調(diào)研數(shù)據(jù):通過市場調(diào)研得到用戶反饋數(shù)據(jù),存在的風險主要在于市場調(diào)研人員的敷衍執(zhí)行自行捏造數(shù)據(jù)以及被調(diào)研對象自身對自身判斷的錯誤;
行業(yè)發(fā)展數(shù)據(jù):通過百度指數(shù)、微信指數(shù)、阿里指數(shù)或者其它行業(yè)觀察機構(gòu)統(tǒng)計的數(shù)據(jù)來觀察行業(yè)發(fā)展情況的數(shù)據(jù);
合作方數(shù)據(jù):合作方提供的數(shù)據(jù),不同公司之間在指標定義和統(tǒng)計規(guī)范上都可能有明顯差異,需要重點關(guān)注。此外,兩家公司之間的用戶匹配也是一大難點,需要被重點關(guān)注。
外部數(shù)據(jù)源的數(shù)據(jù)粒度一般較粗糙,數(shù)據(jù)質(zhì)量上也比較難以保證,需要做更多的觀察和驗證。我們可實施的檢查措施也相對較少,只能在使用保持更高的警惕性,慎之又慎才能更多地規(guī)避錯誤。
2) 關(guān)注取數(shù)過程,檢查取數(shù)代碼
我們通過各種方法獲取數(shù)據(jù),SQL 查詢是數(shù)據(jù)類工作人員最常見的取數(shù)方式。SQL 語句的出錯將導致得到的數(shù)據(jù)集出錯,以下是進行 SQL 檢查時需要被重點關(guān)注的點:
關(guān)注 join 處理的邏輯關(guān)系,包括采用的 SQL 連接方式 inner、left 還是 outer、兩張表之間數(shù)據(jù)對應關(guān)系是 1:1、1:n 還是n:m 等;
關(guān)注 SQL 細節(jié),包括是否采用 distinct 去重、采用 case 語句劃分類別時的分類區(qū)間邊界、group by 進行數(shù)據(jù)聚合的指標粒度是否正確;
多版本代碼檢查時關(guān)注選擇條件,對于 SQL 復用的場景,我們要重點關(guān)注數(shù)據(jù)選擇條件的更新替換是否完全;
聚合處理時,最好結(jié)合 if 條件排除極端值、異常值。
3) 關(guān)注處理數(shù)據(jù)集的空值和異常值
在對數(shù)據(jù)集是否正確的檢查中,最容易發(fā)現(xiàn)需要被處理的情況就是 空值和異常值 。空值出現(xiàn)在數(shù)據(jù)集中往往一眼便能識別;異常值則需要一定經(jīng)驗性地判斷,例如:數(shù)值特別夸張、文本特別長、不匹配的數(shù)據(jù)類型。在后續(xù)步驟的數(shù)據(jù)認知中,對指標進行統(tǒng)計匯總、分布觀察等也能幫助識別異常值。
1. 空值處理
空值,如果在平時的匯總統(tǒng)計中可忽略則忽略,如果不可忽略則可采用以下方法來處理:
替換:使用平均值、眾數(shù)進行替換或者使用最接近的數(shù)據(jù)替換它,需要仔細對比尋找該行數(shù)據(jù)的其它值是否相近;
推斷:運用模型結(jié)合使用非空變量進行推斷、預測計算得到這個空值,如:時間序列、回歸模型等;
刪除:實在無法處理的空值,而且你已經(jīng)確定它會影響到后續(xù)的計算、分析,那么你可以考慮將該行記錄刪除。如果不確定是否會影響,可考慮暫不處理。
2. 異常值處理
初步觀察尋找異常值:
在 Excel 中可以通過篩選功能或去除重復值對數(shù)據(jù)列進行觀察;
在 SQL 中可以通過 distinct 進行去重觀察;
在 Python 中,可以通過 pandas.drop_duplicates() 等方式進行去重觀察。
垃圾數(shù)據(jù)或者異常值能采取的處理手段較少,當數(shù)據(jù)記錄占比較大,我們首先應去尋找造成數(shù)據(jù)異常的原因,嘗試從源頭解決它;當數(shù)據(jù)記錄占比不多時,我們可以采取直接刪除的方式。
二、數(shù)據(jù)類型認知
數(shù)據(jù)類型的認知主要可從類型、數(shù)據(jù)單位、數(shù)據(jù)量綱三個角度去觀察、去認知數(shù)據(jù)。這一過程后,我們一般對數(shù)據(jù)整體有一個比較粗線條的認識,知道各列的統(tǒng)計單位、各列的數(shù)據(jù)類型、量綱或者說數(shù)量級等。
類型:同一列數(shù)據(jù)的數(shù)據(jù)類型必須保持一致!如:時間序列不得與數(shù)值型數(shù)據(jù)混合、數(shù)值型數(shù)據(jù)不得與文本數(shù)據(jù)混合;
數(shù)據(jù)單位:同一列數(shù)據(jù)的單位必須保持一致!否則量級將完全不一致,不具備任何可比性。如:成交金額,不能既有以分為單位也有以元為單位的混合;
數(shù)據(jù)量綱:不同數(shù)據(jù)列的量綱有時會有明顯差異,主要指整數(shù)型數(shù)據(jù)和百分比數(shù)據(jù)。如:活躍用戶數(shù)與平臺用戶活躍率。當需要進行作圖對比觀察時候,我們需要對量綱進行處理,這涉及到標準化/歸一化,常見的歸一化方法有:
標準差標準化:
離差標準化:
對數(shù)標準化:
三、指標值統(tǒng)計
1) 通過描述統(tǒng)計對數(shù)據(jù)集中趨勢、離散程度、分布作認知
描述統(tǒng)計指對數(shù)據(jù)進行一些描述性的統(tǒng)計,包括均值、中位數(shù)、方差等。它主要包含三個方面:
通過均值、眾數(shù)、中位數(shù)等觀察平均水平或說是集中趨勢;
通過分位數(shù)、最大最小值、數(shù)據(jù)分布圖等觀察指標的區(qū)間分布情況。
1. 平均數(shù)
常常說的是算術(shù)平均數(shù),即“N 個數(shù)字相加后除以 N“。在實際業(yè)務中,我們還會使用加權(quán)平均數(shù),即“給不同維度的指標賦予不同業(yè)務權(quán)重后再相加除以權(quán)重總和,一般權(quán)重可以設為 1”。
平均數(shù)的表示含義是:一個群體在某項數(shù)據(jù)上的一般水平或者集中趨勢。
2. 眾數(shù)
眾數(shù),即序列中出現(xiàn)最多的那個數(shù)字。
眾數(shù)真正的價值,不在于數(shù)值型數(shù)據(jù)中的使用而在于用在類別型的數(shù)據(jù)中。在數(shù)值型數(shù)字中,可能因為數(shù)字精度太細,導致數(shù)字出現(xiàn)次數(shù)都很少,幾乎沒有眾數(shù);而類別型數(shù)據(jù)中,眾數(shù)有時會比較具有代表性。比如:系統(tǒng)每 5 分鐘從天氣預報網(wǎng)站讀取一次實時天氣,以小時為單位預測未來天氣時,我們可以簡單取 12 次讀取中出現(xiàn)次數(shù)最多的記錄作為這個小時的平均天氣。
3. 中位數(shù)
顧名思義,中位數(shù)就是指排在中間位置的數(shù)字,將序列分為兩部分。
中位數(shù)的優(yōu)勢在于它能避免數(shù)據(jù)的平均水平受到異常值的影響。在數(shù)據(jù)未進行較完整的清洗時,強烈建議采用中位數(shù)代表序列的中間水平。
方差和標準差是在概率論和統(tǒng)計方差衡量隨機變量或一組數(shù)據(jù)時離散程度的度量,衡量數(shù)據(jù)序列的波動情況。
5. 四分位數(shù)
百分位即降數(shù)據(jù)升序排列后,具體數(shù)據(jù)值的序號除以數(shù)據(jù)值的總數(shù),所得出的百分比,即該數(shù)據(jù)值對應的百分位數(shù)。我們一般比較關(guān)心:25%、50%、75% 分位數(shù)。
6. 最大值、最小值
顧名思義,最大值、最小值本身沒有什么好解釋的。
四分位數(shù)組合最大值、最小值,可以讓我們初步認知數(shù)據(jù)的分布特征。
7. 數(shù)據(jù)分布
進行了簡單的描述統(tǒng)計,我們想對數(shù)據(jù)的分布進行簡單的觀察,得到一個更加直觀的感受,可以制作頻率分布圖、箱線圖來進行觀察。
2) 相關(guān)系數(shù)統(tǒng)計,對指標間的相互作用關(guān)系進行認知
當我們需要觀察兩個字段之間是否存在相互影響的關(guān)系時,我們可以簡單的使用相關(guān)系數(shù)。以下介紹三種相關(guān)系數(shù),在不通場景有不同的適用度。
1. 皮爾遜相關(guān)
用于度量兩個變量X和Y之間的相關(guān)(線性相關(guān)),其值介于-1和1之間。
當 r>0 時,表示兩變量正相關(guān),r<0 時,兩變量為負相關(guān);
當 |r|=1 時,表示兩變量為完全線性相關(guān),即為函數(shù)關(guān)系;
當 r=0 時,表示兩變量間無線性相關(guān)關(guān)系;
當 0<|r|<1 時,表示兩變量存在一定程度的線性相關(guān)。且 |r| 越接近 1,兩變量間線性關(guān)系越密切;|r| 越接近于 0,表示兩變量的線性相關(guān)越弱;
一般可按三級劃分:0.8-1.0 極強相關(guān),0.6-0.8 強相關(guān),0.4-0.6 中等程度相關(guān),0.2-0.4 弱相關(guān),0.0-0.2 極弱相關(guān)或無相關(guān)。
適用條件:
數(shù)據(jù)(近似)服從正態(tài)分布
盡可能沒有異常點
用于描述線性相關(guān)
缺點:當樣本量 n 較小時,相關(guān)系數(shù)的波動較大;
2. 斯皮爾曼等級相關(guān)
斯皮爾曼等級相關(guān)是根據(jù)等級資料研究兩個變量間相關(guān)關(guān)系的方法,是依據(jù)兩列成對等級的各對等級數(shù)之差來進行計算的。它與相關(guān)系數(shù)一樣,取值在 -1 到 +1 之間,所不同的是它是建立在等級的基礎上計算的。
適用條件:斯皮爾曼等級相關(guān)對原始變量的分布不作要求,屬于非參數(shù)統(tǒng)計方法,使用范圍更廣。
缺點:
斯皮爾曼等級相關(guān)系數(shù)和皮爾遜相關(guān)系數(shù)都與樣本的容量有關(guān),尤其是在樣本容量比較小的情況下,其變異程度較大;
需要先對數(shù)據(jù)進行等級劃分。
3. 肯德爾和諧系數(shù)
肯德爾和諧系數(shù)是計算多個等級變量相關(guān)程度的一種相關(guān)量。
前述的斯皮爾曼等級相關(guān)討論的是兩個等級變量的相關(guān)程度,用于評價時只適用于兩個評分者評價 N 個人或N件作品,或同一個人先后兩次評價 N 個人或 N 件作品,而肯德爾和諧系數(shù)則適用于數(shù)據(jù)資料是多列相關(guān)的等級資料,即可是 k 個評分者評 (N) 個對象,也可以是同一個人先后 k 次評 N 個對象。
通過求得肯德爾和諧系數(shù),可以較為客觀地選擇好的作品或好的評分者。
3) 多維交叉觀察,利用數(shù)據(jù)進行業(yè)務分析
多維交叉觀察,其實已經(jīng)是分析階段的主要工作。在初步的數(shù)據(jù)觀察中,我們不會進行過多的交叉對比,除非不可避免的要對某些維度進行觀察、驗證。
以上就是關(guān)于數(shù)據(jù)初步認知的介紹.
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03