
通過數(shù)據(jù)解釋過去
數(shù)據(jù)的作用主要體現(xiàn)在兩方面:解釋過去和預(yù)測未來。本篇文章介紹如何通過數(shù)據(jù)解釋過去發(fā)生的事情。包括過去發(fā)生了什么事情?這些事情有什么樣的規(guī)律?驅(qū)動因素是什么?是否有明顯的改進或提升?等等。在開始之前我們先來介紹下數(shù)據(jù)的獲取來源以及數(shù)據(jù)的特點和分類。
數(shù)據(jù)來源及分類
我們以網(wǎng)站的數(shù)據(jù)為例,網(wǎng)站的數(shù)據(jù)來自于服務(wù)確日志和網(wǎng)站分析工具。下面是來自網(wǎng)站分析工具Google Analytics的一條日志信息。在這條日志中包含了一些用戶及網(wǎng)站的信息。Google通過對這些信息的處理產(chǎn)生數(shù)據(jù),并最終生成我們所看到的網(wǎng)站數(shù)據(jù)報告。
我們將日志進行拆分展現(xiàn),以便更加清晰的看到日志中所包含的具體信息??梢钥吹?,每一條信息都是以一對參數(shù)和值的形式進行記錄的。例如,參數(shù)t表示這條日志的類型,值pageview表示這是一條PV日志。(Google Analytics中除了PV日志,還包括event日志等其他多種日志類別)說明每條這樣的日志都表示一次頁面瀏覽。又如參數(shù)dl表示用戶當(dāng)前瀏覽的頁面地址,值表示頁面的具體URL。
通過觀察日志中的信息可以發(fā)現(xiàn),日志中所包含的信息分為兩大類,也就是參數(shù)后面的值類型。一類是類別變量,這在Google Aanalytics中參數(shù)值類型為text或boolean,例如客戶ID,地理位置和屏幕分辨率等。另一類是數(shù)值變量,這在Google Analytics中參數(shù)值類別為integer或currency,例如事件價值,商品數(shù)量,交易收入等。詳細(xì)信息請參考《Measurement Protocol 參數(shù)參考》
類別型變量
數(shù)值型變量
在了解了Google Analytics日志中信息的分類后,我們開始分布對每個類別信息的分析方法進行說明。包括每一個類別信息的分析方法和它們所適合的圖表展現(xiàn)形式。首先分布介紹類別型變量和數(shù)值型變量的分析方法。
單因素分析
這里再啰嗦兩句,很多時候我們面對數(shù)據(jù)無法獲得有用的結(jié)果或洞察,原因不是因為缺少數(shù)據(jù),而是因為數(shù)據(jù)太多。這里我們將信息進行拆分,每次只針對一類信息進行介紹,發(fā)現(xiàn)其中的規(guī)律及驅(qū)動因素。避免迷失在大量無用的數(shù)據(jù)中。
前面我們說過,Google Analytics日志收集到的信息分為兩類,類別變量和數(shù)值變量。下面我們分別來看下這兩類信息的分析方法。
類別變量
類別變量指日志中以文本或布爾值的形式記錄的信息。這類信息本身不是數(shù)據(jù),不能直接進行運算。需要進行處理后才能轉(zhuǎn)化為我們常見的數(shù)據(jù)形式。例如下面的瀏覽器信息。每個用戶都會使用不同品類的瀏覽器。當(dāng)用戶訪問網(wǎng)站時我們以文本形式記錄下了這些瀏覽器的品牌信息。這類信息就屬于類別變量。下面是一組瀏覽器的品牌信息列表。
對于瀏覽器品牌這樣的類別變量,我們會通過計算生成頻率和占比數(shù)據(jù)。用來分析不同瀏覽器品牌的流行及重要程度。下面是經(jīng)計算獲得的不同瀏覽器品牌出現(xiàn)的次數(shù)以及在所有瀏覽器品牌中的占比情況??梢园l(fā)現(xiàn),Chrome在所有瀏覽器中出現(xiàn)次數(shù)最多,為30次。占比在所有瀏覽器中超過50%。說明Chrome在樣本數(shù)據(jù)中是較為流行的瀏覽器品牌。
柱狀圖,條形圖和餅圖或環(huán)形圖是對類別變量頻次和占比數(shù)據(jù)最好的展現(xiàn)形式,下面我們分別使用的條形圖展示了不同瀏覽器品牌出現(xiàn)的頻率,使用環(huán)形圖展示了不同瀏覽器品牌的占比情況。
數(shù)值變量
數(shù)值變量是指日志中以數(shù)值形式記錄的信息。這些信息可以直接作為數(shù)據(jù),或者通過相互間的運算生成新的數(shù)據(jù)。例如下面的瀏覽深度是通過到訪網(wǎng)站次數(shù)和瀏覽頁面總次數(shù)計算獲得的。
對于數(shù)值變量,我們通常使用描述統(tǒng)計來觀察這組數(shù)據(jù)的集中程度和離散程度。用來描述集中程度的指標(biāo)有平均數(shù),中位數(shù)和眾數(shù)。描述離散程度的有方差和標(biāo)準(zhǔn)差。通過描述統(tǒng)計提供的一系列指標(biāo),我們可以發(fā)現(xiàn)并描述數(shù)值的規(guī)律。對于瀏覽深度數(shù)據(jù),通過描述統(tǒng)計可以發(fā)現(xiàn),瀏覽深度集中在1.5個頁面左右。標(biāo)準(zhǔn)差為0.3,表示整體數(shù)據(jù)離散程度不高。描述統(tǒng)計可以在Excel中數(shù)據(jù)菜單下的數(shù)據(jù)分析功能中找到。
除了描述統(tǒng)計外,第二個要分析的是數(shù)值的分布。其實前面的平均數(shù),標(biāo)準(zhǔn)差,峰度和偏度幾個指標(biāo)已經(jīng)大體描繪出了變量分布的形態(tài),但下面的直方圖更加直觀的展示了數(shù)據(jù)分布。從直方圖中可以看到瀏覽深度數(shù)據(jù)符合正態(tài)分布,概率最高的是1.5次。換句話說,瀏覽深度數(shù)據(jù)集中在1.5頁左右,并且較為平穩(wěn),變化不大。瀏覽較多和較少頁面的都不多。最少的頁面瀏覽深度為1.12頁。最多的頁面瀏覽深度為2.29頁。
雙變量分析
在前面的單因素分析中,我們分別介紹了類別變量和數(shù)值變量的分析方法,下面我們介紹雙變量的分析方法。雙變量分析簡單來說就是單因素的組合。我們把雙變量分為三類,分別為類別變量&類別變量,數(shù)值變量&數(shù)值變量和類別變量&數(shù)值變量。分析兩個變量間的關(guān)聯(lián)和差異。
類別變量&類別變量
第一個雙變量是類別變量&類別變量。下面是一組客戶來源和是否成交情況的列表。記錄了每個客戶的來源以及最終是否成交的情況。其中客戶來源分為線上和線下兩個來源,是否成交中已成交的記錄為”是”,未成交的記錄為”否”。對這組數(shù)據(jù)我們使用卡方檢驗來分析線上與線下來源在成交率上是否有顯著差異。
卡方檢驗的方法我們之前有單獨的文章進行介紹,感興趣的朋友可以查看詳細(xì)的計算過程。這里我們粗略說明下計算過程和結(jié)果。首先,生成頻率表計算出不同來源的成交與未成交數(shù)量。并由此計算出線上和線下來源的成交率數(shù)據(jù)。
第二步,根據(jù)前面頻率表中的數(shù)據(jù),按照卡方檢驗的方法計算出線上和線下來源成交與未成交的期望值數(shù)據(jù)。以下是經(jīng)過計算獲得的期望值數(shù)據(jù)。
最后,通過使用頻率表和期望值的數(shù)據(jù)進行計算,線上和線下的成交率存在顯著差異。具體數(shù)據(jù)請參考下表。
數(shù)值變量&數(shù)值變量
第二個雙變量是數(shù)值變量&數(shù)值變量,下面是一組廣告消費和點擊量的數(shù)據(jù)。記錄了在廣告平臺上的消費情況和獲得的點擊量數(shù)據(jù)。對于這組數(shù)據(jù)我們通過關(guān)聯(lián)分析來分析消費和點擊量之間的關(guān)聯(lián)。
相關(guān)分析的方法有很多種,我們之前單獨有文章介紹過《5種常用的相關(guān)分析方法》。這里使用相關(guān)分析來分析消費和點擊量數(shù)據(jù)間的關(guān)聯(lián)。通過Excel數(shù)據(jù)菜單中的數(shù)據(jù)分析功能獲得消費和點擊量的相關(guān)性數(shù)據(jù)為0.95,說明消費和點擊量高度正相關(guān)。
對于兩組數(shù)值變量,最好的展現(xiàn)形式是使用散點圖。下面通過散點圖描述了點擊量與消費的關(guān)系。隨著消費的增長,點擊量也隨之增長。在Excel的散點圖中,選擇添加趨勢線可以自動生成回歸方程和判定系數(shù)R方。點擊量有91%的變化可以被解釋。
類別變量&數(shù)值變量
第三個雙變量是類別變量&數(shù)值變量,下面是一組每日訪問量數(shù)據(jù),分別對應(yīng)了每一天網(wǎng)站獲得的訪問量數(shù)據(jù)。其中日期是類別變量,訪問量是數(shù)值變量。我們在前15天和后15天分別使用了不同的推廣策略。下面將分別使用Z建議和T檢驗分析訪問量數(shù)據(jù)前后變化差異的顯著性。
首先將30天的訪問量數(shù)據(jù)按投放策略分為前后兩組,每組各15天,然后計算出每組數(shù)據(jù)的均值和方差。具體數(shù)據(jù)如下表所示。
然后在Excel的數(shù)據(jù)菜單中選擇數(shù)據(jù)分析,使用其中的Z檢驗進行差異顯著性檢驗。經(jīng)檢驗,在95%的置信區(qū)間下兩組訪問量數(shù)據(jù)間不存在顯著性差異。
T檢驗和Z檢驗類似,我們在Excel對數(shù)據(jù)菜單中選擇數(shù)據(jù)分析,使用T檢驗對兩組訪問量數(shù)據(jù)進行差異顯著性檢驗,經(jīng)檢驗在95%的置信區(qū)間下兩組訪問量數(shù)據(jù)不存在顯著差異。
最后,總結(jié)一下整篇文章的內(nèi)容。我們將信息分為兩類,類別變量和數(shù)值變量,類別變量是以文本或布爾值記錄的信息,數(shù)值變量是以數(shù)字記錄的信息。在單獨對這兩類信息進行分析時,類別變量通常使用頻率和占比的方法,數(shù)值變量通常使用藐視統(tǒng)計和數(shù)據(jù)分布的方法進行分析。在雙變量分析中,主要分析兩個變量間的關(guān)聯(lián)和差異的顯著性。雙變量分析分為三大類,分別為類別變量&類別變量,數(shù)值變量&數(shù)值變量和類別變量&數(shù)值變量。第一種類別變量&類別變量通過卡方檢驗分析數(shù)據(jù)間差異的顯著性。數(shù)值變量&數(shù)值變量通過線性相關(guān)分析發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系。類別變量&數(shù)值變量通過Z檢驗和T檢驗分析數(shù)據(jù)間差異的顯著性。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03