
網(wǎng)站分析的數(shù)據(jù)來(lái)源
Avinash Kaushik在他的《Web Analytics》一書中將數(shù)據(jù)的來(lái)源分為4部分:點(diǎn)擊流數(shù)據(jù)(Clickstream)、運(yùn)營(yíng)數(shù)據(jù)(Outcomes)、調(diào)研數(shù)據(jù)(Research/Qualitative)和競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù)(Competitive Data)。點(diǎn)擊流數(shù)據(jù)主要指的是用戶瀏覽網(wǎng)站時(shí)產(chǎn)生的數(shù)據(jù);Outcomes我更習(xí)慣叫做運(yùn)營(yíng)數(shù)據(jù),主要指用戶在網(wǎng)站中應(yīng)用服務(wù)或者購(gòu)買產(chǎn)品時(shí)記錄下來(lái)的數(shù)據(jù);調(diào)研數(shù)據(jù)主要是網(wǎng)站通過(guò)某些用戶調(diào)研手段(線上問(wèn)卷或者線下調(diào)研)獲取的一些定性數(shù)據(jù);Competitive Data直譯為競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù)可能不太合適,因?yàn)楦鶕?jù)Avinash Kaushik的闡述,更像是跟網(wǎng)站有業(yè)務(wù)關(guān)系或競(jìng)爭(zhēng)關(guān)系或存在某種利益影響的一切網(wǎng)站的可能的數(shù)據(jù)來(lái)源。
在獲取上述幾類數(shù)據(jù)的同時(shí),也許我們還可以從其他方面獲取一些更為豐富的數(shù)據(jù)。下面是我對(duì)網(wǎng)站分析數(shù)據(jù)獲取途徑的整理:
網(wǎng)站內(nèi)部數(shù)據(jù)
網(wǎng)站內(nèi)部數(shù)據(jù)是網(wǎng)站最容易獲取到的數(shù)據(jù),它們往往就存放在網(wǎng)站的文件系統(tǒng)或數(shù)據(jù)庫(kù)中,也是與網(wǎng)站本身最為密切相關(guān)的數(shù)據(jù),是網(wǎng)站分析最常見(jiàn)的數(shù)據(jù)來(lái)源,我們需要好好利用這部分?jǐn)?shù)據(jù)。
服務(wù)器日志
隨著網(wǎng)站應(yīng)用的不斷擴(kuò)張,網(wǎng)站日志不再局限于點(diǎn)擊流的日志數(shù)據(jù),如果你的網(wǎng)站提供上傳下載、視頻音樂(lè)、網(wǎng)頁(yè)游戲等服務(wù),那么很明顯,你的網(wǎng)站服務(wù)器產(chǎn)生的絕不僅有用戶瀏覽點(diǎn)擊網(wǎng)頁(yè)的日志,也不只有標(biāo)準(zhǔn)的apache日志格式日志,更多的W3C、JSON或自定義格式的輸出日志也給網(wǎng)站分析提供了新的方向。
網(wǎng)站分析不再局限于網(wǎng)頁(yè)瀏覽的PV、UV,轉(zhuǎn)化流失等,基于事件(Events)的分析將會(huì)越來(lái)越普遍,將會(huì)更多的關(guān)注用戶在接受網(wǎng)站服務(wù)的整個(gè)流程的情況:上傳下載是否完成,速度如何;用戶是否觀看的整部視頻,視頻的加載情況;及用戶在玩網(wǎng)頁(yè)游戲時(shí)的操作和體驗(yàn)分析等。Google Analytics已經(jīng)支持了基于事件的分析——Event Tracking,通過(guò)JS的動(dòng)作響應(yīng)獲取數(shù)據(jù),但是還存在著一定的局限性。
網(wǎng)站分析工具
當(dāng)然,通過(guò)網(wǎng)站分析工具獲得數(shù)據(jù)是一個(gè)最為簡(jiǎn)便快捷的方式,從原先的基于網(wǎng)站日志的AWStats、webalizer,到目前非常流行的基于JS Tags的Google Analytics、Omniture的SiteCatalyst,及JS和網(wǎng)站日志通吃的WebTrends。通過(guò)網(wǎng)站分析工具獲得的數(shù)據(jù)一般都已經(jīng)經(jīng)過(guò)特殊計(jì)算,較為規(guī)范,如PV、UV、Exit Rate、Bounce Rate等,再配上一些趨勢(shì)圖或比例圖,通過(guò)細(xì)分、排序等方法讓結(jié)果更為直觀。
但通過(guò)網(wǎng)站分析工具得到數(shù)據(jù)也不遠(yuǎn)只這些,上面的這些數(shù)據(jù)也一樣可以通過(guò)統(tǒng)計(jì)網(wǎng)站日志獲得,但網(wǎng)站分析工具的優(yōu)勢(shì)在于其能通過(guò)一些嵌入頁(yè)面的JS代碼獲得一些有趣的結(jié)果,如Google Analytics上的Overlay或者也叫Click Density——網(wǎng)站點(diǎn)擊密度分布,及一些其它的網(wǎng)站分析工具提供的點(diǎn)擊熱圖,甚至鼠標(biāo)移動(dòng)軌跡圖。這些分析結(jié)果往往對(duì)網(wǎng)站優(yōu)化和用戶行為分析更為有效。
數(shù)據(jù)庫(kù)數(shù)據(jù)
對(duì)于一般的網(wǎng)站來(lái)說(shuō),存放于數(shù)據(jù)庫(kù)中的數(shù)據(jù)可以大致分為3個(gè)部分:
網(wǎng)站用戶信息,一般提供注冊(cè)服務(wù)的網(wǎng)站都會(huì)將用戶的注冊(cè)賬號(hào)和填寫的基本信息存放在數(shù)據(jù)庫(kù)里面;
網(wǎng)站應(yīng)用或產(chǎn)品數(shù)據(jù),就像電子商務(wù)的商品詳細(xì)信息或者博客的文章信息,如商品信息會(huì)包含商品名稱、庫(kù)存數(shù)量、價(jià)格、特征描述等;
用戶在應(yīng)用服務(wù)或購(gòu)買產(chǎn)品時(shí)產(chǎn)生的數(shù)據(jù),最簡(jiǎn)單的例子就是博客上用戶的評(píng)論和電子商務(wù)網(wǎng)站的用戶購(gòu)買數(shù)據(jù),購(gòu)買時(shí)間、購(gòu)買的用戶、購(gòu)買的商品、購(gòu)買數(shù)量、支付的金額等。
當(dāng)然,這一部分?jǐn)?shù)據(jù)的具體形式會(huì)根據(jù)網(wǎng)站的運(yùn)營(yíng)模式存在較大差異,一些業(yè)務(wù)范圍很廣,提供多樣服務(wù)的網(wǎng)站其數(shù)據(jù)庫(kù)中數(shù)據(jù)的組合會(huì)相當(dāng)復(fù)雜。
其它
其它一切網(wǎng)站運(yùn)營(yíng)過(guò)程中產(chǎn)生的數(shù)據(jù),有可能是用戶創(chuàng)造,也有可能是網(wǎng)站內(nèi)部創(chuàng)造,其中有一大部分我們可以稱其為“線下數(shù)據(jù)(Offline Data)”。如用戶的反饋和抱怨,可能通過(guò)網(wǎng)站的交流論壇,也有可能通過(guò)網(wǎng)站時(shí)公布的客服電話、即時(shí)通訊工具等,如果你相信“客戶中心論”,那么顯然對(duì)于這些數(shù)據(jù)的分析必不可少;另外一部分來(lái)源就是網(wǎng)站開(kāi)展的線下活動(dòng),促銷或推廣,衡量它們開(kāi)展的效果或投入產(chǎn)出,以便于之后更好地開(kāi)展類似的線下推廣。
外部數(shù)據(jù)
網(wǎng)站分析除了可以從網(wǎng)站內(nèi)部獲取數(shù)據(jù)以外,通過(guò)互聯(lián)網(wǎng)這個(gè)開(kāi)放的環(huán)境,從網(wǎng)站外部捕獲一些數(shù)據(jù)可以讓分析的結(jié)果更加全面。
互聯(lián)網(wǎng)環(huán)境數(shù)據(jù)
即使你的網(wǎng)站只是一個(gè)很小的網(wǎng)站,但如果想讓你的網(wǎng)站變得更好,或者不至于落后于互聯(lián)網(wǎng)的前進(jìn)腳步,那么建議你關(guān)注一下互聯(lián)網(wǎng)的發(fā)展趨勢(shì)。可以上Alexa查一下互聯(lián)網(wǎng)中頂級(jí)網(wǎng)站的訪問(wèn)量趨勢(shì);看看comScore發(fā)布的數(shù)據(jù)或者199IT–中國(guó)互聯(lián)網(wǎng)數(shù)據(jù)中心網(wǎng)站上的各種數(shù)據(jù)分析和研究資料;如果經(jīng)營(yíng)電子商務(wù)網(wǎng)站,淘寶數(shù)據(jù)中心也許會(huì)讓你感興趣。
競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù)
時(shí)刻關(guān)注競(jìng)爭(zhēng)對(duì)手的情況可以讓你的網(wǎng)站不至于在競(jìng)爭(zhēng)中落伍。除了在Alexa及一些其他的網(wǎng)站數(shù)據(jù)查詢平臺(tái)以外,直接從競(jìng)爭(zhēng)對(duì)手網(wǎng)站上獲取數(shù)據(jù)也是另外一條有效的途徑,一般網(wǎng)站會(huì)出于某些原因(信息透明、數(shù)據(jù)展示等)將自己的部分統(tǒng)計(jì)信息展現(xiàn)在網(wǎng)站上,看看那些數(shù)據(jù)對(duì)于掌握你的競(jìng)爭(zhēng)對(duì)手的情況是否有幫助。
合作伙伴數(shù)據(jù)
如果你有合作的網(wǎng)站或者你經(jīng)營(yíng)的是一個(gè)電子商務(wù)網(wǎng)站,也許你會(huì)有相關(guān)的產(chǎn)品提供商、物流供應(yīng)商等合作伙伴,看看他們能為你提供些什么數(shù)據(jù)。
用戶數(shù)據(jù)
嘗試跟蹤用戶的腳步去看看他們是怎么評(píng)價(jià)你的網(wǎng)站的。如果你的網(wǎng)站已經(jīng)小有名氣,那么嘗試在搜索引擎看看用戶是怎么評(píng)價(jià)你的網(wǎng)站,或者通過(guò)Twitter、新浪微博等看看用戶正在上面發(fā)表什么關(guān)于你的網(wǎng)站的言論。
當(dāng)然通過(guò)用戶調(diào)研獲取數(shù)據(jù)是另外一個(gè)不錯(cuò)的途徑,通過(guò)網(wǎng)站上的調(diào)查問(wèn)卷或者線下的用戶回訪,電話、IM調(diào)查,可用性實(shí)驗(yàn)測(cè)試等方式可以獲取一些用戶對(duì)網(wǎng)站的直觀感受和真實(shí)評(píng)價(jià),這些數(shù)據(jù)往往是十分有價(jià)值的,也是普通的網(wǎng)站分析工具所獲取不到的。
在分析網(wǎng)站的外部數(shù)據(jù)的時(shí)候,需要注意的是不要過(guò)于相信數(shù)據(jù),外部數(shù)據(jù)相比內(nèi)部數(shù)據(jù)不確定性會(huì)比較高。網(wǎng)站內(nèi)部數(shù)據(jù)即使也不準(zhǔn)確,但我們至少能知道數(shù)據(jù)的誤差大概會(huì)有多大,是什么原因造成了數(shù)據(jù)存在誤差。而外部數(shù)據(jù)一般都是有其他網(wǎng)站或機(jī)構(gòu)公布的,每個(gè)公司,無(wú)論是數(shù)據(jù)平臺(tái)、咨詢公司還是合作伙伴都可能會(huì)為了某些利益而使其公布的數(shù)據(jù)更加可信或更具一定的偏向性,所以我們?cè)诜治鐾獠繑?shù)據(jù)是需要更加嚴(yán)格的驗(yàn)證和深入的分析。而對(duì)于用戶調(diào)研中獲取的數(shù)據(jù),我們一般會(huì)通過(guò)統(tǒng)計(jì)學(xué)的方法檢驗(yàn)數(shù)據(jù)是否可以被接受,或者是否滿足一定的置信區(qū)間,這是進(jìn)行數(shù)據(jù)分析前必須完成的一步。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11