
網(wǎng)站用戶行為數(shù)據(jù)收集和分析方法
隨著In ternet 的不斷發(fā)展, 各種各樣的網(wǎng)站如雨后春筍般成倍增長, 各個商業(yè)網(wǎng)站之間的競爭越來越激烈, 隨之而來的是, 網(wǎng)站的建設(shè)不可避免的出現(xiàn)了很多問題。從最近一次國外對15 個大型網(wǎng)站進行統(tǒng)計分析表明, 用戶在尋找自己所需要的信息時, 只有42% 的概率可以找到, 而在大部分的時間里用戶都無法找到自己所需要的信息, 這使得用戶在瀏覽網(wǎng)站時經(jīng)常遭遇挫折, 嚴(yán)重影響了用戶對網(wǎng)站的興趣和信任。正如 J acob N ielsen 所指出的“如果你想通過網(wǎng)站找到某些信息, 那么在一般情況下很難找到, 就算能夠找到, 也要經(jīng)過一番周折。從以往的經(jīng)驗可以得知, 除非項目管理團隊在整個網(wǎng)站設(shè)計過程中就特別考慮網(wǎng)站的可用性, 否則結(jié)果往往令人失望”。針對網(wǎng)站的特點, 目前國內(nèi)外提出了很多依靠計算機輔助來自動收集和分析用戶行為數(shù)據(jù)的方法, 本文以下部分將重點介紹基于服務(wù)器日志收集和分析用戶行為數(shù)據(jù)的方法和從客戶端收集和分析用戶行為數(shù)據(jù)的方法, 并對根據(jù)不同的方法所開發(fā)出的一些工具進行了介紹。
1 基于服務(wù)器日志收集和分析用戶行為數(shù)據(jù)的方法
目前, 對于網(wǎng)站來說, 自動獲得用戶行為數(shù)據(jù)最流行的方法之一是基于服務(wù)器日志的方法(Server log) ,就是通過從w eb 服務(wù)器所產(chǎn)生的日志文件來獲取有用的數(shù)據(jù)。服務(wù)器日志文件就是用來記錄w eb 服務(wù)器的活動, 提供了詳細的客戶和服務(wù)器的交互活動日志, 其中包括客戶的請求和服務(wù)器的響應(yīng)。通過日志文件收集到的數(shù)據(jù)形式依賴于具體的w eb 服務(wù)器類型, 不同的w eb 服務(wù)器產(chǎn)生的信息是不一樣的。
1. 1 基于服務(wù)器日志方法的優(yōu)點通過日志文件可以獲得很有價值的網(wǎng)站使用情況的數(shù)據(jù)。 ① 日志文件是由w eb 服務(wù)器自動生成, 所以花費比較小。 ② 與人為建造的可用性實驗室環(huán)境相比, 通過日志文件獲得的數(shù)據(jù)更能夠反映真實環(huán)境下用戶的真實情況。 ③ 與只對幾個用戶在幾小時內(nèi)進行的測試所獲得的數(shù)據(jù)相比, 通過日志文件獲得的是大量的用戶在相當(dāng)長一段時間內(nèi)的行為數(shù)據(jù), 這對分析用戶的行為是十分有利的, 可以利用數(shù)據(jù)挖掘等技術(shù)對用戶進行分析。 ④ 開發(fā)基于日志文件的數(shù)據(jù)分析工具相對比較容易, 花費也不是太大。
1. 2 基于服務(wù)器日志方法的缺點基于日志的方法對于網(wǎng)站的可用性研究來說還存在著很多不足之處, 由于日志文件就是被設(shè)計用來產(chǎn)生站點級的性能統(tǒng)計數(shù)據(jù), 因此不可避免的是, 日志文件所提供的數(shù)據(jù)與用來分析網(wǎng)站可用性所需的大量數(shù)據(jù)相比會有所不足, 對于研究潛在的可用性問題只能提供少量的數(shù)據(jù)甚至還可能提供一些誤導(dǎo)性的數(shù)據(jù)。這是因為一旦w eb 服務(wù)器把用戶請求的頁面發(fā)送出去之后, 如果用戶不發(fā)出請求, 則頁面和用戶之間發(fā)生了什么w eb 服務(wù)器并不記錄。下面是一些從日志文件中獲取的數(shù)據(jù)不足或有誤導(dǎo)性數(shù)據(jù)的例子。
① 誰正在訪問網(wǎng)站。如果想知道誰正在訪問網(wǎng)站, 要求日志文件必須包含一個個人ID 或者登錄到服務(wù)器的登錄標(biāo)示, 但是目前的網(wǎng)站一般不需要用戶登錄, 大多情況下由日志文件提供的客戶端信息是客戶的IP 地址, 而這些IP 地址很多情況下是由In ternet 提供商提供的動態(tài)IP。并且有時用通過代理服務(wù)器來訪問In ternet (例如, 學(xué)校的校園網(wǎng)) , 這樣就不能正確得知是哪個用戶在訪問網(wǎng)站。
② 用戶訪問網(wǎng)站的路徑。如果日志文件能夠記下用戶所瀏覽的每個頁面, 那么自然可以清楚的記錄用戶的訪問路徑, 然而, 當(dāng)把用戶的瀏覽器設(shè)置為可使用緩存(cache) 時(通常是缺省設(shè)置) , 用戶所瀏覽的一些頁面就不能被w eb 服務(wù)器所記錄, 例如, 使用Back 按鈕瀏覽的頁面就不能被記錄。而且, 如果同一頁面中提供了多個選擇可鏈接到同一個頁面的話, 用戶到底是使用哪一個鏈接過去, 這一信息從log 文件中也難以獲得, 但是這一信息對改善網(wǎng)站的可用性也是很重要的。如果是通過圖片鏈接,w eb 服務(wù)器可能會記下用戶單擊的坐標(biāo)位置, 從而可以獲得用戶的確切信息, 如果沒有使用這種技術(shù)的話, 就很難捕獲這一信息。而且, 當(dāng)用戶通過鍵入U RL 地址, 或通過書簽來訪問頁面時,w eb 服務(wù)器也不能記錄這一信息。
③ 用戶在每頁的停留時間。日志文件記錄的是數(shù)據(jù)開始傳輸?shù)臅r間, 而不是傳輸完成的時間。而且也不清楚, 在頁面下載的過程中, 用戶到底在什么時間開始瀏覽頁面。除非在頁面顯示的時候, 用戶因有事離開了, 不然可以通過比較用戶的當(dāng)前請求和下一次請求之間的時間來粗略計算用戶在此頁面停留的大概時間 (通過后一次的請求時間減去第一次的請求時間得到, 但對于從cache 中獲取的頁面來說就出現(xiàn)很大偏差)。
④ 用戶離開站點的位置。日志文件記錄了在用戶會話期間所發(fā)送的最后一頁, 但是這可能并不是用戶所看到的最后一頁。其中有兩個原因: 第一, 用戶所看到的最后一頁可能是從cache 中得到。第二, 用戶可能已經(jīng)有事離開了很長時間, 而這段時間已經(jīng)超過了 w eb 服務(wù)器所定義的用戶會話時間。
⑤ 用戶是否成功完成自己想要做的事情。這是最根本的可用性問題, 只是通過單獨的日志文件統(tǒng)計是很難回答的, 如果是“用戶是否完成了交易? 用戶是否成功地下載了文件?”之類的問題, 答案還是很容易推斷。然而, 如果要回答“用戶是否找到了所需要的信息?”類似這樣的問題, 僅通過日志文件就很難回答了。
1. 3 基于服務(wù)器日志文件方法獲取數(shù)據(jù)的輔助工具 Click T races A nalyzer 是分析網(wǎng)站用戶行為的一套工具, 為進一步了解用戶的瀏覽行為提供了強大的功能, 它把大量的復(fù)雜數(shù)據(jù)用非常簡單的方法表達出來, 使可用性人員在分析用戶行為時一目了然。
2 客戶端收集和分析用戶行為數(shù)據(jù)的方法
由于通過日志文件獲得的信息會出現(xiàn)失真的情況, 而且有很多重要的數(shù)據(jù)只通過日志文件很難獲得, 這些信息對研究網(wǎng)站的可用性問題卻很重要, 因此為了進一步獲得更多的有價值的可用性數(shù)據(jù), 發(fā)現(xiàn)更多的網(wǎng)站可用性問題, 逐漸產(chǎn)生了很多技術(shù)用于從客戶端(page- side) 直接獲得用戶與網(wǎng)站的交互情況。由于是直接從客戶端獲得數(shù)據(jù), 所以, 能夠獲得大量的難以從服務(wù)器端獲得的用戶行為數(shù)據(jù), 這對進一步分析用戶瀏覽網(wǎng)站行為, 改善潛在的網(wǎng)站可用性問題提供了更大的幫助。
2. 1 客戶端收集用戶行為數(shù)據(jù)的優(yōu)點
① 由于用戶是在真實的環(huán)境下所進行的操作(如在家里或辦公室) , 減少了人為地干擾因素, 因此獲得的數(shù)據(jù)更加真實。
② 與基于日志文件的方法相比, 從客戶端收集到的數(shù)據(jù)更加精確, 能夠克服如上描述的很多問題。
●不受動態(tài)分配IP 地址或代理服務(wù)器的影響: 通過使用客戶端跟蹤技術(shù)(如由w eb 服務(wù)器對每個訪問站點的客戶機自動分配ID 并將其記錄在客戶端的 Cook ies 中, 每次用戶瀏覽網(wǎng)站,w eb 服務(wù)器可通過訪問客戶端的Cook ies 就知道此客戶機是否訪問過本網(wǎng)站)。
●正確的用戶瀏覽路徑: 由于是在客戶端記錄用戶行為, 因此客戶端代碼可自動跟蹤用戶的瀏覽路徑, 不管是否通過本機緩存或通過代理服務(wù)器。例如, 用戶的實際瀏覽路徑是從AB, 點擊Back 鈕,AC, 但是從log 文件中得到的路徑是AB` C。頁面瀏覽時間: 舉例如圖1 (頁面是由cgi 腳本產(chǎn)生的動態(tài)文件)。這是使用Click st ream 收集工具與基于服務(wù)器的日志文件產(chǎn)生的數(shù)據(jù)比較, 日志文件丟失了很多重要數(shù)據(jù)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03