
用 PHP 使 Web 數(shù)據(jù)分析進(jìn)入更高境界
設(shè)計(jì)您的數(shù)據(jù)分析,做比簡單原始計(jì)數(shù)更多的事 對 Web 數(shù)據(jù)進(jìn)行有效和多層次的分析是許多面向 Web 企業(yè)能夠生存的關(guān)鍵因素,數(shù)據(jù)分析檢驗(yàn)的設(shè)計(jì)(和決策)通常是系統(tǒng)管理員和內(nèi)部應(yīng)用程序設(shè)計(jì)人員的工作,而他們可能除了能夠把原始計(jì)數(shù)制成表格之外,對統(tǒng)計(jì)學(xué)沒有更多的了解。在本文中,Paul Meagher 向 Web 開發(fā)人員傳授了將推論統(tǒng)計(jì)學(xué)應(yīng)用到 Web 數(shù)據(jù)流所需的技能和概念。 動(dòng)態(tài)網(wǎng)站不斷生成大量的數(shù)據(jù) ― 訪問日志、民意測驗(yàn)和調(diào)查結(jié)果、客戶概要信息、訂單及其它,Web 開發(fā)人員的工作不僅是創(chuàng)建生成這些數(shù)據(jù)的應(yīng)用程序,而且還要開發(fā)使這些數(shù)據(jù)流有意義的應(yīng)用程序和方法。 通常,對于由管理站點(diǎn)所產(chǎn)生的不斷增長的數(shù)據(jù)分析需求,Web 開發(fā)人員的應(yīng)對是不夠的。
一般而言,除了報(bào)告各種描述性統(tǒng)計(jì)信息之外,Web 開發(fā)人員并沒有其它更好的方法來反映數(shù)據(jù)流特征。有許多推論統(tǒng)計(jì)步驟(根據(jù)樣本數(shù)據(jù)估計(jì)總體參數(shù)的方法)可以被充分利用,但目前卻沒有應(yīng)用它們。 例如,Web 訪問統(tǒng)計(jì)信息(按當(dāng)前所編輯的)只不過是以各種方式進(jìn)行分組的頻率計(jì)數(shù)。以原始計(jì)數(shù)和百分比表示民意測驗(yàn)和調(diào)查結(jié)果的情況比比皆是。 開發(fā)人員用比較淺顯的方法處理數(shù)據(jù)流的統(tǒng)計(jì)分析或許已經(jīng)足夠了,我們不應(yīng)期望太多。畢竟,有從事較復(fù)雜的數(shù)據(jù)流分析的專業(yè)人士;他們是統(tǒng)計(jì)師和受過訓(xùn)練的分析師。當(dāng)組織需要的不僅僅是描述性統(tǒng)計(jì)時(shí),可以請他們加入。
但另一種應(yīng)對是承認(rèn)對推論統(tǒng)計(jì)學(xué)日益加深的了解正成為 Web 開發(fā)人員工作描述的一部分。動(dòng)態(tài)站點(diǎn)正在生成越來越多的數(shù)據(jù),事實(shí)表明,設(shè)法將這些數(shù)據(jù)變成有用的知識正是 Web 開發(fā)人員和系統(tǒng)管理員的責(zé)任。 我提倡采取后一種應(yīng)對;本文旨在幫助 Web 開發(fā)人員和系統(tǒng)管理員學(xué)習(xí)(或重溫,如果知識已遺忘的話)將推論統(tǒng)計(jì)學(xué)應(yīng)用到 Web 數(shù)據(jù)流所需的設(shè)計(jì)和分析技能。 使 Web 數(shù)據(jù)與實(shí)驗(yàn)設(shè)計(jì)相關(guān) 將推論統(tǒng)計(jì)學(xué)應(yīng)用到 Web 數(shù)據(jù)流需要的不僅僅是學(xué)習(xí)作為各種統(tǒng)計(jì)檢驗(yàn)基礎(chǔ)的數(shù)學(xué)知識。
將數(shù)據(jù)收集過程與實(shí)驗(yàn)設(shè)計(jì)中的關(guān)鍵差別關(guān)聯(lián)起來的能力同樣很重要:測量尺度是什么?樣本的代表性如何?總體是什么?正在檢驗(yàn)的假設(shè)是什么? 要將推論統(tǒng)計(jì)學(xué)應(yīng)用到 Web 數(shù)據(jù)流,需要先把結(jié)果看作是由實(shí)驗(yàn)設(shè)計(jì)生成的;然后選擇適用于該實(shí)驗(yàn)設(shè)計(jì)的分析過程。即使您可能認(rèn)為將 Web 民意測驗(yàn)和訪問日志數(shù)據(jù)看作實(shí)驗(yàn)的結(jié)果是多此一舉,但這樣做確實(shí)很重要。為什么? 1.這將幫助您選擇適當(dāng)?shù)慕y(tǒng)計(jì)檢驗(yàn)方法。 2.這將幫助您從收集的數(shù)據(jù)中得出適當(dāng)?shù)慕Y(jié)論。 在確定要使用哪些適當(dāng)?shù)慕y(tǒng)計(jì)檢驗(yàn)時(shí),實(shí)驗(yàn)設(shè)計(jì)的一個(gè)重要方面是選擇數(shù)據(jù)收集的衡量尺度。 衡量標(biāo)準(zhǔn)的示例 測量尺度只是指定了一個(gè)對所感興趣的現(xiàn)象分配符號、字母或數(shù)字的步驟。
例如,千克尺度允許您給一個(gè)物體分配數(shù)字,根據(jù)測量儀器的標(biāo)準(zhǔn)化的偏移量指示該物體的重量。 有四種重要的衡量標(biāo)準(zhǔn): 定比尺度(ratio)― 千克尺度是定比尺度的一個(gè)示例 ? 分配給物體屬性的符號具有數(shù)字意義。您可以對這些符號執(zhí)行各種運(yùn)算(如計(jì)算比率),而對于通過使用功能不那么強(qiáng)大的衡量標(biāo)準(zhǔn)獲得的數(shù)值,您不能使用這些運(yùn)算。 定距尺度(interval)― 在定距尺度中,任意兩個(gè)相鄰測量單位之間的距離(也稱為間距)是相等的,但零點(diǎn)是任意的。定距尺度的示例包括對經(jīng)度和潮汐高度的度量,以及不同年份始末的度量。定距尺度的值可以加減,但乘除則沒有意義。 定序尺度(rank)― 定序尺度可應(yīng)用于一組有順序的數(shù)據(jù),有順序指的是屬于該尺度的值和觀察值可以按順序排列或附帶有評級尺度。常見的示例包括“好惡”民意測驗(yàn),其中將數(shù)字分配給各個(gè)屬性(從 1 = 非常厭惡到 5 = 非常喜歡)。
通常,一組有序數(shù)據(jù)的類別有自然的順序,但尺度上相鄰點(diǎn)之間的差距不必總是相同的。對于有順序的數(shù)據(jù),您可以計(jì)數(shù)和排序,但不能測量。 定類尺度(nominal)― 衡量標(biāo)準(zhǔn)的定類尺度是衡量標(biāo)準(zhǔn)中最弱的一種形式,主要指將項(xiàng)目分配給組或類別。這種測量不帶數(shù)量信息,并且不表示對項(xiàng)目進(jìn)行排序。對定類尺度數(shù)據(jù)執(zhí)行的主要數(shù)值運(yùn)算是每一類別中項(xiàng)目的頻率計(jì)數(shù)。 下表對比了每種衡量標(biāo)準(zhǔn)的特征: 衡量標(biāo)準(zhǔn)尺度 屬性具有絕對的數(shù)字含義嗎? 能執(zhí)行大多數(shù)數(shù)學(xué)運(yùn)算嗎? 定比尺度 是。 是。 定距尺度 對于定距尺度是這樣;零點(diǎn)是任意的。 加和減。 定序尺度 不是。 計(jì)數(shù)和排序。 定類尺度 不是。 只能計(jì)數(shù)。 在本文中,我將主要討論通過使用測量的定類尺度收集的數(shù)據(jù),以及適用于定類數(shù)據(jù)的推論技術(shù)。
使用定類尺度 幾乎所有 Web 用戶 ― 設(shè)計(jì)人員、客戶和系統(tǒng)管理員 ― 都熟悉定類尺度。Web 民意測驗(yàn)和訪問日志類似,因?yàn)樗鼈兂3J褂枚惓叨茸鳛楹饬繕?biāo)準(zhǔn)。在 Web 民意測驗(yàn)中,用戶常常通過請求人們選擇回答選項(xiàng)(如“您偏愛品牌 A、品牌 B,還是品牌 C?”)來衡量人們的偏好。通過對各類回答的頻率進(jìn)行計(jì)數(shù)來匯總數(shù)據(jù)。 類似的,測量網(wǎng)站流量的常用方法是對一個(gè)星期內(nèi)一天之中的每次點(diǎn)擊或訪問都劃分給這一天,然后對每一天出現(xiàn)的點(diǎn)擊或訪問的數(shù)目計(jì)數(shù)。另外,您可以(也確實(shí)可以)通過瀏覽器類型、操作系統(tǒng)類型和訪問者所在的國家或地區(qū) ― 以及任何您想得到的分類尺度 ― 對點(diǎn)擊計(jì)數(shù)。 因?yàn)?Web 民意測驗(yàn)和訪問統(tǒng)計(jì)信息都需要對數(shù)據(jù)歸入某一特定性質(zhì)類別的次數(shù)進(jìn)行計(jì)數(shù),所以可以用相似的無參數(shù)統(tǒng)計(jì)檢驗(yàn)(允許您根據(jù)分布形狀而不是總體參數(shù)作出推論的檢驗(yàn))來分析它們。 David Sheskin 在他的 Handbook of Parametric and Non-Parametric Statistical Procedures 一書(第 19 頁, 1997)中,是這樣區(qū)分參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)的: 本書中將過程分類為參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)所使用的區(qū)別主要基于被分析數(shù)據(jù)所代表的測量級別。
作為通用規(guī)則,評估類別/定類尺度數(shù)據(jù)和順序/等級-順序數(shù)據(jù)的推論統(tǒng)計(jì)檢驗(yàn)被歸類為非參數(shù)檢驗(yàn),而那些評估定距尺度數(shù)據(jù)或定比尺度數(shù)據(jù)的檢驗(yàn)則被歸類為參數(shù)檢驗(yàn)。 當(dāng)作為參數(shù)檢驗(yàn)基礎(chǔ)的某些假設(shè)值得懷疑時(shí),非參數(shù)檢驗(yàn)也很有用;當(dāng)不滿足參數(shù)假設(shè)時(shí),非參數(shù)檢驗(yàn)在檢測總體差異時(shí)有很大的作用。對于 Web 民意測驗(yàn)的示例,我使用了非參數(shù)分析過程,因?yàn)?Web 民意測驗(yàn)通常使用定類尺度來記錄投票者的偏好。 我并不是在建議 Web 民意測驗(yàn)和 Web 訪問統(tǒng)計(jì)信息應(yīng)該始終使用定類尺度衡量標(biāo)準(zhǔn),或者說非參數(shù)統(tǒng)計(jì)檢驗(yàn)是唯一可用于分析這類數(shù)據(jù)的方法。不難設(shè)想有(譬如)這樣的民意測驗(yàn)和調(diào)查,它們要求用戶對每個(gè)選項(xiàng)提供數(shù)值評分(從 1 到 100),對此,參數(shù)性的統(tǒng)計(jì)檢驗(yàn)就比較合適。 盡管如此,許多 Web 數(shù)據(jù)流包括編輯類別計(jì)數(shù)數(shù)據(jù),而且通過定義定距尺度(譬如從 17 到 21)并將每個(gè)數(shù)據(jù)點(diǎn)分配給一個(gè)定距尺度(如“年輕人”),可以將這些數(shù)據(jù)(通過使用功能更強(qiáng)大的衡量標(biāo)準(zhǔn)測量)變成定類尺度數(shù)據(jù)。頻率數(shù)據(jù)的普遍存在(已經(jīng)是 Web 開發(fā)人員經(jīng)驗(yàn)的一部分),使得專注于非參數(shù)統(tǒng)計(jì)學(xué)成為學(xué)習(xí)如何將推論技術(shù)應(yīng)用到數(shù)據(jù)流的良好起點(diǎn)。 為了使本文保持合理的篇幅,我將把對 Web 數(shù)據(jù)流分析的討論局限于 Web 民意測驗(yàn)。但是請記住,許多 Web 數(shù)據(jù)流都可以用定類計(jì)數(shù)數(shù)據(jù)表示,而我討論的推論技術(shù)將使您能做比報(bào)告簡單的計(jì)數(shù)數(shù)據(jù)更多的事情。 從抽樣開始 假設(shè)您在您的站點(diǎn)...
上進(jìn)行每周一次的民意測驗(yàn),詢問成員對各種主題的意見。您已經(jīng)創(chuàng)建了一個(gè)民意測驗(yàn),詢問成員喜愛的啤酒品牌(在加拿大新斯科舍省(Nova Scotia)有三種知名的啤酒品牌:Keiths、Olands 和 Schooner)。為了使調(diào)查盡可能范圍廣泛,您在回答中包括“其它”。 您收到 1,000 條回答,請觀察到表 1 中的結(jié)果。(本文顯示的結(jié)果只作為演示之用,并不基于任何實(shí)際調(diào)查。) 表 1. 啤酒民意測驗(yàn)Keiths Olands Schooner 其它 285(28.50%) 250(25.00%) 215(21.50%) 250(25.00%) 這些數(shù)據(jù)看上去支持這樣的結(jié)論:Keiths 是最受新斯科舍省居民歡迎的品牌。根據(jù)這些數(shù)字,您能得出這一結(jié)論嗎?
換句話說,您能根據(jù)從樣本獲得的結(jié)果對新斯科舍省的啤酒消費(fèi)者總體作出推論嗎? 許多與樣本收集方式有關(guān)的因素會(huì)使相對受歡迎程度的推論不正確??赡軜颖局邪诉^多 Keiths 釀酒廠的雇員;可能您沒有完全預(yù)防一個(gè)人投多次票的情況,而這個(gè)人可能使結(jié)果出現(xiàn)偏差;或許被挑選出來投票的人與沒有被挑選出來投票的人不同;或許上網(wǎng)的投票人與不上網(wǎng)的投票人不同。 大多數(shù) Web 民意測驗(yàn)都存在這些解釋上的困難。當(dāng)您試圖從樣本統(tǒng)計(jì)數(shù)據(jù)得出有關(guān)總體參數(shù)的結(jié)論時(shí),就會(huì)出現(xiàn)這些解釋上的困難。
從實(shí)驗(yàn)設(shè)計(jì)觀點(diǎn)看,在收集數(shù)據(jù)之前首先要問的一個(gè)問題是:能否采取步驟幫助確保樣本能夠代表所研究的總體
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10