
用 PHP 使 Web 數(shù)據(jù)分析進(jìn)入更高境界
設(shè)計(jì)您的數(shù)據(jù)分析,做比簡(jiǎn)單原始計(jì)數(shù)更多的事 對(duì) Web 數(shù)據(jù)進(jìn)行有效和多層次的分析是許多面向 Web 企業(yè)能夠生存的關(guān)鍵因素,數(shù)據(jù)分析檢驗(yàn)的設(shè)計(jì)(和決策)通常是系統(tǒng)管理員和內(nèi)部應(yīng)用程序設(shè)計(jì)人員的工作,而他們可能除了能夠把原始計(jì)數(shù)制成表格之外,對(duì)統(tǒng)計(jì)學(xué)沒有更多的了解。在本文中,Paul Meagher 向 Web 開發(fā)人員傳授了將推論統(tǒng)計(jì)學(xué)應(yīng)用到 Web 數(shù)據(jù)流所需的技能和概念。 動(dòng)態(tài)網(wǎng)站不斷生成大量的數(shù)據(jù) ― 訪問日志、民意測(cè)驗(yàn)和調(diào)查結(jié)果、客戶概要信息、訂單及其它,Web 開發(fā)人員的工作不僅是創(chuàng)建生成這些數(shù)據(jù)的應(yīng)用程序,而且還要開發(fā)使這些數(shù)據(jù)流有意義的應(yīng)用程序和方法。 通常,對(duì)于由管理站點(diǎn)所產(chǎn)生的不斷增長的數(shù)據(jù)分析需求,Web 開發(fā)人員的應(yīng)對(duì)是不夠的。
一般而言,除了報(bào)告各種描述性統(tǒng)計(jì)信息之外,Web 開發(fā)人員并沒有其它更好的方法來反映數(shù)據(jù)流特征。有許多推論統(tǒng)計(jì)步驟(根據(jù)樣本數(shù)據(jù)估計(jì)總體參數(shù)的方法)可以被充分利用,但目前卻沒有應(yīng)用它們。 例如,Web 訪問統(tǒng)計(jì)信息(按當(dāng)前所編輯的)只不過是以各種方式進(jìn)行分組的頻率計(jì)數(shù)。以原始計(jì)數(shù)和百分比表示民意測(cè)驗(yàn)和調(diào)查結(jié)果的情況比比皆是。 開發(fā)人員用比較淺顯的方法處理數(shù)據(jù)流的統(tǒng)計(jì)分析或許已經(jīng)足夠了,我們不應(yīng)期望太多。畢竟,有從事較復(fù)雜的數(shù)據(jù)流分析的專業(yè)人士;他們是統(tǒng)計(jì)師和受過訓(xùn)練的分析師。當(dāng)組織需要的不僅僅是描述性統(tǒng)計(jì)時(shí),可以請(qǐng)他們加入。
但另一種應(yīng)對(duì)是承認(rèn)對(duì)推論統(tǒng)計(jì)學(xué)日益加深的了解正成為 Web 開發(fā)人員工作描述的一部分。動(dòng)態(tài)站點(diǎn)正在生成越來越多的數(shù)據(jù),事實(shí)表明,設(shè)法將這些數(shù)據(jù)變成有用的知識(shí)正是 Web 開發(fā)人員和系統(tǒng)管理員的責(zé)任。 我提倡采取后一種應(yīng)對(duì);本文旨在幫助 Web 開發(fā)人員和系統(tǒng)管理員學(xué)習(xí)(或重溫,如果知識(shí)已遺忘的話)將推論統(tǒng)計(jì)學(xué)應(yīng)用到 Web 數(shù)據(jù)流所需的設(shè)計(jì)和分析技能。 使 Web 數(shù)據(jù)與實(shí)驗(yàn)設(shè)計(jì)相關(guān) 將推論統(tǒng)計(jì)學(xué)應(yīng)用到 Web 數(shù)據(jù)流需要的不僅僅是學(xué)習(xí)作為各種統(tǒng)計(jì)檢驗(yàn)基礎(chǔ)的數(shù)學(xué)知識(shí)。
將數(shù)據(jù)收集過程與實(shí)驗(yàn)設(shè)計(jì)中的關(guān)鍵差別關(guān)聯(lián)起來的能力同樣很重要:測(cè)量尺度是什么?樣本的代表性如何?總體是什么?正在檢驗(yàn)的假設(shè)是什么? 要將推論統(tǒng)計(jì)學(xué)應(yīng)用到 Web 數(shù)據(jù)流,需要先把結(jié)果看作是由實(shí)驗(yàn)設(shè)計(jì)生成的;然后選擇適用于該實(shí)驗(yàn)設(shè)計(jì)的分析過程。即使您可能認(rèn)為將 Web 民意測(cè)驗(yàn)和訪問日志數(shù)據(jù)看作實(shí)驗(yàn)的結(jié)果是多此一舉,但這樣做確實(shí)很重要。為什么? 1.這將幫助您選擇適當(dāng)?shù)慕y(tǒng)計(jì)檢驗(yàn)方法。 2.這將幫助您從收集的數(shù)據(jù)中得出適當(dāng)?shù)慕Y(jié)論。 在確定要使用哪些適當(dāng)?shù)慕y(tǒng)計(jì)檢驗(yàn)時(shí),實(shí)驗(yàn)設(shè)計(jì)的一個(gè)重要方面是選擇數(shù)據(jù)收集的衡量尺度。 衡量標(biāo)準(zhǔn)的示例 測(cè)量尺度只是指定了一個(gè)對(duì)所感興趣的現(xiàn)象分配符號(hào)、字母或數(shù)字的步驟。
例如,千克尺度允許您給一個(gè)物體分配數(shù)字,根據(jù)測(cè)量儀器的標(biāo)準(zhǔn)化的偏移量指示該物體的重量。 有四種重要的衡量標(biāo)準(zhǔn): 定比尺度(ratio)― 千克尺度是定比尺度的一個(gè)示例 ? 分配給物體屬性的符號(hào)具有數(shù)字意義。您可以對(duì)這些符號(hào)執(zhí)行各種運(yùn)算(如計(jì)算比率),而對(duì)于通過使用功能不那么強(qiáng)大的衡量標(biāo)準(zhǔn)獲得的數(shù)值,您不能使用這些運(yùn)算。 定距尺度(interval)― 在定距尺度中,任意兩個(gè)相鄰測(cè)量單位之間的距離(也稱為間距)是相等的,但零點(diǎn)是任意的。定距尺度的示例包括對(duì)經(jīng)度和潮汐高度的度量,以及不同年份始末的度量。定距尺度的值可以加減,但乘除則沒有意義。 定序尺度(rank)― 定序尺度可應(yīng)用于一組有順序的數(shù)據(jù),有順序指的是屬于該尺度的值和觀察值可以按順序排列或附帶有評(píng)級(jí)尺度。常見的示例包括“好惡”民意測(cè)驗(yàn),其中將數(shù)字分配給各個(gè)屬性(從 1 = 非常厭惡到 5 = 非常喜歡)。
通常,一組有序數(shù)據(jù)的類別有自然的順序,但尺度上相鄰點(diǎn)之間的差距不必總是相同的。對(duì)于有順序的數(shù)據(jù),您可以計(jì)數(shù)和排序,但不能測(cè)量。 定類尺度(nominal)― 衡量標(biāo)準(zhǔn)的定類尺度是衡量標(biāo)準(zhǔn)中最弱的一種形式,主要指將項(xiàng)目分配給組或類別。這種測(cè)量不帶數(shù)量信息,并且不表示對(duì)項(xiàng)目進(jìn)行排序。對(duì)定類尺度數(shù)據(jù)執(zhí)行的主要數(shù)值運(yùn)算是每一類別中項(xiàng)目的頻率計(jì)數(shù)。 下表對(duì)比了每種衡量標(biāo)準(zhǔn)的特征: 衡量標(biāo)準(zhǔn)尺度 屬性具有絕對(duì)的數(shù)字含義嗎? 能執(zhí)行大多數(shù)數(shù)學(xué)運(yùn)算嗎? 定比尺度 是。 是。 定距尺度 對(duì)于定距尺度是這樣;零點(diǎn)是任意的。 加和減。 定序尺度 不是。 計(jì)數(shù)和排序。 定類尺度 不是。 只能計(jì)數(shù)。 在本文中,我將主要討論通過使用測(cè)量的定類尺度收集的數(shù)據(jù),以及適用于定類數(shù)據(jù)的推論技術(shù)。
使用定類尺度 幾乎所有 Web 用戶 ― 設(shè)計(jì)人員、客戶和系統(tǒng)管理員 ― 都熟悉定類尺度。Web 民意測(cè)驗(yàn)和訪問日志類似,因?yàn)樗鼈兂3J褂枚惓叨茸鳛楹饬繕?biāo)準(zhǔn)。在 Web 民意測(cè)驗(yàn)中,用戶常常通過請(qǐng)求人們選擇回答選項(xiàng)(如“您偏愛品牌 A、品牌 B,還是品牌 C?”)來衡量人們的偏好。通過對(duì)各類回答的頻率進(jìn)行計(jì)數(shù)來匯總數(shù)據(jù)。 類似的,測(cè)量網(wǎng)站流量的常用方法是對(duì)一個(gè)星期內(nèi)一天之中的每次點(diǎn)擊或訪問都劃分給這一天,然后對(duì)每一天出現(xiàn)的點(diǎn)擊或訪問的數(shù)目計(jì)數(shù)。另外,您可以(也確實(shí)可以)通過瀏覽器類型、操作系統(tǒng)類型和訪問者所在的國家或地區(qū) ― 以及任何您想得到的分類尺度 ― 對(duì)點(diǎn)擊計(jì)數(shù)。 因?yàn)?Web 民意測(cè)驗(yàn)和訪問統(tǒng)計(jì)信息都需要對(duì)數(shù)據(jù)歸入某一特定性質(zhì)類別的次數(shù)進(jìn)行計(jì)數(shù),所以可以用相似的無參數(shù)統(tǒng)計(jì)檢驗(yàn)(允許您根據(jù)分布形狀而不是總體參數(shù)作出推論的檢驗(yàn))來分析它們。 David Sheskin 在他的 Handbook of Parametric and Non-Parametric Statistical Procedures 一書(第 19 頁, 1997)中,是這樣區(qū)分參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)的: 本書中將過程分類為參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)所使用的區(qū)別主要基于被分析數(shù)據(jù)所代表的測(cè)量級(jí)別。
作為通用規(guī)則,評(píng)估類別/定類尺度數(shù)據(jù)和順序/等級(jí)-順序數(shù)據(jù)的推論統(tǒng)計(jì)檢驗(yàn)被歸類為非參數(shù)檢驗(yàn),而那些評(píng)估定距尺度數(shù)據(jù)或定比尺度數(shù)據(jù)的檢驗(yàn)則被歸類為參數(shù)檢驗(yàn)。 當(dāng)作為參數(shù)檢驗(yàn)基礎(chǔ)的某些假設(shè)值得懷疑時(shí),非參數(shù)檢驗(yàn)也很有用;當(dāng)不滿足參數(shù)假設(shè)時(shí),非參數(shù)檢驗(yàn)在檢測(cè)總體差異時(shí)有很大的作用。對(duì)于 Web 民意測(cè)驗(yàn)的示例,我使用了非參數(shù)分析過程,因?yàn)?Web 民意測(cè)驗(yàn)通常使用定類尺度來記錄投票者的偏好。 我并不是在建議 Web 民意測(cè)驗(yàn)和 Web 訪問統(tǒng)計(jì)信息應(yīng)該始終使用定類尺度衡量標(biāo)準(zhǔn),或者說非參數(shù)統(tǒng)計(jì)檢驗(yàn)是唯一可用于分析這類數(shù)據(jù)的方法。不難設(shè)想有(譬如)這樣的民意測(cè)驗(yàn)和調(diào)查,它們要求用戶對(duì)每個(gè)選項(xiàng)提供數(shù)值評(píng)分(從 1 到 100),對(duì)此,參數(shù)性的統(tǒng)計(jì)檢驗(yàn)就比較合適。 盡管如此,許多 Web 數(shù)據(jù)流包括編輯類別計(jì)數(shù)數(shù)據(jù),而且通過定義定距尺度(譬如從 17 到 21)并將每個(gè)數(shù)據(jù)點(diǎn)分配給一個(gè)定距尺度(如“年輕人”),可以將這些數(shù)據(jù)(通過使用功能更強(qiáng)大的衡量標(biāo)準(zhǔn)測(cè)量)變成定類尺度數(shù)據(jù)。頻率數(shù)據(jù)的普遍存在(已經(jīng)是 Web 開發(fā)人員經(jīng)驗(yàn)的一部分),使得專注于非參數(shù)統(tǒng)計(jì)學(xué)成為學(xué)習(xí)如何將推論技術(shù)應(yīng)用到數(shù)據(jù)流的良好起點(diǎn)。 為了使本文保持合理的篇幅,我將把對(duì) Web 數(shù)據(jù)流分析的討論局限于 Web 民意測(cè)驗(yàn)。但是請(qǐng)記住,許多 Web 數(shù)據(jù)流都可以用定類計(jì)數(shù)數(shù)據(jù)表示,而我討論的推論技術(shù)將使您能做比報(bào)告簡(jiǎn)單的計(jì)數(shù)數(shù)據(jù)更多的事情。 從抽樣開始 假設(shè)您在您的站點(diǎn)...
上進(jìn)行每周一次的民意測(cè)驗(yàn),詢問成員對(duì)各種主題的意見。您已經(jīng)創(chuàng)建了一個(gè)民意測(cè)驗(yàn),詢問成員喜愛的啤酒品牌(在加拿大新斯科舍省(Nova Scotia)有三種知名的啤酒品牌:Keiths、Olands 和 Schooner)。為了使調(diào)查盡可能范圍廣泛,您在回答中包括“其它”。 您收到 1,000 條回答,請(qǐng)觀察到表 1 中的結(jié)果。(本文顯示的結(jié)果只作為演示之用,并不基于任何實(shí)際調(diào)查。) 表 1. 啤酒民意測(cè)驗(yàn)Keiths Olands Schooner 其它 285(28.50%) 250(25.00%) 215(21.50%) 250(25.00%) 這些數(shù)據(jù)看上去支持這樣的結(jié)論:Keiths 是最受新斯科舍省居民歡迎的品牌。根據(jù)這些數(shù)字,您能得出這一結(jié)論嗎?
換句話說,您能根據(jù)從樣本獲得的結(jié)果對(duì)新斯科舍省的啤酒消費(fèi)者總體作出推論嗎? 許多與樣本收集方式有關(guān)的因素會(huì)使相對(duì)受歡迎程度的推論不正確??赡軜颖局邪诉^多 Keiths 釀酒廠的雇員;可能您沒有完全預(yù)防一個(gè)人投多次票的情況,而這個(gè)人可能使結(jié)果出現(xiàn)偏差;或許被挑選出來投票的人與沒有被挑選出來投票的人不同;或許上網(wǎng)的投票人與不上網(wǎng)的投票人不同。 大多數(shù) Web 民意測(cè)驗(yàn)都存在這些解釋上的困難。當(dāng)您試圖從樣本統(tǒng)計(jì)數(shù)據(jù)得出有關(guān)總體參數(shù)的結(jié)論時(shí),就會(huì)出現(xiàn)這些解釋上的困難。
從實(shí)驗(yàn)設(shè)計(jì)觀點(diǎn)看,在收集數(shù)據(jù)之前首先要問的一個(gè)問題是:能否采取步驟幫助確保樣本能夠代表所研究的總體
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03