
用 PHP 使 Web 數(shù)據(jù)分析進(jìn)入更高境界(二)
如果對(duì)所研究的總體得出結(jié)論是您做 Web 民意測驗(yàn)的動(dòng)機(jī)(而不是為站點(diǎn)訪問者提供的消遣),那么您應(yīng)該實(shí)現(xiàn)一些技術(shù),以確保一人一票(所以,他們必須用唯一的標(biāo)識(shí)登錄才能投票),并確保隨機(jī)選擇投票者樣本(例如,隨機(jī)選擇成員的子集,然后給他們發(fā)電子郵件,鼓勵(lì)他們投票)。 最終,目標(biāo)是消除(至少減少)各種偏差,它們可能會(huì)削弱對(duì)所研究總體得出結(jié)論的能力。 檢驗(yàn)假設(shè) 假設(shè)新斯科舍省啤酒消費(fèi)者統(tǒng)計(jì)樣本沒有發(fā)生偏差,您現(xiàn)在能夠得出 Keiths 是最受歡迎品牌這一結(jié)論嗎? 要回答這個(gè)問題,請考慮一個(gè)相關(guān)的問題:如果您要獲得另一個(gè)新斯科舍省啤酒消費(fèi)者的樣本,您希望看到完全相同的結(jié)果嗎?實(shí)際上,您會(huì)希望不同樣本中所觀察到的結(jié)果有一定的變化。
考慮這個(gè)預(yù)期的抽樣可變性,您可能懷疑通過隨機(jī)抽樣可變性是否比反映所研究總體中的實(shí)際差異能更好地說明觀察到的品牌偏好。在統(tǒng)計(jì)學(xué)術(shù)語中,這個(gè)抽樣可變性說明被稱為虛假設(shè)(null hypothesis)。(虛假設(shè)由符號(hào) Ho 表示)在本例中,用公式將它表示成這樣的語句:在作出回答的所有類別中,各種回答的期望數(shù)目相同。 Ho:# Keiths = # Olands = # Schooner = # Other 如果您能夠排除虛假設(shè),那么您在回答 Keiths 是否是最受歡迎品牌這個(gè)最初的問題上取得了一些進(jìn)展。那么,另一個(gè)可接受的假設(shè)是在所研究的總體中,各種回答所占比例不同。 這個(gè)“先檢驗(yàn)虛假設(shè)”邏輯在民意測驗(yàn)數(shù)據(jù)分析中的多個(gè)階段都適用。排除這一虛假設(shè),這樣數(shù)據(jù)就不會(huì)完全不同,隨后您可以繼續(xù)檢驗(yàn)一個(gè)更具體的虛假設(shè),即 Keiths 和 Schooner,或者 Keiths 與其它所有品牌之間沒有差別。 您繼續(xù)檢驗(yàn)虛假設(shè)而不是直接評(píng)估另一假設(shè),是因?yàn)閷?duì)于在虛假設(shè)條件下人們希望觀察到的事物進(jìn)行統(tǒng)計(jì)建模更容易。接下來,我將演示如何對(duì)在虛假設(shè)下所期望的事物建模,這樣我就可以將觀察結(jié)果與在虛假設(shè)條件下所期望的結(jié)果加以比較。 對(duì)虛假設(shè)建模:X 平方分布統(tǒng)計(jì) 到目前為止,您已經(jīng)使用一個(gè)報(bào)告每種回答選項(xiàng)頻率計(jì)數(shù)(和百分比)的表匯總了 Web 民意測驗(yàn)的結(jié)果。要檢驗(yàn)虛假設(shè)(表單元頻率之間不存在差別),計(jì)算每個(gè)表單元與您在虛假設(shè)條件下所期望值的總體偏差度量要容易得多。
在這個(gè)啤酒歡迎度民意測驗(yàn)的示例中,在虛假設(shè)條件下的期望頻率如下: 期望頻率 = 觀察數(shù)目 / 回答選項(xiàng)的數(shù)目 期望頻率 = 1000 / 4 期望頻率 = 250 要計(jì)算每個(gè)單元中回答的內(nèi)容與期望頻率相差多少的總體度量,您可以將所有的差別總計(jì)到一個(gè)反映觀察頻率與期望頻率相差多少的總體度量中:(285 - 250) + (250 - 250) + (215 - 250) + (250 - 250)。 如果您這么做,您會(huì)發(fā)現(xiàn)期望頻率是 0,因?yàn)槠骄档?a href='/map/piancha/' style='color:#000;font-size:inherit;'>偏差的和永遠(yuǎn)是 0。要解決這個(gè)問題,應(yīng)當(dāng)取所有差值的平方(這就是X 平方分布(Chi Square)中平方的由來)。最后,為了使各樣本(這些樣本具有不同的觀察數(shù))的這個(gè)值具有可比性(換句話說,使它標(biāo)準(zhǔn)化),將該值除以期望頻率。因此,X 平方分布統(tǒng)計(jì)的公式如下所示(“O”表示“觀察頻率”,“E”等于“期望頻率”): 圖 1. X 平方分布統(tǒng)計(jì)的公式 如果計(jì)算啤酒歡迎度民意測驗(yàn)數(shù)據(jù)的 X 平方分布統(tǒng)計(jì),會(huì)得到值 9.80。要檢驗(yàn)虛假設(shè),需要知道在假設(shè)存在隨機(jī)抽樣可變性的情況下獲得這么一個(gè)極限值的概率。
要得出這一概率,需要理解 X 平方分布的抽樣分布是什么樣的。 觀察 X 平方分布的抽樣分布 圖 2. X 平方分布圖 在每幅圖中,橫軸表示所得到的 X 平方分布值大?。▓D中所示范圍從 0 到 10)??v軸顯示各 X 平方分布值的概率(或稱為出現(xiàn)的相對(duì)頻率)。 當(dāng)您研究這些 X 平方分布圖時(shí),請注意,當(dāng)您在實(shí)驗(yàn)中改變自由度(即 df)時(shí),概率函數(shù)的形狀會(huì)改變。對(duì)于民意測驗(yàn)數(shù)據(jù)的示例,自由度是這樣計(jì)算的:記下民意測驗(yàn)中的回答選項(xiàng)(k)的數(shù)目,然后用這個(gè)值減 1(df = k - 1)。 通常,當(dāng)您在實(shí)驗(yàn)中增加回答選項(xiàng)的數(shù)目時(shí),獲得較大 X 平方分布值的概率會(huì)下降。這是因?yàn)楫?dāng)增加回答選項(xiàng)時(shí),就增加了方差值的數(shù)目 ― (觀察值 - 期望值)2 ― 您可以求它的總數(shù)。因此,當(dāng)您增加回答選項(xiàng)時(shí),獲得大的 X 平方分布值的統(tǒng)計(jì)概率應(yīng)該增加,而獲得較小 X 平方分布值的概率會(huì)減少。這就是為什么 X 平方分布的抽樣分布的形狀隨著 df 值的不同而變化的原因。
此外,要注意到通常人們對(duì) X 平方分布結(jié)果的小數(shù)點(diǎn)部分不感興趣,而是對(duì)位于所獲得的值右邊曲線的總計(jì)部分感興趣。該尾數(shù)概率告訴您獲取一個(gè)象您觀察到的極限值是可能(如一個(gè)大的尾數(shù)區(qū)域)還是不可能(小的尾數(shù)區(qū)域)。(實(shí)際上,我不使用這些圖來計(jì)算尾數(shù)概率,因?yàn)槲铱梢詫?shí)現(xiàn)數(shù)學(xué)函數(shù)來返回給定 X 平方分布值的尾數(shù)概率。我在本文后面討論的 X 平方分布程序中會(huì)采用這種做法。) 要進(jìn)一步了解這些圖是如何派生出來的,可以看看如何模擬與 df = 2(它表示 k = 3)對(duì)應(yīng)的圖的內(nèi)容。想象把數(shù)字 1、2 和 3 放進(jìn)帽子里,搖一搖,選一個(gè)數(shù)字,然后記錄所選的數(shù)字作為一次嘗試。
對(duì)這個(gè)實(shí)驗(yàn)進(jìn)行 300 次嘗試,然后計(jì)算 1、2 和 3 出現(xiàn)的頻率。 每次您做這個(gè)實(shí)驗(yàn)時(shí),都應(yīng)當(dāng)期望結(jié)果有稍微不同的頻率分布,這一分布反映了抽樣的可變性,同時(shí),這個(gè)分布又不會(huì)真正偏離可能的概率范圍。 下面的 Multinomial 類實(shí)現(xiàn)了這一想法。您可以用以下值初始化該類:要做實(shí)驗(yàn)的次數(shù)、每個(gè)實(shí)驗(yàn)中所做嘗試的次數(shù),以及每次試驗(yàn)的選項(xiàng)數(shù)目。每個(gè)實(shí)驗(yàn)的結(jié)果記錄在一個(gè)名為 Outcomes 的數(shù)組中。 清單 1. Multinomial 類的內(nèi)容 <?php // Multinomial.php // Copyright 2003, Paul Meagher // Distributed under LGPL class Multinomial { var $NExps; var $NTrials; var $NOptions; var $Outcomes = array(); function Multinomial($NExps, $NTrials, $NOptions) { $this->NExps = $NExps; $this->NTrials = $NTrials; $this->NOptions = $NOptions; for ($i=0; $i < $this->NExps; $i++) { $this->Outcomes[$i] = $this->runExperiment(); } } function runExperiment() { $Outcome = array(); for ($i = 0; $i < $this->NExps; $i++){ $choice = rand(1,$this->NOptions); $Outcome[$choice]++; } return $Outcome; } } ?> 請注意,runExperiment 方法是該腳本中非常重要的一部分,它保證在每次實(shí)驗(yàn)中所做出的選擇是隨機(jī)的,并且跟蹤到目前為止在模擬實(shí)驗(yàn)中做出了哪些選擇。
為了找到 X 平方分布統(tǒng)計(jì)的抽樣分布,只需獲取每次實(shí)驗(yàn)的結(jié)果,并且計(jì)算該結(jié)果的 X 平方分布統(tǒng)計(jì)。由于隨機(jī)抽樣的可變性,因此這個(gè) X 平方分布統(tǒng)計(jì)會(huì)隨實(shí)驗(yàn)的不同而不同。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
在AI滲透率超85%的2025年,企業(yè)生存之戰(zhàn)就是數(shù)據(jù)之戰(zhàn),CDA認(rèn)證已成為決定企業(yè)存續(xù)的生死線!據(jù)麥肯錫全球研究院數(shù)據(jù)顯示,AI驅(qū) ...
2025-07-2035歲焦慮像一把高懸的利刃,裁員潮、晉升無望、技能過時(shí)……當(dāng)職場中年危機(jī)與數(shù)字化浪潮正面交鋒,你是否發(fā)現(xiàn): 簡歷投了10 ...
2025-07-20CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘龌蚴窃诼殘稣媾R崗位替代、技能更新、人機(jī)協(xié)作等焦慮的打工人,想要找到一條破解職場焦慮和升職瓶頸的系統(tǒng)化學(xué)習(xí)提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價(jià)值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時(shí)代的價(jià)值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競爭力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實(shí)現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價(jià)值的橋梁? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細(xì)化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對(duì)這樣的場景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時(shí)代的通行證? 在數(shù)字化浪潮席卷全球的今天,當(dāng)企業(yè)決策者盯著屏幕上跳動(dòng)的數(shù)據(jù)曲線尋找增長密碼,當(dāng)科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)增長的實(shí)戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項(xiàng)” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實(shí)踐 在 MySQL 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計(jì)中,索引是提升查詢性能的核心手段。無論 ...
2025-07-16解析 MySQL Update 語句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫的日常運(yùn)維與開發(fā)中,開發(fā)者和 DBA 常會(huì) ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對(duì)海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問題時(shí)有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14