
用 PHP 使 Web 數(shù)據(jù)分析進(jìn)入更高境界(四)
假定過(guò)一段時(shí)間后,您打算對(duì)新斯科舍省的啤酒消費(fèi)者進(jìn)行另一次 Web 民意測(cè)驗(yàn)。您再次詢問(wèn)他們喜愛(ài)的啤酒品牌,現(xiàn)在觀察到下列結(jié)果: 表 4. 新的啤酒民意測(cè)驗(yàn) Keiths Olands Schooner 其它 385 (27.50%) 350 (25.00%) 315 (22.50%) 350 (25.00%) 舊的數(shù)據(jù)如下所示: 表 1. 舊的啤酒民意測(cè)驗(yàn)(再一次顯示) Keiths Olands Schooner 其它 285 (28.50%) 250 (25.00%) 215 (21.50%) 250 (25.00%) 民意測(cè)驗(yàn)結(jié)果之間的明顯區(qū)別在于,第一次民意測(cè)驗(yàn)有 1,000 個(gè)調(diào)查對(duì)象,而第二次有 1,400 個(gè)調(diào)查對(duì)象。這些額外調(diào)查對(duì)象的主要影響是,使得每個(gè)回答情形的頻率計(jì)數(shù)增加了 100 點(diǎn)。
當(dāng)準(zhǔn)備好對(duì)新的民意測(cè)驗(yàn)進(jìn)行分析時(shí),可以利用缺省的方法 ― 計(jì)算期望頻率來(lái)分析數(shù)據(jù),也可以利用每個(gè)結(jié)果的期望概率(基于前一次民意測(cè)驗(yàn)所觀察到的比例)來(lái)初始化分析。在第二種情形中,您將以前獲得的比例裝入期望概率數(shù)組($ExpProb),并使用它們來(lái)計(jì)算每個(gè)回答選項(xiàng)的期望頻率值。 清單 6 顯示了用于檢測(cè)偏好變化的啤酒民意測(cè)驗(yàn)分析代碼: 清單 6. 檢測(cè)偏好的變化 <?php // beer_repoll_analysis.php require_once "../init.php"; require PHP_MATH . "chi/ChiSquare1D_HTML.php"; $Headings = array("Keiths", "Olands", "Schooner", "Other"); $ObsFreq = array(385, 350, 315, 350); $Alpha = 0.05; $ExpProb = array(.285, .250, .215, .250); $Chi = new ChiSquare1D_HTML($ObsFreq, $Alpha, $ExpProb); $Chi->showTableSummary($Headings); echo "<br><br>"; $Chi->showChiSquareStats(); ?> 表 5 和 6 顯示了 beer_repoll_analysis.php 腳本生成的 HTML 輸出: 表 5. 運(yùn)行 beer_repoll_analysis.php 而獲得的期望頻率和方差 Keiths Olands Schooner 其它 合計(jì) 觀察值 385 350 315 350 1400 期望值 399 350 301 350 1400 方差 0.49 0.00 0.65 0.00 1.14 表 6. 運(yùn)行 beer_repoll_analysis.php 所獲得的各種 X 平方分布統(tǒng)計(jì)信息統(tǒng)計(jì) DF 獲得值 概率 臨界值 X 平方分布 3 1.14 0.77 7.81 表 6 表明,在虛假設(shè)條件下,獲得 X 平方分布值 1.14 的概率是 77%。我們不能排除這樣的虛假設(shè),即自從上一次民意測(cè)驗(yàn)以來(lái),新斯科舍省啤酒消費(fèi)者偏好已經(jīng)發(fā)生了變化。觀察頻率和期望頻率之間的任何差異都可以解釋為新斯科舍省相同啤酒消費(fèi)者的期望抽樣可變性??紤]到最初民意測(cè)驗(yàn)結(jié)果的轉(zhuǎn)換只是通過(guò)向前面每個(gè)民意測(cè)驗(yàn)結(jié)果添加常數(shù) 100 完成的,那么這種零發(fā)現(xiàn)也不應(yīng)當(dāng)有什么令人吃驚的地方了。
但是,您可以設(shè)想結(jié)果已經(jīng)發(fā)生了變化,并且設(shè)想這些結(jié)果可能暗示著另一種品牌的啤酒正在變得更加流行(請(qǐng)注意表 5 中每列底部報(bào)告的方差大小)。您可以進(jìn)一步設(shè)想這一發(fā)現(xiàn)對(duì)所討論的釀酒廠的財(cái)務(wù)方面有顯著的含義,因?yàn)榫瓢衫习逋鶗?huì)采購(gòu)酒吧里最暢銷的啤酒。 這些結(jié)果將受到釀酒廠老板極其詳細(xì)的檢查,他們會(huì)對(duì)分析過(guò)程和實(shí)驗(yàn)方法的適合性提出疑問(wèn);特別地,他們會(huì)對(duì)樣本的代表性提出疑問(wèn)。如果您打算進(jìn)行一次 Web 實(shí)驗(yàn),該實(shí)驗(yàn)可能具有重要的實(shí)際含義,那么,對(duì)于用來(lái)收集數(shù)據(jù)的實(shí)驗(yàn)方法和用來(lái)從數(shù)據(jù)得出推論的分析技術(shù),您需要給予同等的關(guān)注。
因此,本文不僅為您奠定了一個(gè)良好的基礎(chǔ),以便于可以加強(qiáng)您對(duì) Web 數(shù)據(jù)的有效理解,它還提供了一些建議,這些建議是有關(guān)如何保護(hù)您的統(tǒng)計(jì)檢驗(yàn)選擇的,并且使得從數(shù)據(jù)獲得的結(jié)論更具合理性。 應(yīng)用學(xué)到的知識(shí) 在本文中,您已經(jīng)了解了如何將推論統(tǒng)計(jì)學(xué)應(yīng)用于普遍存在的用于匯總 Web 數(shù)據(jù)流的頻率數(shù)據(jù),側(cè)重于 Web 民意測(cè)驗(yàn)數(shù)據(jù)的分析。
但是,所討論的簡(jiǎn)單的單向 X 平方分布分析過(guò)程也能夠有效地應(yīng)用于其它類型的數(shù)據(jù)流(訪問(wèn)日志、調(diào)查結(jié)果、客戶概要信息和客戶訂單),以便將原始數(shù)據(jù)轉(zhuǎn)換成有用的知識(shí)。 在將推論統(tǒng)計(jì)學(xué)應(yīng)用于 Web 數(shù)據(jù)時(shí),我還介紹了希望將數(shù)據(jù)流視作 Web 實(shí)驗(yàn)的結(jié)果,以便于在作推論時(shí)提高引用實(shí)驗(yàn)設(shè)計(jì)考慮事項(xiàng)的可能性。通常由于您對(duì)于數(shù)據(jù)采集的過(guò)程缺乏足夠的控制,因此您不能做出推論。
但是,如果在將實(shí)驗(yàn)的設(shè)計(jì)原則應(yīng)用于 Web 數(shù)據(jù)收集過(guò)程時(shí)您更加主動(dòng)(例如,在您的 Web 民意測(cè)驗(yàn)過(guò)程中隨機(jī)選擇投票者),那么可以改變這種情形。
最后,我演示了如何模擬不同自由度的 X 平方分布的抽樣分布,而不只是僅說(shuō)明其來(lái)源。在這樣做的過(guò)程中,對(duì)于測(cè)量類別的期望頻率小于 5(換而言之,即小 N 實(shí)驗(yàn))― 我還演示了一種變通方法(使用小 $NTrials 值模擬實(shí)驗(yàn)的抽樣分布)來(lái)禁止使用 X 平方分布檢驗(yàn)。
因此,我不只是使用研究過(guò)程中的 df 來(lái)計(jì)算樣本結(jié)果的概率,對(duì)于數(shù)量較小的嘗試,可能還需要使用 $NTrials 值作為參數(shù)來(lái)求得所觀察 X 平方分布結(jié)果的概率。
考慮您可能會(huì)如何分析小 N 實(shí)驗(yàn)是值得的,因?yàn)槟ǔ?赡芟M跀?shù)據(jù)采集完成之前分析您的數(shù)據(jù) ― 當(dāng)每次觀察的代價(jià)都很昂貴時(shí),當(dāng)觀察需要花費(fèi)很長(zhǎng)時(shí)間才能獲得時(shí),或者只是因?yàn)槟芎闷?。在嘗試這一級(jí)別的 Web 數(shù)據(jù)分析時(shí),最好謹(jǐn)記下面這兩個(gè)問(wèn)題: *您是否有理由在小 N 條件下進(jìn)行推論? *模擬有助于您決定在這些環(huán)境下獲得什么推論嗎?
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
在AI滲透率超85%的2025年,企業(yè)生存之戰(zhàn)就是數(shù)據(jù)之戰(zhàn),CDA認(rèn)證已成為決定企業(yè)存續(xù)的生死線!據(jù)麥肯錫全球研究院數(shù)據(jù)顯示,AI驅(qū) ...
2025-07-2035歲焦慮像一把高懸的利刃,裁員潮、晉升無(wú)望、技能過(guò)時(shí)……當(dāng)職場(chǎng)中年危機(jī)與數(shù)字化浪潮正面交鋒,你是否發(fā)現(xiàn): 簡(jiǎn)歷投了10 ...
2025-07-20CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘?chǎng)或是在職場(chǎng)正面臨崗位替代、技能更新、人機(jī)協(xié)作等焦慮的打工人,想要找到一條破解職場(chǎng)焦慮和升職瓶頸的系統(tǒng)化學(xué)習(xí)提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價(jià)值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時(shí)代的價(jià)值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競(jìng)爭(zhēng)力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過(guò)程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實(shí)現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫(kù)管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價(jià)值的橋梁? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細(xì)化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對(duì)這樣的場(chǎng)景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時(shí)代的通行證? 在數(shù)字化浪潮席卷全球的今天,當(dāng)企業(yè)決策者盯著屏幕上跳動(dòng)的數(shù)據(jù)曲線尋找增長(zhǎng)密碼,當(dāng)科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)的實(shí)戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項(xiàng)” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實(shí)踐 在 MySQL 數(shù)據(jù)庫(kù)表結(jié)構(gòu)設(shè)計(jì)中,索引是提升查詢性能的核心手段。無(wú)論 ...
2025-07-16解析 MySQL Update 語(yǔ)句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫(kù)的日常運(yùn)維與開發(fā)中,開發(fā)者和 DBA 常會(huì) ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無(wú)外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫(kù)的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場(chǎng)景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對(duì)海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫(kù)操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問(wèn)題時(shí)有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14