
利用Stata進(jìn)行概要統(tǒng)計(jì)及交互表統(tǒng)計(jì)
【命令范式】
summarize y1 y2 y3 對所列變量計(jì)算簡單的概要統(tǒng)計(jì)量
summarize y1 y2 y3, detail 獲取詳細(xì)的描述性統(tǒng)計(jì),包括百分位數(shù),中位數(shù),平均數(shù),標(biāo)準(zhǔn)差,方差,偏度,峰度等。
summarize y1 if x1>3 & x2<.
summarize y1 [fweight=w], detail 利用w作為加權(quán)變量進(jìn)行頻數(shù)加權(quán),計(jì)算y1詳細(xì)的概要統(tǒng)計(jì)量
tabstat y1, stats(mean, sd, skewness, kurtosis) by(x1) 按變量x1的每個(gè)類別,分別計(jì)算變量y1的具體指定的概要統(tǒng)計(jì)量
tabulate x1, sort miss 顯示x1所有值的頻數(shù)分,包括缺失值。按順序從大到小對行(變量值)進(jìn)行排序。
tab1 x1 x2 x3 x4 對所列變量分別創(chuàng)建頻數(shù)分布表
tabulate x1 x2 顯示一個(gè)兩變量交互表,其中x1為行變量,x2為列變量
tab2 x1 x2 x3 x4 創(chuàng)建所列變量的所有可能的二維交互表
tabulate x1, summ(y) 創(chuàng)建一個(gè)二維表,顯示x1每個(gè)類別中變量y的均值、標(biāo)準(zhǔn)差及頻數(shù) tabulate x1 x3, sum(y) means 創(chuàng)建一個(gè)二維表,顯示x1,x2每一種組合下y的均值
by x3, sort: tabulate x1 x2, exact 創(chuàng)建一個(gè)三維交互表,在x3的每個(gè)取值下創(chuàng)建x1(行)和x2(列)的分表,并為每個(gè)分表計(jì)算費(fèi)舍精確檢驗(yàn),命令by x3, sort為x3排序
table x1 x2, contents(mean y1 median y2) 創(chuàng)建x1(行),x2(列)的二維交互表,單元格包含y1的平均數(shù)和y2的中位數(shù)
svy: tab y, percent ci 使用調(diào)查加權(quán)的數(shù)據(jù),獲得變量y的一維百分比表以及95%的置信區(qū)間。ci計(jì)算置信區(qū)間,默認(rèn)為95%。后可添加level(a)設(shè)定置信區(qū)間a%
與ci相關(guān)的一個(gè)命令是cii,它可以直接根據(jù)概要統(tǒng)計(jì)量,來計(jì)算正態(tài)分布、二項(xiàng)分布或泊松分布的置信區(qū)間。它并不需要原始數(shù)據(jù)。
svy: tab y x, column percent 使用調(diào)查加權(quán)的數(shù)據(jù),獲得一個(gè)行變量y對列變量x的二維交互表,并對其狡辯性進(jìn)行調(diào)整的卡方檢驗(yàn)。單元格中給出了加權(quán)的列百分比。
【探測性數(shù)據(jù)分析】:
stem x1, lines(*) 對變量x1的所有觀測值進(jìn)行莖葉圖處理lines限定了莖葉表達(dá)形式:首位數(shù)相同的開頭共*行
lv x2 字符數(shù)值表利用序次統(tǒng)計(jì)量來分解一個(gè)分布。
【正態(tài)性檢驗(yàn)和數(shù)據(jù)轉(zhuǎn)換】:
sktest x1 正態(tài)性檢驗(yàn)(偏度與峰度)
ladder x1 這個(gè)命令把冪階梯和sktest的正態(tài)性檢驗(yàn)結(jié)合在一起。它對階梯上的每一種冪進(jìn)行嘗試并報(bào)告其結(jié)果是否顯著地非正態(tài)。
gladder x1 該命令將每一種轉(zhuǎn)換的直方圖與正態(tài)曲線加以比較
qladder x1 四分位階梯命令
(可鍵入help ladder查看詳細(xì))
【頻數(shù)表和二維交互表】:
tabulate 有許多對創(chuàng)建二維表非常有用的選項(xiàng),包括:
cell 顯示每個(gè)單元格的總百分比
chi2對行變量和列變量獨(dú)立的假設(shè)進(jìn)行皮爾遜卡方檢驗(yàn)
column 顯示每個(gè)單元格的列百分比
exact 獨(dú)立性假設(shè)的費(fèi)舍精確檢驗(yàn)
expected 顯示獨(dú)立性假定下二維表每個(gè)單元格內(nèi)的期望頻數(shù)
generate(new) 創(chuàng)造一組名為new1, new2 等的虛擬變量來代表被列表變量的取值
lrchi2 對獨(dú)立性假設(shè)的似然比卡方檢驗(yàn)。如果表格包含任何的空單元格,就得不到結(jié)果 missing 把缺失值也作為表的一行或一列
nofreq 不顯示單元格頻數(shù)
nolabel 顯示數(shù)值而不是添加了標(biāo)簽的數(shù)值變量的取值標(biāo)簽
row 顯示每個(gè)單元格的行百分比
tabi 偶爾我們可能需要在沒有獲得原始數(shù)據(jù)的情況下對已發(fā)表的表格重新進(jìn)行分析,專門的命令tabi(直接制表)可以完成這項(xiàng)工作
【多表和多維交互表】:
tab1 x1 x2 x3 x4 對所列變量分別創(chuàng)建頻數(shù)分布表
tab2 x1 x2 x3 x4 創(chuàng)建所列變量的所有可能的二維交互表
by x1, sort: tabulate x2 x3, nofreq col chi2 三維列聯(lián)表,并對x1每一取值水平內(nèi)x2,x3的獨(dú)立性進(jìn)行卡方檢驗(yàn)
by x1 x2, sort: tabulate x3 x4, column chi2 四維交互表
table x1, contents(freq) 創(chuàng)建x1的簡單的頻數(shù)分布表
table x1 x2, contents(freq) by(x3)創(chuàng)建一個(gè)二維頻數(shù)表或交互表,并通過x3分組 table 的contents()選項(xiàng)設(shè)定表格單元格要包含什么統(tǒng)計(jì)量
contents(freq) 頻數(shù)
contents(mean x1) x1的平均數(shù)
contents(count x1) x1的非缺失值觀測案例的計(jì)數(shù)
contents(p1 x1) x1的第1百分位數(shù)
【平均數(shù)、中位數(shù)以及其他概要統(tǒng)計(jì)量的列表】:
tabulate 能夠很容易地創(chuàng)建分類變量每一類別的平均數(shù)和標(biāo)準(zhǔn)差的列表。比如,如果要列出x1每一類別內(nèi)x2的平均值,鍵入:tabulate x1, sum(x2)
創(chuàng)建一個(gè)平均值的二維表: tabulate x1 x2, sum(x3) means
table不能進(jìn)行統(tǒng)計(jì)檢驗(yàn),但它能很好地創(chuàng)建多達(dá)七維的包含平均數(shù)、標(biāo)準(zhǔn)差、總和等統(tǒng)計(jì)量的表格。
table x1, contents(mean x2) x1的一維表格,含有x1每一類別下x2的平均值
table x1 x2, contents(mean x3 median x3)
summarize, tabulate, table 以及其他相關(guān)命令都可以和標(biāo)示重復(fù)觀測數(shù)目的頻數(shù)權(quán)數(shù)frequency weight 一起使用。
tabulate x1 x2 [fweight=count] (,column nof)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10