
R描述性統(tǒng)計分析
概念
數(shù)據(jù)摘要,有損地提取數(shù)據(jù)特征的過程,包含基本統(tǒng)計,分布/累計統(tǒng)計,數(shù)據(jù)特征(相關(guān)性,周期性等),數(shù)據(jù)挖掘
數(shù)據(jù)有很多變量和觀測值,可以用一些簡單表格,圖形和少數(shù)匯總數(shù)字來描述。這些描述方法被稱為描述統(tǒng)計學(xué),也稱為探索性數(shù)據(jù)分析(EDA,exploratory data analysis)
描述統(tǒng)計目的在于幫助展示和理解數(shù)據(jù)。
數(shù)據(jù)作為信息的載體,要分析數(shù)據(jù)中包含的主要信息,即要分析數(shù)據(jù)的主要特征。也就是說,要研究數(shù)據(jù)的數(shù)字特征,包括集中位置(集中趨勢),分散程度(離中趨勢)和數(shù)據(jù)分布(偏態(tài)和峰態(tài))
集中趨勢從數(shù)據(jù)中選‘典型代表’,‘代表是否夠典型’由離散程度檢驗
位置的度量
有些匯總統(tǒng)計量是描述數(shù)據(jù)“位置”的。其實數(shù)據(jù)的每個點都有自己的位置,不可能一一列舉;能做到描述數(shù)據(jù)的“中間”或“中心”在哪里;所謂位置的度量就是用來描述定量資料的集中趨勢的統(tǒng)計量,集中趨勢,一組數(shù)據(jù)向著一個中心靠攏的程度,也體現(xiàn)了數(shù)據(jù)中心所在的位置
均值
R語言函數(shù)及格式:mean(x,trim=0,na.rm=FALSE),x是對象,如向量,矩陣,數(shù)組或數(shù)據(jù)框
-
當(dāng)mean作用于矩陣或數(shù)值型數(shù)據(jù)框時,返回為一個值即所有數(shù)值的平均值;若想按行或列計算均值:apply(data,1,mean),行1列2;或采用colMeans(data),rowMeans(iris[,1:
3])等價于apply(iris[,1:3],2,mean)
-
trim參數(shù),異常值:當(dāng)研究的數(shù)據(jù)中存在異常值時,可以通過設(shè)置trim參數(shù)來調(diào)整納入計算的樣本數(shù)據(jù)來剔除異常值后再計算均值;trim取值范圍0到0.5,表示在計算均值前需要去掉異常值的比例(個數(shù)length(data)*trim);trim參數(shù)是對排序后的數(shù)據(jù)從頭到尾剔除相同個數(shù)元素再求均值的。
- na.rm,設(shè)置缺失值NA,當(dāng)數(shù)據(jù)中有缺失值時需要將na.rm設(shè)置為TRUE
- weighted.mean(),對矩陣和數(shù)組計算加權(quán)平均值,對數(shù)據(jù)框并不適用;格式為weighted.mean(x,wt,na.rm=FALSE),wt為權(quán)重向量與x同維度,與時間相關(guān)的模型比較常用
幾何平均數(shù):N個變量值乘積的N次方根,主要用于計算平均增長率,比率
年收益率分別是,4.5%,2.1%,平均增長率是多少?104.5*102.1-100,然后再開方
sort(data):輸出排序后的元素
order(data):輸出排序后的位置
dput(data):一個神奇的函數(shù),輸出向量格式,可直接復(fù)制
被濫用的均值
非單峰分布不應(yīng)使用,嬰兒和父母的平均身高加一起就是兩不靠
極值的影響
簡單的算術(shù)平均,增益率等不適合
中位數(shù)
中位數(shù)描述數(shù)據(jù)中心位置的數(shù)字特征,對于對稱分布的數(shù)據(jù),均值與中位數(shù)比較靠近;對于偏態(tài)分布的數(shù)據(jù),均值與中位數(shù)不同;中位數(shù)的一個顯著特征是不受異常值的影響,具有穩(wěn)健性,因此是非常重要的統(tǒng)計量
median(x,na.rm=FALSE)函數(shù)進行中位數(shù),要是有缺失值需要將na.rm設(shè)置為TRUE,sort()函數(shù)
眾數(shù)(離散變量)和分位數(shù)
眾數(shù)不受極端值的影響,如果數(shù)據(jù)沒有明顯的集中趨勢,那么眾數(shù)可能不存在;也可能有兩個最高峰點,那么就有兩個眾數(shù)。眾數(shù)適用于數(shù)據(jù)量較多,并且數(shù)據(jù)分布偏斜程度較大有明顯峰值時
R里面竟然沒有找眾數(shù)的函數(shù)。。。。。
百分位數(shù):是中位數(shù)的推廣;p分位數(shù)又稱為100p百分位數(shù),0.5分位數(shù)就是中位數(shù),0.75分位數(shù)與0.25分位數(shù)(第75百分位數(shù)與第25百分位數(shù))比較重要,分別稱為上下百分四位數(shù),分別記為Q3,Q1
quantile()函數(shù)計算觀測百分位數(shù)
quantile(x,probs=seq(0,1,0.25),na.rm=FALSE,),seq()產(chǎn)生等差數(shù)列
離散程度的測量
離散程度
一組數(shù)據(jù)原理其中心的程度
-一組變異指標(biāo),主要用來刻畫總體分布的變異狀況或離散程度
- 數(shù)據(jù)分布的離散程度主要靠極差,四分差,平均差,方差,標(biāo)準(zhǔn)差等統(tǒng)計指標(biāo)來度量
- 離散程度分析的主要作用有:1)衡量平均指標(biāo)的代表性;2)反映社會經(jīng)濟活動的均衡性;3)研究總體標(biāo)志值分布偏離正態(tài)分布的情況;4)抽樣推斷統(tǒng)計等分析的一個基本指標(biāo)
極差
樣本中兩個極端值之差,也稱全距。數(shù)據(jù)越分散,極差越大
R=xmax?xmin
極差只利用了數(shù)據(jù)兩端的信息,容易受極端值的影響,并沒有充分利用數(shù)列的信息
R代碼:range(data)[2]-range(data)[1] 或者 max(data)-min(data) 或者 diff(range(data))
平均差
各變量與均值差的平均數(shù),即平均差異,反應(yīng)一組數(shù)據(jù)的離散程度
數(shù)學(xué)性質(zhì)差(不能求導(dǎo)),未考慮數(shù)值分布
四分位差
兩個四分位點之差,反應(yīng)了中間50%數(shù)據(jù)的離散程度,其數(shù)值越小,說明數(shù)值越集中.
Qd=Ql?Qu
對數(shù)據(jù)掐頭去尾,避免了極端值的影響,但沒有充分利用數(shù)據(jù)信息
R代碼:IQR(data) 或者quantile(data)獲取各分位數(shù)據(jù)相減
方差與標(biāo)準(zhǔn)差
描述離散程度,最常用的指標(biāo),它們利用了樣本的全部信息去描述數(shù)據(jù)取值的分散性。方差是各樣本相對均值的偏差平方和的平均,計為s2
R語言:方差var(x,na.rm=FALSE,use),標(biāo)準(zhǔn)差:sd(x,na.rm = FALSE), 兩者是sqrt()關(guān)系
cov()協(xié)方差矩陣;cor()相關(guān)矩陣
Z分?jǐn)?shù),數(shù)據(jù)標(biāo)準(zhǔn)化
變異系數(shù)
一組數(shù)據(jù)的標(biāo)準(zhǔn)差與平均數(shù)之比,成為變異系數(shù),也叫離散系數(shù)
它是刻畫數(shù)據(jù)相對分散性的一種度量,記為CV
相對的,去除了單位的影響,是無量綱統(tǒng)計量,用百分號表示。在實際應(yīng)用中可以消除由于不同計量單位/不同平均水平所產(chǎn)生的影響
CV<-paste(round(100*sd(iris[,3])/mean(iris[,3]),2),'%',sep='')
1
偏度(Skewness)
描述某變量取值分布對稱性,是三階矩。
左偏分布<0,數(shù)據(jù)左側(cè)有一個大尾巴,概率密度函數(shù)中,有很多極小值,均值往左邊跑,均值小于中位數(shù)
右偏分布>0,數(shù)據(jù)右側(cè)有一個大尾巴
對稱分布=0
峰度(Kurtosis)
描述某變量所有取值分布形態(tài)陡峭程度,正態(tài)分布之間的較量,標(biāo)準(zhǔn)正態(tài)分布的峰度值是3
- 正態(tài)分布(0/3)
- 尖頂峰(>0/3)
- 平頂峰(<0/3)
其他分散程度度量
css,校正平方和
uss,未校正平方和
描述性統(tǒng)計量函數(shù)
基礎(chǔ)包 summary()
應(yīng)用于數(shù)值型變量將分別得到位置度量指標(biāo),即最小值min,上四分位數(shù)1st Qu,中位數(shù)median,下四分位數(shù)3rd Qu,最大值max;
當(dāng)應(yīng)用于因子型/邏輯型向量得到頻數(shù)統(tǒng)計
Hmisc包中的describe()函數(shù)
可獲取缺失情況,唯一值,各個詳細(xì)的分位數(shù),位置度量
pasteccs包中的stat.desc()函數(shù)
對數(shù)值型變量進行統(tǒng)計分析
使用格式為stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95),basic=TRUE設(shè)置一些基礎(chǔ)統(tǒng)計參數(shù)展示,desc可設(shè)置一些描述性統(tǒng)計數(shù)值的展示.desc包含中位數(shù)/平均數(shù)/平均數(shù)的標(biāo)準(zhǔn)誤/平均置信度為95%的置信區(qū)間/方差/標(biāo)準(zhǔn)差/變異系數(shù)。
當(dāng)將norm設(shè)置為TRUE時,則返回正態(tài)分布統(tǒng)計量,包括偏度和峰度(以及它們的統(tǒng)計顯著程度)和Shapiro-Wilk正態(tài)檢驗結(jié)果。
這里使用了p值來計算平均數(shù)的置信區(qū)間,默認(rèn)置信度為0.95
psych包describe()函數(shù)
可以計算非缺失值的數(shù)量,標(biāo)準(zhǔn)差,截尾均數(shù),絕對中位差,偏度等統(tǒng)計量。
偏態(tài)和峰態(tài)
反應(yīng)總體分布形態(tài)的指標(biāo),偏態(tài)(數(shù)據(jù)分布不對稱的方向和程度),峰態(tài)(數(shù)據(jù)分布圖形的尖峭程度或扁平程度)
分組計算描述統(tǒng)計量
在比較多組個體或觀測時,關(guān)注焦點通常是各組描述性統(tǒng)計信息,而不是樣本整體的描述性統(tǒng)計信息,在R中主要有三種方法可以實現(xiàn):
- aggregate():分組獲取描述性統(tǒng)計量,可對單組或多組變量進行分組統(tǒng)計,by的變量一定要是list格式要不會報錯~按照單變量分組
按照兩個變量作為分組,且對不給list命名即不寫‘a(chǎn)m=’,跑出來的結(jié)果分組將會是Group1這種不友好的展示界面
aggregate()函數(shù)的另一種寫法,寫成公式發(fā)~分開
doBy包-summaryBy()函數(shù)波浪線左側(cè)為需要分析的數(shù)值型變量,右邊為類別型分組變量;其中data=及FUN=不可省略不寫;FUN可為自定義變量,自定義函數(shù)時記得為函數(shù)起名字在展示時清楚
psych包中-describe.by()函數(shù)具體參數(shù)可看R幫助文檔?describe.by()
列聯(lián)表 (頻數(shù)表)
類似excel的數(shù)據(jù)透視表
table(var1,var2…,varN):使用N個類別型變量(因子)創(chuàng)建一個N維列聯(lián)表
- xtabs(formula,data):xtabs(~A+B,data=mydata)
根據(jù)一個公式和一個矩陣或數(shù)據(jù)框創(chuàng)建一個N維列聯(lián)表;要進行交叉分類的變量應(yīng)出現(xiàn)在公式的右側(cè),以+作為分隔符。若某個變量寫在公式的左側(cè),則其為一個頻數(shù)向量(在數(shù)據(jù)已經(jīng)被表格格式化時很有用)
prop.table(table,margins):依m(xù)argins定義的邊際列表將表中條目表示為分?jǐn)?shù)形式
margin.table(table,margins):依m(xù)argins定義的邊際列表計算表中條目的和,邊界求和,margin=1對行求和,不寫總體求和
addmargins(table,margins):將概述邊margins(默認(rèn)是求和結(jié)果)放入表中,margin控制加行/列的和,實現(xiàn)和excel一樣的透視表
ftable(table):創(chuàng)建一個緊湊的“平鋪”式列聯(lián)表
相關(guān)性分析
相關(guān)系數(shù)可以用來描述定量變量之間的關(guān)系。相關(guān)系數(shù)的符號(+,-)表明關(guān)系的方向(正相關(guān)或負(fù)相關(guān)),其值的大小表明關(guān)系的強弱程度(完全不相關(guān)為0,完全相關(guān)為1);相關(guān)的類型,R可計算多種相關(guān)系數(shù),包括Pearson相關(guān)系數(shù)(兩個變量之間的線形相關(guān)程度),Spearman相關(guān)系數(shù)(分級定序變量之間的相關(guān)程度),Kendall相關(guān)系數(shù)(非參數(shù)的等級相關(guān)度量),偏相關(guān)系數(shù),多分格(polychoric)相關(guān)系數(shù)和多系列(polyserial)相關(guān)系數(shù)。
散點圖,在數(shù)據(jù)量比較少時,可以用散點圖觀察變量之間的關(guān)系
** cor()函數(shù)可以計算這三種相關(guān)系數(shù),**cov()可以用來計算協(xié)方差。cor(x,use=,method=),use指定缺失值處理方式,method,指定相關(guān)系數(shù)的類型,可選類型為pearson,spearman或kendall。默認(rèn)設(shè)置為everything和pearson
顯著性檢驗,cor.test(),來檢驗相關(guān)性的顯著水平,cor只是計算相關(guān)性程度但沒有檢驗其顯著水平
缺失值處理可選為:all.obs,假設(shè)不存在缺失數(shù)據(jù),遇到缺失數(shù)據(jù)時將報錯;everything,遇到缺失值時,相關(guān)系數(shù)的計算結(jié)果被置為missing;complete.obs,行刪除;pairwise.complete.obs,成對刪除
psych包中的corr.test()函數(shù):可以一次為pearson,Spearman,Kendall相關(guān)計算相關(guān)矩陣和顯著性水平。
雙向交叉表(列聯(lián)表gmodels-crossTable()):表格中每個單元格內(nèi)數(shù)量不同是由于悠然的可能性有多大
皮爾森卡方獨立性檢驗:看一個變量的值是如何隨著另一個值的變化而變化的
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10