
R描述性統(tǒng)計(jì)分析
概念
數(shù)據(jù)摘要,有損地提取數(shù)據(jù)特征的過程,包含基本統(tǒng)計(jì),分布/累計(jì)統(tǒng)計(jì),數(shù)據(jù)特征(相關(guān)性,周期性等),數(shù)據(jù)挖掘
數(shù)據(jù)有很多變量和觀測(cè)值,可以用一些簡(jiǎn)單表格,圖形和少數(shù)匯總數(shù)字來描述。這些描述方法被稱為描述統(tǒng)計(jì)學(xué),也稱為探索性數(shù)據(jù)分析(EDA,exploratory data analysis)
描述統(tǒng)計(jì)目的在于幫助展示和理解數(shù)據(jù)。
數(shù)據(jù)作為信息的載體,要分析數(shù)據(jù)中包含的主要信息,即要分析數(shù)據(jù)的主要特征。也就是說,要研究數(shù)據(jù)的數(shù)字特征,包括集中位置(集中趨勢(shì)),分散程度(離中趨勢(shì))和數(shù)據(jù)分布(偏態(tài)和峰態(tài))
集中趨勢(shì)從數(shù)據(jù)中選‘典型代表’,‘代表是否夠典型’由離散程度檢驗(yàn)
位置的度量
有些匯總統(tǒng)計(jì)量是描述數(shù)據(jù)“位置”的。其實(shí)數(shù)據(jù)的每個(gè)點(diǎn)都有自己的位置,不可能一一列舉;能做到描述數(shù)據(jù)的“中間”或“中心”在哪里;所謂位置的度量就是用來描述定量資料的集中趨勢(shì)的統(tǒng)計(jì)量,集中趨勢(shì),一組數(shù)據(jù)向著一個(gè)中心靠攏的程度,也體現(xiàn)了數(shù)據(jù)中心所在的位置
均值
R語言函數(shù)及格式:mean(x,trim=0,na.rm=FALSE),x是對(duì)象,如向量,矩陣,數(shù)組或數(shù)據(jù)框
-
當(dāng)mean作用于矩陣或數(shù)值型數(shù)據(jù)框時(shí),返回為一個(gè)值即所有數(shù)值的平均值;若想按行或列計(jì)算均值:apply(data,1,mean),行1列2;或采用colMeans(data),rowMeans(iris[,1:
3])等價(jià)于apply(iris[,1:3],2,mean)
-
trim參數(shù),異常值:當(dāng)研究的數(shù)據(jù)中存在異常值時(shí),可以通過設(shè)置trim參數(shù)來調(diào)整納入計(jì)算的樣本數(shù)據(jù)來剔除異常值后再計(jì)算均值;trim取值范圍0到0.5,表示在計(jì)算均值前需要去掉異常值的比例(個(gè)數(shù)length(data)*trim);trim參數(shù)是對(duì)排序后的數(shù)據(jù)從頭到尾剔除相同個(gè)數(shù)元素再求均值的。
- na.rm,設(shè)置缺失值NA,當(dāng)數(shù)據(jù)中有缺失值時(shí)需要將na.rm設(shè)置為TRUE
- weighted.mean(),對(duì)矩陣和數(shù)組計(jì)算加權(quán)平均值,對(duì)數(shù)據(jù)框并不適用;格式為weighted.mean(x,wt,na.rm=FALSE),wt為權(quán)重向量與x同維度,與時(shí)間相關(guān)的模型比較常用
幾何平均數(shù):N個(gè)變量值乘積的N次方根,主要用于計(jì)算平均增長(zhǎng)率,比率
年收益率分別是,4.5%,2.1%,平均增長(zhǎng)率是多少?104.5*102.1-100,然后再開方
sort(data):輸出排序后的元素
order(data):輸出排序后的位置
dput(data):一個(gè)神奇的函數(shù),輸出向量格式,可直接復(fù)制
被濫用的均值
非單峰分布不應(yīng)使用,嬰兒和父母的平均身高加一起就是兩不靠
極值的影響
簡(jiǎn)單的算術(shù)平均,增益率等不適合
中位數(shù)
中位數(shù)描述數(shù)據(jù)中心位置的數(shù)字特征,對(duì)于對(duì)稱分布的數(shù)據(jù),均值與中位數(shù)比較靠近;對(duì)于偏態(tài)分布的數(shù)據(jù),均值與中位數(shù)不同;中位數(shù)的一個(gè)顯著特征是不受異常值的影響,具有穩(wěn)健性,因此是非常重要的統(tǒng)計(jì)量
median(x,na.rm=FALSE)函數(shù)進(jìn)行中位數(shù),要是有缺失值需要將na.rm設(shè)置為TRUE,sort()函數(shù)
眾數(shù)(離散變量)和分位數(shù)
眾數(shù)不受極端值的影響,如果數(shù)據(jù)沒有明顯的集中趨勢(shì),那么眾數(shù)可能不存在;也可能有兩個(gè)最高峰點(diǎn),那么就有兩個(gè)眾數(shù)。眾數(shù)適用于數(shù)據(jù)量較多,并且數(shù)據(jù)分布偏斜程度較大有明顯峰值時(shí)
R里面竟然沒有找眾數(shù)的函數(shù)。。。。。
百分位數(shù):是中位數(shù)的推廣;p分位數(shù)又稱為100p百分位數(shù),0.5分位數(shù)就是中位數(shù),0.75分位數(shù)與0.25分位數(shù)(第75百分位數(shù)與第25百分位數(shù))比較重要,分別稱為上下百分四位數(shù),分別記為Q3,Q1
quantile()函數(shù)計(jì)算觀測(cè)百分位數(shù)
quantile(x,probs=seq(0,1,0.25),na.rm=FALSE,),seq()產(chǎn)生等差數(shù)列
離散程度的測(cè)量
離散程度
一組數(shù)據(jù)原理其中心的程度
-一組變異指標(biāo),主要用來刻畫總體分布的變異狀況或離散程度
- 數(shù)據(jù)分布的離散程度主要靠極差,四分差,平均差,方差,標(biāo)準(zhǔn)差等統(tǒng)計(jì)指標(biāo)來度量
- 離散程度分析的主要作用有:1)衡量平均指標(biāo)的代表性;2)反映社會(huì)經(jīng)濟(jì)活動(dòng)的均衡性;3)研究總體標(biāo)志值分布偏離正態(tài)分布的情況;4)抽樣推斷統(tǒng)計(jì)等分析的一個(gè)基本指標(biāo)
極差
樣本中兩個(gè)極端值之差,也稱全距。數(shù)據(jù)越分散,極差越大
R=xmax?xmin
極差只利用了數(shù)據(jù)兩端的信息,容易受極端值的影響,并沒有充分利用數(shù)列的信息
R代碼:range(data)[2]-range(data)[1] 或者 max(data)-min(data) 或者 diff(range(data))
平均差
各變量與均值差的平均數(shù),即平均差異,反應(yīng)一組數(shù)據(jù)的離散程度
數(shù)學(xué)性質(zhì)差(不能求導(dǎo)),未考慮數(shù)值分布
四分位差
兩個(gè)四分位點(diǎn)之差,反應(yīng)了中間50%數(shù)據(jù)的離散程度,其數(shù)值越小,說明數(shù)值越集中.
Qd=Ql?Qu
對(duì)數(shù)據(jù)掐頭去尾,避免了極端值的影響,但沒有充分利用數(shù)據(jù)信息
R代碼:IQR(data) 或者quantile(data)獲取各分位數(shù)據(jù)相減
方差與標(biāo)準(zhǔn)差
描述離散程度,最常用的指標(biāo),它們利用了樣本的全部信息去描述數(shù)據(jù)取值的分散性。方差是各樣本相對(duì)均值的偏差平方和的平均,計(jì)為s2
R語言:方差var(x,na.rm=FALSE,use),標(biāo)準(zhǔn)差:sd(x,na.rm = FALSE), 兩者是sqrt()關(guān)系
cov()協(xié)方差矩陣;cor()相關(guān)矩陣
Z分?jǐn)?shù),數(shù)據(jù)標(biāo)準(zhǔn)化
變異系數(shù)
一組數(shù)據(jù)的標(biāo)準(zhǔn)差與平均數(shù)之比,成為變異系數(shù),也叫離散系數(shù)
它是刻畫數(shù)據(jù)相對(duì)分散性的一種度量,記為CV
相對(duì)的,去除了單位的影響,是無量綱統(tǒng)計(jì)量,用百分號(hào)表示。在實(shí)際應(yīng)用中可以消除由于不同計(jì)量單位/不同平均水平所產(chǎn)生的影響
CV<-paste(round(100*sd(iris[,3])/mean(iris[,3]),2),'%',sep='')
1
偏度(Skewness)
描述某變量取值分布對(duì)稱性,是三階矩。
左偏分布<0,數(shù)據(jù)左側(cè)有一個(gè)大尾巴,概率密度函數(shù)中,有很多極小值,均值往左邊跑,均值小于中位數(shù)
右偏分布>0,數(shù)據(jù)右側(cè)有一個(gè)大尾巴
對(duì)稱分布=0
峰度(Kurtosis)
描述某變量所有取值分布形態(tài)陡峭程度,正態(tài)分布之間的較量,標(biāo)準(zhǔn)正態(tài)分布的峰度值是3
- 正態(tài)分布(0/3)
- 尖頂峰(>0/3)
- 平頂峰(<0/3)
其他分散程度度量
css,校正平方和
uss,未校正平方和
描述性統(tǒng)計(jì)量函數(shù)
基礎(chǔ)包 summary()
應(yīng)用于數(shù)值型變量將分別得到位置度量指標(biāo),即最小值min,上四分位數(shù)1st Qu,中位數(shù)median,下四分位數(shù)3rd Qu,最大值max;
當(dāng)應(yīng)用于因子型/邏輯型向量得到頻數(shù)統(tǒng)計(jì)
Hmisc包中的describe()函數(shù)
可獲取缺失情況,唯一值,各個(gè)詳細(xì)的分位數(shù),位置度量
pasteccs包中的stat.desc()函數(shù)
對(duì)數(shù)值型變量進(jìn)行統(tǒng)計(jì)分析
使用格式為stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95),basic=TRUE設(shè)置一些基礎(chǔ)統(tǒng)計(jì)參數(shù)展示,desc可設(shè)置一些描述性統(tǒng)計(jì)數(shù)值的展示.desc包含中位數(shù)/平均數(shù)/平均數(shù)的標(biāo)準(zhǔn)誤/平均置信度為95%的置信區(qū)間/方差/標(biāo)準(zhǔn)差/變異系數(shù)。
當(dāng)將norm設(shè)置為TRUE時(shí),則返回正態(tài)分布統(tǒng)計(jì)量,包括偏度和峰度(以及它們的統(tǒng)計(jì)顯著程度)和Shapiro-Wilk正態(tài)檢驗(yàn)結(jié)果。
這里使用了p值來計(jì)算平均數(shù)的置信區(qū)間,默認(rèn)置信度為0.95
psych包describe()函數(shù)
可以計(jì)算非缺失值的數(shù)量,標(biāo)準(zhǔn)差,截尾均數(shù),絕對(duì)中位差,偏度等統(tǒng)計(jì)量。
偏態(tài)和峰態(tài)
反應(yīng)總體分布形態(tài)的指標(biāo),偏態(tài)(數(shù)據(jù)分布不對(duì)稱的方向和程度),峰態(tài)(數(shù)據(jù)分布圖形的尖峭程度或扁平程度)
分組計(jì)算描述統(tǒng)計(jì)量
在比較多組個(gè)體或觀測(cè)時(shí),關(guān)注焦點(diǎn)通常是各組描述性統(tǒng)計(jì)信息,而不是樣本整體的描述性統(tǒng)計(jì)信息,在R中主要有三種方法可以實(shí)現(xiàn):
- aggregate():分組獲取描述性統(tǒng)計(jì)量,可對(duì)單組或多組變量進(jìn)行分組統(tǒng)計(jì),by的變量一定要是list格式要不會(huì)報(bào)錯(cuò)~按照單變量分組
按照兩個(gè)變量作為分組,且對(duì)不給list命名即不寫‘a(chǎn)m=’,跑出來的結(jié)果分組將會(huì)是Group1這種不友好的展示界面
aggregate()函數(shù)的另一種寫法,寫成公式發(fā)~分開
doBy包-summaryBy()函數(shù)波浪線左側(cè)為需要分析的數(shù)值型變量,右邊為類別型分組變量;其中data=及FUN=不可省略不寫;FUN可為自定義變量,自定義函數(shù)時(shí)記得為函數(shù)起名字在展示時(shí)清楚
psych包中-describe.by()函數(shù)具體參數(shù)可看R幫助文檔?describe.by()
列聯(lián)表 (頻數(shù)表)
類似excel的數(shù)據(jù)透視表
table(var1,var2…,varN):使用N個(gè)類別型變量(因子)創(chuàng)建一個(gè)N維列聯(lián)表
- xtabs(formula,data):xtabs(~A+B,data=mydata)
根據(jù)一個(gè)公式和一個(gè)矩陣或數(shù)據(jù)框創(chuàng)建一個(gè)N維列聯(lián)表;要進(jìn)行交叉分類的變量應(yīng)出現(xiàn)在公式的右側(cè),以+作為分隔符。若某個(gè)變量寫在公式的左側(cè),則其為一個(gè)頻數(shù)向量(在數(shù)據(jù)已經(jīng)被表格格式化時(shí)很有用)
prop.table(table,margins):依m(xù)argins定義的邊際列表將表中條目表示為分?jǐn)?shù)形式
margin.table(table,margins):依m(xù)argins定義的邊際列表計(jì)算表中條目的和,邊界求和,margin=1對(duì)行求和,不寫總體求和
addmargins(table,margins):將概述邊margins(默認(rèn)是求和結(jié)果)放入表中,margin控制加行/列的和,實(shí)現(xiàn)和excel一樣的透視表
ftable(table):創(chuàng)建一個(gè)緊湊的“平鋪”式列聯(lián)表
相關(guān)性分析
相關(guān)系數(shù)可以用來描述定量變量之間的關(guān)系。相關(guān)系數(shù)的符號(hào)(+,-)表明關(guān)系的方向(正相關(guān)或負(fù)相關(guān)),其值的大小表明關(guān)系的強(qiáng)弱程度(完全不相關(guān)為0,完全相關(guān)為1);相關(guān)的類型,R可計(jì)算多種相關(guān)系數(shù),包括Pearson相關(guān)系數(shù)(兩個(gè)變量之間的線形相關(guān)程度),Spearman相關(guān)系數(shù)(分級(jí)定序變量之間的相關(guān)程度),Kendall相關(guān)系數(shù)(非參數(shù)的等級(jí)相關(guān)度量),偏相關(guān)系數(shù),多分格(polychoric)相關(guān)系數(shù)和多系列(polyserial)相關(guān)系數(shù)。
散點(diǎn)圖,在數(shù)據(jù)量比較少時(shí),可以用散點(diǎn)圖觀察變量之間的關(guān)系
** cor()函數(shù)可以計(jì)算這三種相關(guān)系數(shù),**cov()可以用來計(jì)算協(xié)方差。cor(x,use=,method=),use指定缺失值處理方式,method,指定相關(guān)系數(shù)的類型,可選類型為pearson,spearman或kendall。默認(rèn)設(shè)置為everything和pearson
顯著性檢驗(yàn),cor.test(),來檢驗(yàn)相關(guān)性的顯著水平,cor只是計(jì)算相關(guān)性程度但沒有檢驗(yàn)其顯著水平
缺失值處理可選為:all.obs,假設(shè)不存在缺失數(shù)據(jù),遇到缺失數(shù)據(jù)時(shí)將報(bào)錯(cuò);everything,遇到缺失值時(shí),相關(guān)系數(shù)的計(jì)算結(jié)果被置為missing;complete.obs,行刪除;pairwise.complete.obs,成對(duì)刪除
psych包中的corr.test()函數(shù):可以一次為pearson,Spearman,Kendall相關(guān)計(jì)算相關(guān)矩陣和顯著性水平。
雙向交叉表(列聯(lián)表gmodels-crossTable()):表格中每個(gè)單元格內(nèi)數(shù)量不同是由于悠然的可能性有多大
皮爾森卡方獨(dú)立性檢驗(yàn):看一個(gè)變量的值是如何隨著另一個(gè)值的變化而變化的
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03