99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀R描述性統(tǒng)計(jì)分析
R描述性統(tǒng)計(jì)分析
2018-02-27
收藏

R描述性統(tǒng)計(jì)分析

概念

數(shù)據(jù)摘要,有損地提取數(shù)據(jù)特征的過程,包含基本統(tǒng)計(jì),分布/累計(jì)統(tǒng)計(jì),數(shù)據(jù)特征(相關(guān)性,周期性等),數(shù)據(jù)挖掘

數(shù)據(jù)有很多變量和觀測(cè)值,可以用一些簡(jiǎn)單表格,圖形和少數(shù)匯總數(shù)字來描述。這些描述方法被稱為描述統(tǒng)計(jì)學(xué),也稱為探索性數(shù)據(jù)分析(EDA,exploratory data analysis)

描述統(tǒng)計(jì)目的在于幫助展示和理解數(shù)據(jù)。

數(shù)據(jù)作為信息的載體,要分析數(shù)據(jù)中包含的主要信息,即要分析數(shù)據(jù)的主要特征。也就是說,要研究數(shù)據(jù)的數(shù)字特征,包括集中位置(集中趨勢(shì)),分散程度(離中趨勢(shì))和數(shù)據(jù)分布(偏態(tài)和峰態(tài))

集中趨勢(shì)從數(shù)據(jù)中選‘典型代表’,‘代表是否夠典型’由離散程度檢驗(yàn)

位置的度量

有些匯總統(tǒng)計(jì)量是描述數(shù)據(jù)“位置”的。其實(shí)數(shù)據(jù)的每個(gè)點(diǎn)都有自己的位置,不可能一一列舉;能做到描述數(shù)據(jù)的“中間”或“中心”在哪里;所謂位置的度量就是用來描述定量資料的集中趨勢(shì)的統(tǒng)計(jì)量,集中趨勢(shì),一組數(shù)據(jù)向著一個(gè)中心靠攏的程度,也體現(xiàn)了數(shù)據(jù)中心所在的位置

均值

R語言函數(shù)及格式:mean(x,trim=0,na.rm=FALSE),x是對(duì)象,如向量,矩陣,數(shù)組或數(shù)據(jù)框
- 當(dāng)mean作用于矩陣或數(shù)值型數(shù)據(jù)框時(shí),返回為一個(gè)值即所有數(shù)值的平均值;若想按行或列計(jì)算均值:apply(data,1,mean),行1列2;或采用colMeans(data),rowMeans(iris[,1: 3])等價(jià)于apply(iris[,1:3],2,mean)
- trim參數(shù),異常值:當(dāng)研究的數(shù)據(jù)中存在異常值時(shí),可以通過設(shè)置trim參數(shù)來調(diào)整納入計(jì)算的樣本數(shù)據(jù)來剔除異常值后再計(jì)算均值;trim取值范圍0到0.5,表示在計(jì)算均值前需要去掉異常值的比例(個(gè)數(shù)length(data)*trim);trim參數(shù)是對(duì)排序后的數(shù)據(jù)從頭到尾剔除相同個(gè)數(shù)元素再求均值的。
- na.rm,設(shè)置缺失值NA,當(dāng)數(shù)據(jù)中有缺失值時(shí)需要將na.rm設(shè)置為TRUE
- weighted.mean(),對(duì)矩陣和數(shù)組計(jì)算加權(quán)平均值,對(duì)數(shù)據(jù)框并不適用;格式為weighted.mean(x,wt,na.rm=FALSE),wt為權(quán)重向量與x同維度,與時(shí)間相關(guān)的模型比較常用

幾何平均數(shù):N個(gè)變量值乘積的N次方根,主要用于計(jì)算平均增長(zhǎng)率,比率

年收益率分別是,4.5%,2.1%,平均增長(zhǎng)率是多少?104.5*102.1-100,然后再開方
sort(data):輸出排序后的元素
order(data):輸出排序后的位置
dput(data):一個(gè)神奇的函數(shù),輸出向量格式,可直接復(fù)制

被濫用的均值

非單峰分布不應(yīng)使用,嬰兒和父母的平均身高加一起就是兩不靠

極值的影響

簡(jiǎn)單的算術(shù)平均,增益率等不適合

中位數(shù)

中位數(shù)描述數(shù)據(jù)中心位置的數(shù)字特征,對(duì)于對(duì)稱分布的數(shù)據(jù),均值與中位數(shù)比較靠近;對(duì)于偏態(tài)分布的數(shù)據(jù),均值與中位數(shù)不同;中位數(shù)的一個(gè)顯著特征是不受異常值的影響,具有穩(wěn)健性,因此是非常重要的統(tǒng)計(jì)量

median(x,na.rm=FALSE)函數(shù)進(jìn)行中位數(shù),要是有缺失值需要將na.rm設(shè)置為TRUE,sort()函數(shù)

眾數(shù)(離散變量)和分位數(shù)

眾數(shù)不受極端值的影響,如果數(shù)據(jù)沒有明顯的集中趨勢(shì),那么眾數(shù)可能不存在;也可能有兩個(gè)最高峰點(diǎn),那么就有兩個(gè)眾數(shù)。眾數(shù)適用于數(shù)據(jù)量較多,并且數(shù)據(jù)分布偏斜程度較大有明顯峰值時(shí)

R里面竟然沒有找眾數(shù)的函數(shù)。。。。。

百分位數(shù):是中位數(shù)的推廣;p分位數(shù)又稱為100p百分位數(shù),0.5分位數(shù)就是中位數(shù),0.75分位數(shù)與0.25分位數(shù)(第75百分位數(shù)與第25百分位數(shù))比較重要,分別稱為上下百分四位數(shù),分別記為Q3,Q1

quantile()函數(shù)計(jì)算觀測(cè)百分位數(shù)

quantile(x,probs=seq(0,1,0.25),na.rm=FALSE,),seq()產(chǎn)生等差數(shù)列

離散程度的測(cè)量

離散程度

一組數(shù)據(jù)原理其中心的程度
-一組變異指標(biāo),主要用來刻畫總體分布的變異狀況或離散程度
- 數(shù)據(jù)分布的離散程度主要靠極差,四分差,平均差,方差,標(biāo)準(zhǔn)差等統(tǒng)計(jì)指標(biāo)來度量
- 離散程度分析的主要作用有:1)衡量平均指標(biāo)的代表性;2)反映社會(huì)經(jīng)濟(jì)活動(dòng)的均衡性;3)研究總體標(biāo)志值分布偏離正態(tài)分布的情況;4)抽樣推斷統(tǒng)計(jì)等分析的一個(gè)基本指標(biāo)

極差

樣本中兩個(gè)極端值之差,也稱全距。數(shù)據(jù)越分散,極差越大

R=xmax?xmin

極差只利用了數(shù)據(jù)兩端的信息,容易受極端值的影響,并沒有充分利用數(shù)列的信息

R代碼:range(data)[2]-range(data)[1] 或者 max(data)-min(data) 或者 diff(range(data))

平均差

各變量與均值差的平均數(shù),即平均差異,反應(yīng)一組數(shù)據(jù)的離散程度

數(shù)學(xué)性質(zhì)差(不能求導(dǎo)),未考慮數(shù)值分布

四分位差

兩個(gè)四分位點(diǎn)之差,反應(yīng)了中間50%數(shù)據(jù)的離散程度,其數(shù)值越小,說明數(shù)值越集中.

Qd=Ql?Qu

對(duì)數(shù)據(jù)掐頭去尾,避免了極端值的影響,但沒有充分利用數(shù)據(jù)信息

R代碼:IQR(data) 或者quantile(data)獲取各分位數(shù)據(jù)相減

方差與標(biāo)準(zhǔn)差

描述離散程度,最常用的指標(biāo),它們利用了樣本的全部信息去描述數(shù)據(jù)取值的分散性。方差是各樣本相對(duì)均值的偏差平方和的平均,計(jì)為s2

R語言:方差var(x,na.rm=FALSE,use),標(biāo)準(zhǔn)差:sd(x,na.rm = FALSE), 兩者是sqrt()關(guān)系

cov()協(xié)方差矩陣;cor()相關(guān)矩陣

Z分?jǐn)?shù),數(shù)據(jù)標(biāo)準(zhǔn)化

變異系數(shù)

一組數(shù)據(jù)的標(biāo)準(zhǔn)差與平均數(shù)之比,成為變異系數(shù),也叫離散系數(shù)

它是刻畫數(shù)據(jù)相對(duì)分散性的一種度量,記為CV

相對(duì)的,去除了單位的影響,是無量綱統(tǒng)計(jì)量,用百分號(hào)表示。在實(shí)際應(yīng)用中可以消除由于不同計(jì)量單位/不同平均水平所產(chǎn)生的影響

CV<-paste(round(100*sd(iris[,3])/mean(iris[,3]),2),'%',sep='')

1

偏度(Skewness)

描述某變量取值分布對(duì)稱性,是三階矩。

左偏分布<0,數(shù)據(jù)左側(cè)有一個(gè)大尾巴,概率密度函數(shù)中,有很多極小值,均值往左邊跑,均值小于中位數(shù)

右偏分布>0,數(shù)據(jù)右側(cè)有一個(gè)大尾巴

對(duì)稱分布=0

峰度(Kurtosis)

描述某變量所有取值分布形態(tài)陡峭程度,正態(tài)分布之間的較量,標(biāo)準(zhǔn)正態(tài)分布的峰度值是3
- 正態(tài)分布(0/3)
- 尖頂峰(>0/3)
- 平頂峰(<0/3)

其他分散程度度量

css,校正平方和

uss,未校正平方和

描述性統(tǒng)計(jì)量函數(shù)

基礎(chǔ)包 summary()

應(yīng)用于數(shù)值型變量將分別得到位置度量指標(biāo),即最小值min,上四分位數(shù)1st Qu,中位數(shù)median,下四分位數(shù)3rd Qu,最大值max;

當(dāng)應(yīng)用于因子型/邏輯型向量得到頻數(shù)統(tǒng)計(jì)

Hmisc包中的describe()函數(shù)

可獲取缺失情況,唯一值,各個(gè)詳細(xì)的分位數(shù),位置度量

pasteccs包中的stat.desc()函數(shù)

對(duì)數(shù)值型變量進(jìn)行統(tǒng)計(jì)分析

使用格式為stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95),basic=TRUE設(shè)置一些基礎(chǔ)統(tǒng)計(jì)參數(shù)展示,desc可設(shè)置一些描述性統(tǒng)計(jì)數(shù)值的展示.desc包含中位數(shù)/平均數(shù)/平均數(shù)的標(biāo)準(zhǔn)誤/平均置信度為95%的置信區(qū)間/方差/標(biāo)準(zhǔn)差/變異系數(shù)。

當(dāng)將norm設(shè)置為TRUE時(shí),則返回正態(tài)分布統(tǒng)計(jì)量,包括偏度和峰度(以及它們的統(tǒng)計(jì)顯著程度)和Shapiro-Wilk正態(tài)檢驗(yàn)結(jié)果。

這里使用了p值來計(jì)算平均數(shù)的置信區(qū)間,默認(rèn)置信度為0.95

psych包describe()函數(shù)

可以計(jì)算非缺失值的數(shù)量,標(biāo)準(zhǔn)差,截尾均數(shù),絕對(duì)中位差,偏度等統(tǒng)計(jì)量。

偏態(tài)和峰態(tài)

反應(yīng)總體分布形態(tài)的指標(biāo),偏態(tài)(數(shù)據(jù)分布不對(duì)稱的方向和程度),峰態(tài)(數(shù)據(jù)分布圖形的尖峭程度或扁平程度)

分組計(jì)算描述統(tǒng)計(jì)量

在比較多組個(gè)體或觀測(cè)時(shí),關(guān)注焦點(diǎn)通常是各組描述性統(tǒng)計(jì)信息,而不是樣本整體的描述性統(tǒng)計(jì)信息,在R中主要有三種方法可以實(shí)現(xiàn):
- aggregate():分組獲取描述性統(tǒng)計(jì)量,可對(duì)單組或多組變量進(jìn)行分組統(tǒng)計(jì),by的變量一定要是list格式要不會(huì)報(bào)錯(cuò)~按照單變量分組
 
按照兩個(gè)變量作為分組,且對(duì)不給list命名即不寫‘a(chǎn)m=’,跑出來的結(jié)果分組將會(huì)是Group1這種不友好的展示界面
 
aggregate()函數(shù)的另一種寫法,寫成公式發(fā)~分開

doBy包-summaryBy()函數(shù)波浪線左側(cè)為需要分析的數(shù)值型變量,右邊為類別型分組變量;其中data=及FUN=不可省略不寫;FUN可為自定義變量,自定義函數(shù)時(shí)記得為函數(shù)起名字在展示時(shí)清楚 

 

psych包中-describe.by()函數(shù)具體參數(shù)可看R幫助文檔?describe.by() 

 

列聯(lián)表 (頻數(shù)表)

類似excel的數(shù)據(jù)透視表

table(var1,var2…,varN):使用N個(gè)類別型變量(因子)創(chuàng)建一個(gè)N維列聯(lián)表

 - xtabs(formula,data):xtabs(~A+B,data=mydata) 根據(jù)一個(gè)公式和一個(gè)矩陣或數(shù)據(jù)框創(chuàng)建一個(gè)N維列聯(lián)表;要進(jìn)行交叉分類的變量應(yīng)出現(xiàn)在公式的右側(cè),以+作為分隔符。若某個(gè)變量寫在公式的左側(cè),則其為一個(gè)頻數(shù)向量(在數(shù)據(jù)已經(jīng)被表格格式化時(shí)很有用)

prop.table(table,margins):依m(xù)argins定義的邊際列表將表中條目表示為分?jǐn)?shù)形式

margin.table(table,margins):依m(xù)argins定義的邊際列表計(jì)算表中條目的和,邊界求和,margin=1對(duì)行求和,不寫總體求和 

 

addmargins(table,margins):將概述邊margins(默認(rèn)是求和結(jié)果)放入表中,margin控制加行/列的和,實(shí)現(xiàn)和excel一樣的透視表 

 

ftable(table):創(chuàng)建一個(gè)緊湊的“平鋪”式列聯(lián)表

相關(guān)性分析

相關(guān)系數(shù)可以用來描述定量變量之間的關(guān)系。相關(guān)系數(shù)的符號(hào)(+,-)表明關(guān)系的方向(正相關(guān)或負(fù)相關(guān)),其值的大小表明關(guān)系的強(qiáng)弱程度(完全不相關(guān)為0,完全相關(guān)為1);相關(guān)的類型,R可計(jì)算多種相關(guān)系數(shù),包括Pearson相關(guān)系數(shù)(兩個(gè)變量之間的線形相關(guān)程度),Spearman相關(guān)系數(shù)(分級(jí)定序變量之間的相關(guān)程度),Kendall相關(guān)系數(shù)(非參數(shù)的等級(jí)相關(guān)度量),偏相關(guān)系數(shù),多分格(polychoric)相關(guān)系數(shù)和多系列(polyserial)相關(guān)系數(shù)。

散點(diǎn)圖,在數(shù)據(jù)量比較少時(shí),可以用散點(diǎn)圖觀察變量之間的關(guān)系

** cor()函數(shù)可以計(jì)算這三種相關(guān)系數(shù),**cov()可以用來計(jì)算協(xié)方差。cor(x,use=,method=),use指定缺失值處理方式,method,指定相關(guān)系數(shù)的類型,可選類型為pearson,spearman或kendall。默認(rèn)設(shè)置為everything和pearson 

 

顯著性檢驗(yàn),cor.test(),來檢驗(yàn)相關(guān)性的顯著水平,cor只是計(jì)算相關(guān)性程度但沒有檢驗(yàn)其顯著水平 

 

缺失值處理可選為:all.obs,假設(shè)不存在缺失數(shù)據(jù),遇到缺失數(shù)據(jù)時(shí)將報(bào)錯(cuò);everything,遇到缺失值時(shí),相關(guān)系數(shù)的計(jì)算結(jié)果被置為missing;complete.obs,行刪除;pairwise.complete.obs,成對(duì)刪除

psych包中的corr.test()函數(shù):可以一次為pearson,Spearman,Kendall相關(guān)計(jì)算相關(guān)矩陣和顯著性水平。 

雙向交叉表(列聯(lián)表gmodels-crossTable()):表格中每個(gè)單元格內(nèi)數(shù)量不同是由于悠然的可能性有多大

皮爾森卡方獨(dú)立性檢驗(yàn):看一個(gè)變量的值是如何隨著另一個(gè)值的變化而變化的

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }