99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀R語言統(tǒng)計與分布的相關知識
R語言統(tǒng)計與分布的相關知識
2017-02-25
收藏

R語言統(tǒng)計與分布的相關知識

變量

變量按變量值是否連續(xù)可分為連續(xù)變量與離散變量兩種。 連續(xù)變量(continuous variable)與離散變量(discrete variable)

連續(xù)變量

在一定區(qū)間內可以任意取值的變量叫連續(xù)變量,其數值是連續(xù)不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。

離散變量

離散變量是指其數值只能用自然數或整數單位計算的則為離散變量.例如,企業(yè)個數,職工人數,設備臺數等,只能按計量單位數計數,這種變量的數值一般用計數方法取得.

R語言中的Data.Frame中的每一列可以表示一個變量;

變量關注點:1取值,2概率

得到了變量的取值及概率就獲得了數據的分布

數據分布

數據分布的特征

集中趨勢(位置)

離中趨勢(分散程度)

偏態(tài)和峰態(tài)(形態(tài))

一、集中趨勢的度量

分類數據:眾數

順序數據:眾數、中位數、分位數

數值型數據:眾數、中位數、分位數、平均數

概念:

眾數(mode):一組數據中出現(xiàn)次數最多的值;數據中重復次數最多的那個數據。 如評選”最佳“,”最受歡迎“等都與眾數有關。 M

o

中位數(median):排序后處于中間位置上的值。如有5個數,排序后第3個數為中位數,如果為6個數,則對中間兩個數求平均結果為中位數。M e  

四分位數(quartile): 排序后處于25%和75%位置上的值。

平均數(mean): 也稱為期望

簡單算數平均:

加權平均:

幾何平均:

幾何平均主要用于計算平均增長率;

特點:

1. 眾數

不受極端值影響

具有不惟一性

數據分布偏斜程度較大時應用

2. 中位數

不受極端值影響

數據分布偏斜程度較大時應用

3. 平均數

易受極端值影響

數學性質優(yōu)良

數據對稱分布或接近對稱分布時應用

關系: 

均值在中位數左邊為左偏,均值在中位數右邊為右偏。

二、離散程度的度量

反映各變量值遠離其中心值的程度(離散程度)

分類數據:異眾比率

順序數據:四分位差

數值型數據:極差、平均差、方差標準差

相對位置的度量:標準分數

相對離散程度:離散系數

概念:

異眾比率(variation ratio): 非眾數組的頻數占總頻數的比例。

例子:

四分位差(quartile deviation):上四分位數與下四分位數之差。反應了中間50%數據的離散程度。

例子:

極差(range):數據中最大值與最小值之差。

方差(variance): 是各個數據分別與其平均數之差的平方的和的平均數; 反映了各變量值與均值的平均差異.

     E{x}表示平均數

樣本方差

在統(tǒng)計學中樣本的均差多是除以自由度(n-1),它是意思是樣本能自由選擇的程度。當選到只剩一個時,它不可能再有自由了,所以自由度是n-1。

標準差(standard deviation): 是各個數據分別與其平均數之差的平方的和的平均數的平方根;反映了各變量值與均值的平均差異. 反應了數據集的離散程度.

 對方差進行開方

標準分數(standard score):也叫z分數(z-score) 是一個分數與平均數的差再除以標準差的過程。用公式表示為z=(x-μ)/σ。其中x為某一具體分數,分數即為值。

例子:

離散系數:又稱為變異系數,常用的是標準差系數,用CV(Coefficient of Variance)表示。標準差與均值的比率。 用公式表示為:CV=σ/μ

離散系數反映單位均值上的離散程度,常用在兩個總體均值不等的離散程度的比較上。若兩個總體的均值相等,則比較標準差系數與比較標準差是等價的。在對比情況下,離散系數較大的其分布情況差異也大。

協(xié)方差:在概率論和統(tǒng)計學中,協(xié)方差用于衡量兩個變量的總體誤差。而方差是協(xié)方差的一種特殊情況,即當兩個變量是相同的情況。

期望值分別為E[X]與E[Y]的兩個實隨機變量X與Y之間的協(xié)方差Cov(X,Y)定義為:

從直觀上來看,協(xié)方差表示的是兩個變量總體誤差的期望。

如果兩個變量的變化趨勢一致,也就是說如果其中一個大于自身的期望值時另外一個也大于自身的期望值,那么兩個變量之間的協(xié)方差就是正值;

如果兩個變量的變化趨勢相反,即其中一個變量大于自身的期望值時另外一個卻小于自身的期望值,那么兩個變量之間的協(xié)方差就是負值。

結果值范圍為-∞~+∞,不同協(xié)方差之間是不能比較的

相關系數

 

稱為隨機變量X和Y的(Pearson)相關系數

結果值范圍-1~+1,不同協(xié)方差相關系數是可以比較的

分布

離散變量的分布

1.兩點分布 又稱為伯努利分布

P(n) = p n (1-p) 1-n (n=1,或 n=0) 1表示成功,0表示失敗

成功的概率為p,失敗的概率為1-p;

2.二項分布 Binomial Distribution

即重復n次的伯努利試驗(Bernoulli Experiment),用X表示隨機試驗的結果。

如果事件發(fā)生的概率是p,則不發(fā)生的概率q=1-p,N次獨立重復試驗中發(fā)生K次的概率是:

 

其中組合的計算公式為:

期望E(X)=np

方差D(X)=npq

例子:張三參加雅思考試,每次通過的概率假設為1/3,不通過的概率為2/3。如果他連續(xù)參加4次考試,那么恰好通過2次的概率是多少?

p=1/3, n=4, k=2 代入公式:結果為8/27

3.泊松分布 Poisson

泊松分布適用于描述單位時間內隨機事件發(fā)生的次數。

泊松分布的概率函數:

期望和方差都為:λ

λ是單位時間內隨機事件的平均發(fā)生率,k是指事件發(fā)生的次數。

二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。通常當n≧10,p≦0.1時,二項分布就可以用泊松公式近似得計算。

在實際事例中,當一個隨機事件,例如某電話交換臺收到的呼叫、來到某公共汽車站的乘客、某放射性物質發(fā)射出的粒子、顯微鏡下某區(qū)域中的白血球等等,以固定的平均瞬時速率λ(或稱密度)隨機且獨立地出現(xiàn)時,那么這個事件在單位時間(面積或體積)內出現(xiàn)的次數或個數就近似地服從泊松分布P(λ)。因此,泊松分布在管理科學、運籌學以及自然科學的某些問題中都占有重要的地位。

觀察事物平均發(fā)生m次的條件下,實際發(fā)生x次的概率P(x)可用下式表示:

P(x)=m x *e -m /x!

例子:假設在一個公共汽車站上有許多不同線路的公交車,平均每5分鐘會來2輛公交車。求5分鐘內來5輛公交車的概率有多大。

k=5, λ=2 代入公式:

P(X=k=5)= 2 5 *2.71828 -2 /5*4*3*2*1 = 0.361

例子:已知某家小雜貨店,平均每周售出4個水果罐頭。請問該店水果罐頭的每周最佳庫存量是多少?

庫存量越多浪費空間及金錢,庫存量過少,無法滿足用戶的需求,減少銷售量。

這里通過 累計概率 來計算,

P(X=k=0) 沒有庫存的概率

P(X=k=1) 庫存為1的概率

P(X=k=2) 庫存為2的概率

...

計算到k=7時,將這些概率進行相加,結果為92.98%,如果庫存為7,說明有7.02%的概率會供不應求。這個k值根據實際應用場景進行調整。

連續(xù)變量的分布

1.均勻分布

2.指數分布

3.正態(tài)分布 Normal distribution 也叫高??分布(Gaussian distribution)

隨機變量X服從一個位置參數為μ、尺度參數為σ 的概率分布,且其概率密度函數為

μ是均值,σ 是標準差

則這個隨機變量就稱為正態(tài)隨機變量,正態(tài)隨機變量服從的分布就稱為正態(tài)分布,記作X~N(μ,σ 2 ), 讀作X服從正態(tài)分布

期望E(X)=μ

方差D(X)=σ 2

當μ=0,σ=1是,正態(tài)分布就為 標準正態(tài)分布

期望E(X)=0

方差D(X)=1

μ變大,函數圖像中軸向右移動

μ變小,函數圖像中軸向左移動

σ變大,函數圖像坡度變平緩

σ變小,函數圖像坡度變陡

經驗法則:

正態(tài)分布距離均值的左右各一個標準差概率分布為68%,距離左右兩邊各兩個標準差概率分布為95%,三個標準差概率分布式99.7%;

中心極限定理 central limit theorem:

在樣本數據中隨機抽取一部分數據,這部分數據的分布漸近與正態(tài)分布

概率密度函數PDF probability density function ;是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數。
 

正態(tài)分布的概率密度函數

累計密度函數CDF cumulative distribution function; 是概率密度函數的積分。f(x)當x=k,表示小于k值的所有概率之和。單調遞增曲線,無線接近于1.

用戶畫像,真實用戶的虛擬表示,建立在真實數據上的目標用戶模型;考慮用戶的主要行為特征;

數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數1:配置參數 // 參數2:回調,回調的第一個參數驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式,包括:float,popup width: "280px", https: true // 更多配置參數說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }