
R語言統(tǒng)計與分布的相關知識
變量
變量按變量值是否連續(xù)可分為連續(xù)變量與離散變量兩種。 連續(xù)變量(continuous variable)與離散變量(discrete variable)
連續(xù)變量
在一定區(qū)間內可以任意取值的變量叫連續(xù)變量,其數值是連續(xù)不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。
離散變量
離散變量是指其數值只能用自然數或整數單位計算的則為離散變量.例如,企業(yè)個數,職工人數,設備臺數等,只能按計量單位數計數,這種變量的數值一般用計數方法取得.
在R語言中的Data.Frame中的每一列可以表示一個變量;
變量關注點:1取值,2概率
得到了變量的取值及概率就獲得了數據的分布
數據分布
數據分布的特征
集中趨勢(位置)
離中趨勢(分散程度)
偏態(tài)和峰態(tài)(形態(tài))
一、集中趨勢的度量
分類數據:眾數
順序數據:眾數、中位數、分位數
數值型數據:眾數、中位數、分位數、平均數
概念:
o
中位數(median):排序后處于中間位置上的值。如有5個數,排序后第3個數為中位數,如果為6個數,則對中間兩個數求平均結果為中位數。M e四分位數(quartile): 排序后處于25%和75%位置上的值。
平均數(mean): 也稱為期望
簡單算數平均:
加權平均:
幾何平均:
幾何平均主要用于計算平均增長率;
特點:
1. 眾數
不受極端值影響
具有不惟一性
數據分布偏斜程度較大時應用
2. 中位數
不受極端值影響
數據分布偏斜程度較大時應用
3. 平均數
易受極端值影響
數學性質優(yōu)良
數據對稱分布或接近對稱分布時應用
關系:
均值在中位數左邊為左偏,均值在中位數右邊為右偏。
二、離散程度的度量
反映各變量值遠離其中心值的程度(離散程度)
分類數據:異眾比率
順序數據:四分位差
相對位置的度量:標準分數
相對離散程度:離散系數
概念:
異眾比率(variation ratio): 非眾數組的頻數占總頻數的比例。
例子:
四分位差(quartile deviation):上四分位數與下四分位數之差。反應了中間50%數據的離散程度。
例子:
極差(range):數據中最大值與最小值之差。
方差(variance): 是各個數據分別與其平均數之差的平方的和的平均數; 反映了各變量值與均值的平均差異.
E{x}表示平均數
樣本方差:
在統(tǒng)計學中樣本的均差多是除以自由度(n-1),它是意思是樣本能自由選擇的程度。當選到只剩一個時,它不可能再有自由了,所以自由度是n-1。
標準差(standard deviation): 是各個數據分別與其平均數之差的平方的和的平均數的平方根;反映了各變量值與均值的平均差異. 反應了數據集的離散程度.
對方差進行開方
標準分數(standard score):也叫z分數(z-score) 是一個分數與平均數的差再除以標準差的過程。用公式表示為z=(x-μ)/σ。其中x為某一具體分數,分數即為值。
例子:
離散系數:又稱為變異系數,常用的是標準差系數,用CV(Coefficient of Variance)表示。標準差與均值的比率。 用公式表示為:CV=σ/μ
離散系數反映單位均值上的離散程度,常用在兩個總體均值不等的離散程度的比較上。若兩個總體的均值相等,則比較標準差系數與比較標準差是等價的。在對比情況下,離散系數較大的其分布情況差異也大。
協(xié)方差:在概率論和統(tǒng)計學中,協(xié)方差用于衡量兩個變量的總體誤差。而方差是協(xié)方差的一種特殊情況,即當兩個變量是相同的情況。
期望值分別為E[X]與E[Y]的兩個實隨機變量X與Y之間的協(xié)方差Cov(X,Y)定義為:
從直觀上來看,協(xié)方差表示的是兩個變量總體誤差的期望。
如果兩個變量的變化趨勢一致,也就是說如果其中一個大于自身的期望值時另外一個也大于自身的期望值,那么兩個變量之間的協(xié)方差就是正值;
如果兩個變量的變化趨勢相反,即其中一個變量大于自身的期望值時另外一個卻小于自身的期望值,那么兩個變量之間的協(xié)方差就是負值。
結果值范圍為-∞~+∞,不同協(xié)方差之間是不能比較的
相關系數:
結果值范圍-1~+1,不同協(xié)方差的相關系數是可以比較的
分布
離散變量的分布
1.兩點分布 又稱為伯努利分布
P(n) = p n (1-p) 1-n (n=1,或 n=0) 1表示成功,0表示失敗
成功的概率為p,失敗的概率為1-p;
2.二項分布 Binomial Distribution
即重復n次的伯努利試驗(Bernoulli Experiment),用X表示隨機試驗的結果。
如果事件發(fā)生的概率是p,則不發(fā)生的概率q=1-p,N次獨立重復試驗中發(fā)生K次的概率是:
其中組合的計算公式為:
期望E(X)=np
方差D(X)=npq
例子:張三參加雅思考試,每次通過的概率假設為1/3,不通過的概率為2/3。如果他連續(xù)參加4次考試,那么恰好通過2次的概率是多少?
p=1/3, n=4, k=2 代入公式:結果為8/27
3.泊松分布 Poisson
泊松分布適用于描述單位時間內隨機事件發(fā)生的次數。
泊松分布的概率函數:
期望和方差都為:λ
λ是單位時間內隨機事件的平均發(fā)生率,k是指事件發(fā)生的次數。
當二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。通常當n≧10,p≦0.1時,二項分布就可以用泊松公式近似得計算。
在實際事例中,當一個隨機事件,例如某電話交換臺收到的呼叫、來到某公共汽車站的乘客、某放射性物質發(fā)射出的粒子、顯微鏡下某區(qū)域中的白血球等等,以固定的平均瞬時速率λ(或稱密度)隨機且獨立地出現(xiàn)時,那么這個事件在單位時間(面積或體積)內出現(xiàn)的次數或個數就近似地服從泊松分布P(λ)。因此,泊松分布在管理科學、運籌學以及自然科學的某些問題中都占有重要的地位。
觀察事物平均發(fā)生m次的條件下,實際發(fā)生x次的概率P(x)可用下式表示:
P(x)=m x *e -m /x!
例子:假設在一個公共汽車站上有許多不同線路的公交車,平均每5分鐘會來2輛公交車。求5分鐘內來5輛公交車的概率有多大。
k=5, λ=2 代入公式:
P(X=k=5)= 2 5 *2.71828 -2 /5*4*3*2*1 = 0.361
例子:已知某家小雜貨店,平均每周售出4個水果罐頭。請問該店水果罐頭的每周最佳庫存量是多少?
庫存量越多浪費空間及金錢,庫存量過少,無法滿足用戶的需求,減少銷售量。
這里通過 累計概率 來計算,
P(X=k=0) 沒有庫存的概率
P(X=k=1) 庫存為1的概率
P(X=k=2) 庫存為2的概率
...
計算到k=7時,將這些概率進行相加,結果為92.98%,如果庫存為7,說明有7.02%的概率會供不應求。這個k值根據實際應用場景進行調整。
連續(xù)變量的分布
1.均勻分布
2.指數分布
3.正態(tài)分布 Normal distribution 也叫高??分布(Gaussian distribution)
若隨機變量X服從一個位置參數為μ、尺度參數為σ 的概率分布,且其概率密度函數為
μ是均值,σ 是標準差
則這個隨機變量就稱為正態(tài)隨機變量,正態(tài)隨機變量服從的分布就稱為正態(tài)分布,記作X~N(μ,σ 2 ), 讀作X服從正態(tài)分布。
期望E(X)=μ
方差D(X)=σ 2
當μ=0,σ=1是,正態(tài)分布就為 標準正態(tài)分布
期望E(X)=0
方差D(X)=1
μ變大,函數圖像中軸向右移動
μ變小,函數圖像中軸向左移動
σ變大,函數圖像坡度變平緩
σ變小,函數圖像坡度變陡
經驗法則:
正態(tài)分布距離均值的左右各一個標準差的概率分布為68%,距離左右兩邊各兩個標準差的概率分布為95%,三個標準差的概率分布式99.7%;
中心極限定理 central limit theorem:
在樣本數據中隨機抽取一部分數據,這部分數據的分布漸近與正態(tài)分布
概率密度函數PDF probability density function ;是一個描述這個隨機變量的輸出值,在某個確定的取值點附近的可能性的函數。
正態(tài)分布的概率密度函數
累計密度函數CDF cumulative distribution function; 是概率密度函數的積分。f(x)當x=k,表示小于k值的所有概率之和。單調遞增曲線,無線接近于1.
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03