
在我以前的文章初學者數(shù)據(jù)科學統(tǒng)計指南和推斷統(tǒng)計數(shù)據(jù)科學家應(yīng)該知道中,我們討論了幾乎所有的統(tǒng)計基本知識(描述性和推斷性),它們通常用于理解和處理任何數(shù)據(jù)科學案例研究。在這篇文章中,讓我們稍微超越一下,討論一些不在討論范圍內(nèi)的高級概念。
在了解QQ劇情之前,先了解什么是分位數(shù)?
分位數(shù)定義了數(shù)據(jù)集的特定部分,即分位數(shù)決定了一個分布中有多少值高于或低于某個極限。特殊分位數(shù)是四分位數(shù)(四分之一)、五分位數(shù)(第五分)和百分位數(shù)(第一百分)。
示例:
如果我們把一個分布分成四個相等的部分,我們就說四個四分位數(shù)。第一個四分位數(shù)包括小于所有值四分之一的所有值。在圖形表示中,它對應(yīng)于分布總面積的25%。兩個較低的四分位數(shù)占所有分布值的50%。第一個四分位數(shù)和第三個四分位數(shù)之間的四分位數(shù)范圍等于圍繞平均值分布的所有值的50%所在的范圍。
在統(tǒng)計學中,q-q(分位數(shù)-分位數(shù))圖是通過將兩組分位數(shù)相對于另一組繪制而形成的散點圖。如果兩組分位數(shù)來自相同的分布,我們應(yīng)該看到這些點形成了一條大致直線(y=x)。
例如,中位數(shù)是一個分位數(shù),其中50%的數(shù)據(jù)低于該點,50%位于該點之上。Q Q圖的目的是找出兩組數(shù)據(jù)是否來自相同的分布。在Q Q圖上繪制45度角;如果兩個數(shù)據(jù)集來自一個共同的分布,那么點將落在那個參考線上。
對于你來說,了解分布是否正常是非常重要的,以便對數(shù)據(jù)應(yīng)用各種統(tǒng)計度量,并以更易于理解的可視化方式解釋數(shù)據(jù),它們的Q-Q圖就出現(xiàn)在畫面中。Q-Q圖回答的最基本的問題是曲線是否正態(tài)分布。
正態(tài)分布,但為什么?
Q-Q圖用于尋找隨機變量的分布類型,無論是高斯分布,均勻分布,指數(shù)分布,甚至帕累托分布等。
你可以用Q-Q圖的冪來判斷分布的類型,只需看一下圖就可以了。一般來說,我們談?wù)?a href='/map/zhengtaifenbu/' style='color:#000;font-size:inherit;'>正態(tài)分布只是因為我們有一個非常漂亮的概念,即68-95-99.7規(guī)則,它完美地符合正態(tài)分布,所以我們知道有多少數(shù)據(jù)位于均值的第一標準差、第二標準差和第三標準差的范圍內(nèi)。因此,知道一個分布是否正態(tài)為我們打開了新的嘗試之門
Q-Q圖可以找到分布的偏度(不對稱的度量)。
如果Q-Q圖的底端偏離直線,但上端不偏離直線,則分布左偏斜(負偏斜)。
現(xiàn)在,如果Q-Q圖的上端偏離星光線,而下端不偏離,那么分布右偏(正偏)。
Q-Q圖可以找到分布的峰度(尾度的度量)。
帶有胖尾的分布將使Q-Q圖的兩端偏離直線,其中心跟隨直線,其中作為細尾分布,將在兩端偏差很小或可忽略不計的Q-Q圖項,從而使其完美地適合于正態(tài)分布。
假設(shè)我們有以下100個值的數(shù)據(jù)集:
導入numpy作為np #使用100遵循正態(tài)分布的值創(chuàng)建數(shù)據(jù)集 np。隨機。種子(0) 數(shù)據(jù)=np。隨機。 #查看第一個10值 數(shù)據(jù)[:10
array([ 1.76405235, 0.40015721, 0.97873798, 2.2408932 , 1.86755799, -0.97727788, 0.95008842, -0.15135721, -0.10321885, 0.4105985 ])
要為該數(shù)據(jù)集創(chuàng)建Q-Q圖,我們可以使用statsmodels庫中的qqplot()函數(shù):
import statsmodels.api as sm import matplotlib.pyplot as plt #create Q-Q plot with 45-degree line added to plot fig = sm.qqplot(data, line='45') plt.show()
在Q-Q圖中,X軸顯示理論分位數(shù)。這意味著它不會顯示您的實際數(shù)據(jù),而是表示如果數(shù)據(jù)是正態(tài)分布的數(shù)據(jù)將在哪里。
y軸顯示您的實際數(shù)據(jù)。這意味著,如果數(shù)據(jù)值沿45度角的大致直線下降,那么數(shù)據(jù)是正態(tài)分布的。
我們可以在上面的Q-Q圖中看到,數(shù)據(jù)值傾向于密切遵循45度,這意味著數(shù)據(jù)很可能是正態(tài)分布的。這并不奇怪,因為我們使用numpy.random.normal()函數(shù)生成了100個數(shù)據(jù)值。
相反,如果我們生成了一個由100個均勻分布的值組成的數(shù)據(jù)集,并為該數(shù)據(jù)集創(chuàng)建了一個Q-Q圖:
#create dataset of 100 uniformally distributed values data = np.random.uniform(0,1, 1000) #generate Q-Q plot for the dataset fig = sm.qqplot(data, line='45') plt.show()
In probability, Chebyshev’s Inequality, also known as “Bienayme-Chebyshev” Inequality guarantees that, for a wide class of probability distributions, only a definite fraction of values will be found within a specific distance from the mean of a distribution.
切比雪夫不等式類似于經(jīng)驗規(guī)則(68-95-99.7);但是,后一規(guī)則只適用于正態(tài)分布。切比雪夫的不等式范圍更廣;它可以應(yīng)用于任何分布,只要分布包括一個定義的方差和均值。
因此,切比雪夫不等式說,樣本中的數(shù)據(jù)至少(1-1/k^2)必須落在均值的k標準差內(nèi)(或者等價地,分布的值不能超過均值的1/k^2標準差)。
其中k-->正實數(shù)
如果數(shù)據(jù)不是正態(tài)分布的,那么不同數(shù)量的數(shù)據(jù)可能在一個標準差中。Chebyshev不等式提供了一種方法,可以知道在任何數(shù)據(jù)分布的均值的k標準差內(nèi)有多少數(shù)據(jù)。
切比雪夫不等式具有重要價值,因為它可以應(yīng)用于任何有均值和方差的概率分布。
讓我們考慮一個例子,假設(shè)1000名參賽者參加一個工作面試,但只有70個職位可用。為了從所有參賽者中選出最優(yōu)秀的70名參賽者,東主進行測試,以判斷他們的潛力。測試的平均分是60,標準差是6。如果申請人得了84分,他們能認為他們得到了這份工作嗎?
結(jié)果顯示,大約63人的分數(shù)在60分以上,所以有70個職位可供選擇,一個得分84分的參賽者可以肯定他們得到了這份工作。
創(chuàng)建一個有1,000,000個值的總體,我使用形狀=2和規(guī)模=2的gamma分布(也適用于其他分布)。
導入numpy為np 導入隨機 導入matplotlib.pyplot為plt #用創(chuàng)建人口 形狀,比例=2.,2。#mean=4,std=2*sqrt(2) mu=形狀*尺度#均值和標準差 sigma=Scale*np.sqrt(形狀) s=NP.Random.Gamma(形狀,尺度,1000000)
現(xiàn)在從人口中取樣10,000個值。
#sample 10000 values rs = random.choices(s, k=10000)
計數(shù)與期望值的距離大于k個標準差的樣本,并使用計數(shù)來計算概率。我想描述當k增加時,概率的趨勢,所以我使用k從0.1到3的范圍。
#set k ks = [0.1,0.5,1.0,1.5,2.0,2.5,3.0] #probability list probs = [] #for each k for k in ks: #start count c = 0 for i in rs: # count if far from mean in k standard deviation if abs(i - mu) > k * sigma : c += 1 probs.append(c/10000)
繪制結(jié)果:
plot = plt.figure(figsize=(20,10)) #plot each probability plt.xlabel('K') plt.ylabel('probability') plt.plot(ks,probs, marker='o') plot.show() #print each probability print("Probability of a sample far from mean more than k standard deviation:") for i, prob in enumerate(probs): print("k:" + str(ks[i]) + ", probability: " + str(prob)[0:5] + " | in theory, probability should less than: " + str(1/ks[i]**2)[0:5])
從上面的圖和結(jié)果可以看出,隨著k的增大,概率在減小,每個k的概率遵循不等式。而且,只有k大于1的情況才有用。如果k小于1,則不等式的右側(cè)大于1,這是沒有用的,因為概率不能大于1。
In probability theory, a Log-normal distribution also known as Galton's distribution is a continuous probability distribution of a random variable whose logarithm is normally distributed.
因此,如果隨機變量X是對數(shù)正態(tài)分布的,那么y=ln(X)是正態(tài)分布的。等價地,如果Y具有正態(tài)分布,則Y的指數(shù)函數(shù)即X=exp(Y),具有對數(shù)正態(tài)分布。
具有低均值和高方差且所有正值的偏態(tài)分布適合于這種類型的分布。對數(shù)正態(tài)分布的隨機變量只取正實值。
對數(shù)正態(tài)分布的概率密度函數(shù)的一般公式是:
位置和尺度參數(shù)等價于隨機變量對數(shù)的均值和標準差。
對數(shù)正態(tài)分布的形狀由3個參數(shù)定義:
位置和尺度參數(shù)等價于上述隨機變量對數(shù)的均值和標準差。
如果x=θ,則f(x)=0。θ=0和m=1的情況稱為標準對數(shù)正態(tài)分布。θ等于零的情況稱為2參數(shù)對數(shù)正態(tài)分布。
下圖說明了位置(μ)和形狀(σ)參數(shù)對對數(shù)正態(tài)分布概率密度函數(shù)的影響:
讓我們考慮一個示例,使用scipy.stats.lognorm函數(shù)從μ=1和σ=0.5的對數(shù)正態(tài)分布生成隨機數(shù)。
導入numpy作為np 導入matplotlib.pyplot為plt 從scipy.stats導入lognorm NP.Random.Seed(42) data=lognorm.rvs(S=0.5,loc=1,Scale=1000,size=1000) PLT.FIGH(圖=(10,6)) ax=PLT.次圖(111) plt.title('從對數(shù)正態(tài)分布生成wrandom數(shù)') AX.HIST(數(shù)據(jù),bins=np.logspace(0,5,200),density=true) ax.set_xscale(“log”) shape,loc,scale=lognorm.fit(數(shù)據(jù)) x=NP.logspace(0,5,200) pdf=lognorm.pdf(x,shape,loc,scale) Ax.plot(x,pdf,'y') plt.show()
In statistics, a Power Law is a functional relationship between two quantities, where a relative change in one quantity results in a proportional relative change in the other quantity, independent of the initial size of those quantities: one quantity varies as a power of another.
例如,用邊長來計算正方形的面積,如果邊長是一倍,則面積乘以四倍。
冪律分布的形式為y=k×α,
其中:
冪律分布只是眾多概率分布中的一種,但它被認為是評估正態(tài)分布在一定概率下無法處理的不確定性問題的有價值的工具。
許多過程已被發(fā)現(xiàn)在相當大的數(shù)值范圍內(nèi)遵循冪律。從收入分布、流星體大小、地震震級、深度神經(jīng)網(wǎng)絡(luò)中權(quán)重矩陣的譜密度、詞的使用、各種網(wǎng)絡(luò)中鄰居的數(shù)量等(注:這里的冪律是連續(xù)分布。最后兩個例子是離散的,但在大范圍內(nèi)可以建模為連續(xù)的)。
讓我們畫出帕累托分布,它是冪律概率分布的一種形式。帕累托分配有時被稱為帕累托原則或'80-20'規(guī)則,因為該規(guī)則指出,80%的社會財富由20%的人口持有。帕累托分布不是自然規(guī)律,而是一種觀察。它在許多現(xiàn)實世界的問題中是有用的。這是一個偏斜的重尾分布。
導入numpy作為np 導入matplotlib.pyplot為plt 從scipy.stats導入pareto x_m=1#刻度 alpha=[1,2,3]#形狀參數(shù)值列表 PLT.FIGH(圖=(10,6)) samples=np.linspace(start=0,stop=5,num=1000) 對于a in alpha: 輸出=np.array([pareto.pdf(x=samples,b=a,loc=0,scale=x_m)]) plt.plot(samples,output.t,label='alpha{0}'.format(a)) plt.xlabel('samples',fontsize=15) plt.yLabel('pdf',fontsize=15) plt.title('概率密度函數(shù)',fontsize=15) PLT.LEGEND(loc='最佳') plt.show()
The Box-Cox transformation transforms our data so that it closely resembles a normal distribution.
單參數(shù)Box-Cox變換在許多統(tǒng)計技術(shù)中都有定義,我們假定誤差是正態(tài)分布的。這個假設(shè)允許我們構(gòu)造置信區(qū)間并進行假設(shè)檢驗。通過轉(zhuǎn)換您的目標變量,我們可以(希望)規(guī)范化我們的錯誤(如果它們還不正常的話)。
此外,變換我們的變量可以提高我們的模型的預測能力,因為變換可以消除白噪聲。
Box-Cox變換的核心是一個指數(shù)lambda(λ),從-5到5不等。將考慮λ的所有值,并為您的數(shù)據(jù)選擇最佳值;“最優(yōu)值”是正態(tài)分布曲線的最佳近似值。
單參數(shù)Box-Cox變換定義為:
雙參數(shù)Box-Cox變換如下:
此外,單參數(shù)Box-Cox變換適用于y>0,即僅適用于正值,而雙參數(shù)Box-Cox變換適用于y>-λ,即負值。
參數(shù)λ是利用輪廓似然函數(shù)和擬合優(yōu)度檢驗來估計的。
如果我們談到Box-cox變換的一些缺點,那么如果解釋是你想做的,那么Box-cox是不推薦的。因為如果λ是非零數(shù),那么轉(zhuǎn)換后的目標變量可能比簡單地應(yīng)用日志轉(zhuǎn)換更難解釋。
第二個絆腳石是Box-Cox變換通常給出預測分布的中值,當我們將變換后的數(shù)據(jù)還原到其原始規(guī)模時。偶爾,我們想要的是平均數(shù),而不是中位數(shù)。
SCIPY的stats包提供了一個名為boxcox的函數(shù),用于執(zhí)行box-cox冪變換,該變換接收原始非正態(tài)分布數(shù)據(jù)作為輸入,并返回擬合數(shù)據(jù)以及用于將非正態(tài)分布擬合為正態(tài)分布的λ值。
#加載必要的包 導入numpy為np 從scipy.stats導入boxcox 導入海運作為sns #使此示例可復制 NP.Random.Seed(0) #生成數(shù)據(jù)集 數(shù)據(jù)=NP.random.exponential(size=1000) 圖,ax=plt.子圖(1,2) #繪制數(shù)據(jù)值的分布 distplot(data,hist=false,kde=true, kde_kws={'shade':True,'linewidth':2}, 標簽=“非正常”,color=“紅色”,ax=ax[0]) #執(zhí)行box-對原始數(shù)據(jù)進行Cox轉(zhuǎn)換 transformed_data,best_lambda=boxcox(數(shù)據(jù)) distplot(transformed_data,hist=False,kde=True, kde_kws={'shade':True,'linewidth':2}, label=“正常”,color=“紅色”,ax=ax[1]) #向次要情節(jié)添加圖例 PLT.LEGEND(loc=“右上部”) #重新縮放次要圖 圖set_figheight(5) fig.set_figwidth(10) #顯示最佳λ值 打?。╢“用于轉(zhuǎn)換的lambda值:{best_lambda}”)
In probability theory and statistics, the 泊松分布 is a discrete probability distribution that expresses the probability of a given number of events occurring in a fixed interval of time or space if these events occur with a known constant mean rate and independently of the time since the last event.
用非常簡單的術(shù)語來說,泊松分布可以用來估計某事發(fā)生“x”次的可能性有多大。
泊松過程的一些例子是客戶打電話給幫助中心,原子的放射性衰變,網(wǎng)站的訪問者,到達太空望遠鏡的光子,以及股票價格的波動。泊松過程通常與時間有關(guān),但不一定與時間有關(guān)。
泊松分布的公式是:
其中:
可以將Lambda(λ)視為間隔中預期的事件數(shù)。當我們改變速率參數(shù)λ時,我們改變了在一個區(qū)間內(nèi)看到不同數(shù)量事件的概率。下圖是泊松分布的概率質(zhì)量函數(shù),顯示了在不同速率參數(shù)的區(qū)間內(nèi)發(fā)生若干事件的概率。
泊松分布也通常被用于金融統(tǒng)計數(shù)據(jù)的模型,其中理貨量很小,通常為零。例如,在金融學中,它可以用來模擬一個典型的投資者在給定的一天內(nèi)所做的交易的數(shù)量,可以是0(通常),或者是1,或者是2,等等。
作為另一個例子,這個模型可以用來預測在一個給定的時期內(nèi),比如說在十年里,對市場的“沖擊”的數(shù)量。
from numpy import random import matplotlib.pyplot as plt import seaborn as sns lam_list = [1, 4, 9] #list of Lambda values plt.figure(figsize=(10,6)) samples = np.linspace(start=0, stop=5, num=1000) for lam in lam_list: sns.distplot(random.poisson(lam=lam, size=10), hist=False, label='lambda {0}'.format(lam)) plt.xlabel('Poisson Distribution', fontsize=15) plt.ylabel('Frequency', fontsize=15) plt.legend(loc='best') plt.show()
當λ變大時,圖看起來更像是正態(tài)分布。
我希望你喜歡閱讀這篇文章,如果你有任何問題或建議,請留下評論。
請在LinkedIn上與我聯(lián)系以獲得任何查詢。
感謝閱讀?。。?/b>
References
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實踐的落地者與價值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價值,最終要在 “實踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10