
在我以前的文章初學者數(shù)據(jù)科學統(tǒng)計指南和推斷統(tǒng)計數(shù)據(jù)科學家應該知道中,我們討論了幾乎所有的統(tǒng)計基本知識(描述性和推斷性),它們通常用于理解和處理任何數(shù)據(jù)科學案例研究。在這篇文章中,讓我們稍微超越一下,討論一些不在討論范圍內(nèi)的高級概念。
在了解QQ劇情之前,先了解什么是分位數(shù)?
分位數(shù)定義了數(shù)據(jù)集的特定部分,即分位數(shù)決定了一個分布中有多少值高于或低于某個極限。特殊分位數(shù)是四分位數(shù)(四分之一)、五分位數(shù)(第五分)和百分位數(shù)(第一百分)。
示例:
如果我們把一個分布分成四個相等的部分,我們就說四個四分位數(shù)。第一個四分位數(shù)包括小于所有值四分之一的所有值。在圖形表示中,它對應于分布總面積的25%。兩個較低的四分位數(shù)占所有分布值的50%。第一個四分位數(shù)和第三個四分位數(shù)之間的四分位數(shù)范圍等于圍繞平均值分布的所有值的50%所在的范圍。
在統(tǒng)計學中,q-q(分位數(shù)-分位數(shù))圖是通過將兩組分位數(shù)相對于另一組繪制而形成的散點圖。如果兩組分位數(shù)來自相同的分布,我們應該看到這些點形成了一條大致直線(y=x)。
例如,中位數(shù)是一個分位數(shù),其中50%的數(shù)據(jù)低于該點,50%位于該點之上。Q Q圖的目的是找出兩組數(shù)據(jù)是否來自相同的分布。在Q Q圖上繪制45度角;如果兩個數(shù)據(jù)集來自一個共同的分布,那么點將落在那個參考線上。
對于你來說,了解分布是否正常是非常重要的,以便對數(shù)據(jù)應用各種統(tǒng)計度量,并以更易于理解的可視化方式解釋數(shù)據(jù),它們的Q-Q圖就出現(xiàn)在畫面中。Q-Q圖回答的最基本的問題是曲線是否正態(tài)分布。
正態(tài)分布,但為什么?
Q-Q圖用于尋找隨機變量的分布類型,無論是高斯分布,均勻分布,指數(shù)分布,甚至帕累托分布等。
你可以用Q-Q圖的冪來判斷分布的類型,只需看一下圖就可以了。一般來說,我們談論正態(tài)分布只是因為我們有一個非常漂亮的概念,即68-95-99.7規(guī)則,它完美地符合正態(tài)分布,所以我們知道有多少數(shù)據(jù)位于均值的第一標準差、第二標準差和第三標準差的范圍內(nèi)。因此,知道一個分布是否正態(tài)為我們打開了新的嘗試之門
Q-Q圖可以找到分布的偏度(不對稱的度量)。
如果Q-Q圖的底端偏離直線,但上端不偏離直線,則分布左偏斜(負偏斜)。
現(xiàn)在,如果Q-Q圖的上端偏離星光線,而下端不偏離,那么分布右偏(正偏)。
Q-Q圖可以找到分布的峰度(尾度的度量)。
帶有胖尾的分布將使Q-Q圖的兩端偏離直線,其中心跟隨直線,其中作為細尾分布,將在兩端偏差很小或可忽略不計的Q-Q圖項,從而使其完美地適合于正態(tài)分布。
假設我們有以下100個值的數(shù)據(jù)集:
導入numpy作為np #使用100遵循正態(tài)分布的值創(chuàng)建數(shù)據(jù)集 np。隨機。種子(0) 數(shù)據(jù)=np。隨機。 #查看第一個10值 數(shù)據(jù)[:10
array([ 1.76405235, 0.40015721, 0.97873798, 2.2408932 , 1.86755799, -0.97727788, 0.95008842, -0.15135721, -0.10321885, 0.4105985 ])
要為該數(shù)據(jù)集創(chuàng)建Q-Q圖,我們可以使用statsmodels庫中的qqplot()函數(shù):
import statsmodels.api as sm import matplotlib.pyplot as plt #create Q-Q plot with 45-degree line added to plot fig = sm.qqplot(data, line='45') plt.show()
在Q-Q圖中,X軸顯示理論分位數(shù)。這意味著它不會顯示您的實際數(shù)據(jù),而是表示如果數(shù)據(jù)是正態(tài)分布的數(shù)據(jù)將在哪里。
y軸顯示您的實際數(shù)據(jù)。這意味著,如果數(shù)據(jù)值沿45度角的大致直線下降,那么數(shù)據(jù)是正態(tài)分布的。
我們可以在上面的Q-Q圖中看到,數(shù)據(jù)值傾向于密切遵循45度,這意味著數(shù)據(jù)很可能是正態(tài)分布的。這并不奇怪,因為我們使用numpy.random.normal()函數(shù)生成了100個數(shù)據(jù)值。
相反,如果我們生成了一個由100個均勻分布的值組成的數(shù)據(jù)集,并為該數(shù)據(jù)集創(chuàng)建了一個Q-Q圖:
#create dataset of 100 uniformally distributed values data = np.random.uniform(0,1, 1000) #generate Q-Q plot for the dataset fig = sm.qqplot(data, line='45') plt.show()
In probability, Chebyshev’s Inequality, also known as “Bienayme-Chebyshev” Inequality guarantees that, for a wide class of probability distributions, only a definite fraction of values will be found within a specific distance from the mean of a distribution.
切比雪夫不等式類似于經(jīng)驗規(guī)則(68-95-99.7);但是,后一規(guī)則只適用于正態(tài)分布。切比雪夫的不等式范圍更廣;它可以應用于任何分布,只要分布包括一個定義的方差和均值。
因此,切比雪夫不等式說,樣本中的數(shù)據(jù)至少(1-1/k^2)必須落在均值的k標準差內(nèi)(或者等價地,分布的值不能超過均值的1/k^2標準差)。
其中k-->正實數(shù)
如果數(shù)據(jù)不是正態(tài)分布的,那么不同數(shù)量的數(shù)據(jù)可能在一個標準差中。Chebyshev不等式提供了一種方法,可以知道在任何數(shù)據(jù)分布的均值的k標準差內(nèi)有多少數(shù)據(jù)。
切比雪夫不等式具有重要價值,因為它可以應用于任何有均值和方差的概率分布。
讓我們考慮一個例子,假設1000名參賽者參加一個工作面試,但只有70個職位可用。為了從所有參賽者中選出最優(yōu)秀的70名參賽者,東主進行測試,以判斷他們的潛力。測試的平均分是60,標準差是6。如果申請人得了84分,他們能認為他們得到了這份工作嗎?
結(jié)果顯示,大約63人的分數(shù)在60分以上,所以有70個職位可供選擇,一個得分84分的參賽者可以肯定他們得到了這份工作。
創(chuàng)建一個有1,000,000個值的總體,我使用形狀=2和規(guī)模=2的gamma分布(也適用于其他分布)。
導入numpy為np 導入隨機 導入matplotlib.pyplot為plt #用創(chuàng)建人口 形狀,比例=2.,2。#mean=4,std=2*sqrt(2) mu=形狀*尺度#均值和標準差 sigma=Scale*np.sqrt(形狀) s=NP.Random.Gamma(形狀,尺度,1000000)
現(xiàn)在從人口中取樣10,000個值。
#sample 10000 values rs = random.choices(s, k=10000)
計數(shù)與期望值的距離大于k個標準差的樣本,并使用計數(shù)來計算概率。我想描述當k增加時,概率的趨勢,所以我使用k從0.1到3的范圍。
#set k ks = [0.1,0.5,1.0,1.5,2.0,2.5,3.0] #probability list probs = [] #for each k for k in ks: #start count c = 0 for i in rs: # count if far from mean in k standard deviation if abs(i - mu) > k * sigma : c += 1 probs.append(c/10000)
繪制結(jié)果:
plot = plt.figure(figsize=(20,10)) #plot each probability plt.xlabel('K') plt.ylabel('probability') plt.plot(ks,probs, marker='o') plot.show() #print each probability print("Probability of a sample far from mean more than k standard deviation:") for i, prob in enumerate(probs): print("k:" + str(ks[i]) + ", probability: " + str(prob)[0:5] + " | in theory, probability should less than: " + str(1/ks[i]**2)[0:5])
從上面的圖和結(jié)果可以看出,隨著k的增大,概率在減小,每個k的概率遵循不等式。而且,只有k大于1的情況才有用。如果k小于1,則不等式的右側(cè)大于1,這是沒有用的,因為概率不能大于1。
In probability theory, a Log-normal distribution also known as Galton's distribution is a continuous probability distribution of a random variable whose logarithm is normally distributed.
因此,如果隨機變量X是對數(shù)正態(tài)分布的,那么y=ln(X)是正態(tài)分布的。等價地,如果Y具有正態(tài)分布,則Y的指數(shù)函數(shù)即X=exp(Y),具有對數(shù)正態(tài)分布。
具有低均值和高方差且所有正值的偏態(tài)分布適合于這種類型的分布。對數(shù)正態(tài)分布的隨機變量只取正實值。
對數(shù)正態(tài)分布的概率密度函數(shù)的一般公式是:
位置和尺度參數(shù)等價于隨機變量對數(shù)的均值和標準差。
對數(shù)正態(tài)分布的形狀由3個參數(shù)定義:
位置和尺度參數(shù)等價于上述隨機變量對數(shù)的均值和標準差。
如果x=θ,則f(x)=0。θ=0和m=1的情況稱為標準對數(shù)正態(tài)分布。θ等于零的情況稱為2參數(shù)對數(shù)正態(tài)分布。
下圖說明了位置(μ)和形狀(σ)參數(shù)對對數(shù)正態(tài)分布概率密度函數(shù)的影響:
讓我們考慮一個示例,使用scipy.stats.lognorm函數(shù)從μ=1和σ=0.5的對數(shù)正態(tài)分布生成隨機數(shù)。
導入numpy作為np 導入matplotlib.pyplot為plt 從scipy.stats導入lognorm NP.Random.Seed(42) data=lognorm.rvs(S=0.5,loc=1,Scale=1000,size=1000) PLT.FIGH(圖=(10,6)) ax=PLT.次圖(111) plt.title('從對數(shù)正態(tài)分布生成wrandom數(shù)') AX.HIST(數(shù)據(jù),bins=np.logspace(0,5,200),density=true) ax.set_xscale(“log”) shape,loc,scale=lognorm.fit(數(shù)據(jù)) x=NP.logspace(0,5,200) pdf=lognorm.pdf(x,shape,loc,scale) Ax.plot(x,pdf,'y') plt.show()
In statistics, a Power Law is a functional relationship between two quantities, where a relative change in one quantity results in a proportional relative change in the other quantity, independent of the initial size of those quantities: one quantity varies as a power of another.
例如,用邊長來計算正方形的面積,如果邊長是一倍,則面積乘以四倍。
冪律分布的形式為y=k×α,
其中:
冪律分布只是眾多概率分布中的一種,但它被認為是評估正態(tài)分布在一定概率下無法處理的不確定性問題的有價值的工具。
許多過程已被發(fā)現(xiàn)在相當大的數(shù)值范圍內(nèi)遵循冪律。從收入分布、流星體大小、地震震級、深度神經(jīng)網(wǎng)絡中權(quán)重矩陣的譜密度、詞的使用、各種網(wǎng)絡中鄰居的數(shù)量等(注:這里的冪律是連續(xù)分布。最后兩個例子是離散的,但在大范圍內(nèi)可以建模為連續(xù)的)。
讓我們畫出帕累托分布,它是冪律概率分布的一種形式。帕累托分配有時被稱為帕累托原則或'80-20'規(guī)則,因為該規(guī)則指出,80%的社會財富由20%的人口持有。帕累托分布不是自然規(guī)律,而是一種觀察。它在許多現(xiàn)實世界的問題中是有用的。這是一個偏斜的重尾分布。
導入numpy作為np 導入matplotlib.pyplot為plt 從scipy.stats導入pareto x_m=1#刻度 alpha=[1,2,3]#形狀參數(shù)值列表 PLT.FIGH(圖=(10,6)) samples=np.linspace(start=0,stop=5,num=1000) 對于a in alpha: 輸出=np.array([pareto.pdf(x=samples,b=a,loc=0,scale=x_m)]) plt.plot(samples,output.t,label='alpha{0}'.format(a)) plt.xlabel('samples',fontsize=15) plt.yLabel('pdf',fontsize=15) plt.title('概率密度函數(shù)',fontsize=15) PLT.LEGEND(loc='最佳') plt.show()
The Box-Cox transformation transforms our data so that it closely resembles a normal distribution.
單參數(shù)Box-Cox變換在許多統(tǒng)計技術(shù)中都有定義,我們假定誤差是正態(tài)分布的。這個假設允許我們構(gòu)造置信區(qū)間并進行假設檢驗。通過轉(zhuǎn)換您的目標變量,我們可以(希望)規(guī)范化我們的錯誤(如果它們還不正常的話)。
此外,變換我們的變量可以提高我們的模型的預測能力,因為變換可以消除白噪聲。
Box-Cox變換的核心是一個指數(shù)lambda(λ),從-5到5不等。將考慮λ的所有值,并為您的數(shù)據(jù)選擇最佳值;“最優(yōu)值”是正態(tài)分布曲線的最佳近似值。
單參數(shù)Box-Cox變換定義為:
雙參數(shù)Box-Cox變換如下:
此外,單參數(shù)Box-Cox變換適用于y>0,即僅適用于正值,而雙參數(shù)Box-Cox變換適用于y>-λ,即負值。
參數(shù)λ是利用輪廓似然函數(shù)和擬合優(yōu)度檢驗來估計的。
如果我們談到Box-cox變換的一些缺點,那么如果解釋是你想做的,那么Box-cox是不推薦的。因為如果λ是非零數(shù),那么轉(zhuǎn)換后的目標變量可能比簡單地應用日志轉(zhuǎn)換更難解釋。
第二個絆腳石是Box-Cox變換通常給出預測分布的中值,當我們將變換后的數(shù)據(jù)還原到其原始規(guī)模時。偶爾,我們想要的是平均數(shù),而不是中位數(shù)。
SCIPY的stats包提供了一個名為boxcox的函數(shù),用于執(zhí)行box-cox冪變換,該變換接收原始非正態(tài)分布數(shù)據(jù)作為輸入,并返回擬合數(shù)據(jù)以及用于將非正態(tài)分布擬合為正態(tài)分布的λ值。
#加載必要的包 導入numpy為np 從scipy.stats導入boxcox 導入海運作為sns #使此示例可復制 NP.Random.Seed(0) #生成數(shù)據(jù)集 數(shù)據(jù)=NP.random.exponential(size=1000) 圖,ax=plt.子圖(1,2) #繪制數(shù)據(jù)值的分布 distplot(data,hist=false,kde=true, kde_kws={'shade':True,'linewidth':2}, 標簽=“非正?!保琧olor=“紅色”,ax=ax[0]) #執(zhí)行box-對原始數(shù)據(jù)進行Cox轉(zhuǎn)換 transformed_data,best_lambda=boxcox(數(shù)據(jù)) distplot(transformed_data,hist=False,kde=True, kde_kws={'shade':True,'linewidth':2}, label=“正常”,color=“紅色”,ax=ax[1]) #向次要情節(jié)添加圖例 PLT.LEGEND(loc=“右上部”) #重新縮放次要圖 圖set_figheight(5) fig.set_figwidth(10) #顯示最佳λ值 打印(f“用于轉(zhuǎn)換的lambda值:{best_lambda}”)
In probability theory and statistics, the 泊松分布 is a discrete probability distribution that expresses the probability of a given number of events occurring in a fixed interval of time or space if these events occur with a known constant mean rate and independently of the time since the last event.
用非常簡單的術(shù)語來說,泊松分布可以用來估計某事發(fā)生“x”次的可能性有多大。
泊松過程的一些例子是客戶打電話給幫助中心,原子的放射性衰變,網(wǎng)站的訪問者,到達太空望遠鏡的光子,以及股票價格的波動。泊松過程通常與時間有關(guān),但不一定與時間有關(guān)。
泊松分布的公式是:
其中:
可以將Lambda(λ)視為間隔中預期的事件數(shù)。當我們改變速率參數(shù)λ時,我們改變了在一個區(qū)間內(nèi)看到不同數(shù)量事件的概率。下圖是泊松分布的概率質(zhì)量函數(shù),顯示了在不同速率參數(shù)的區(qū)間內(nèi)發(fā)生若干事件的概率。
泊松分布也通常被用于金融統(tǒng)計數(shù)據(jù)的模型,其中理貨量很小,通常為零。例如,在金融學中,它可以用來模擬一個典型的投資者在給定的一天內(nèi)所做的交易的數(shù)量,可以是0(通常),或者是1,或者是2,等等。
作為另一個例子,這個模型可以用來預測在一個給定的時期內(nèi),比如說在十年里,對市場的“沖擊”的數(shù)量。
from numpy import random import matplotlib.pyplot as plt import seaborn as sns lam_list = [1, 4, 9] #list of Lambda values plt.figure(figsize=(10,6)) samples = np.linspace(start=0, stop=5, num=1000) for lam in lam_list: sns.distplot(random.poisson(lam=lam, size=10), hist=False, label='lambda {0}'.format(lam)) plt.xlabel('Poisson Distribution', fontsize=15) plt.ylabel('Frequency', fontsize=15) plt.legend(loc='best') plt.show()
當λ變大時,圖看起來更像是正態(tài)分布。
我希望你喜歡閱讀這篇文章,如果你有任何問題或建議,請留下評論。
請在LinkedIn上與我聯(lián)系以獲得任何查詢。
感謝閱讀!??!
References
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03