
作者 | By Luciano Strika
來源 | CDA數(shù)據(jù)分析研究院
5 Probability Distributions Every Data Scientist Should Know
概率分布就像3D眼鏡。它們?cè)试S熟練的數(shù)據(jù)科學(xué)家識(shí)別其他完全隨機(jī)變量的模式。在某種程度上,大多數(shù)其他數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)技能都基于對(duì)數(shù)據(jù)概率分布的某些假設(shè)。這使得概率知識(shí)成為統(tǒng)計(jì)學(xué)家構(gòu)建工具箱的基礎(chǔ)。如果您正在尋找如何成為數(shù)據(jù)科學(xué)家的第一步。不用多說,讓我們切入正題。
什么是概率分布?
在概率論和統(tǒng)計(jì)學(xué)中,隨機(jī)變量是一個(gè)隨機(jī)值的東西,比如“我看到的下一個(gè)人的身高”。給定一個(gè)隨機(jī)變量X,我們想要一種描述它的值的方法。更重要的是,我們想要描述該變量獲取特定值x的可能性。
例如,如果X是“我的女朋友有多少只貓”,那么這個(gè)數(shù)字可能是1的非零概率。有人可能會(huì)認(rèn)為這個(gè)值甚至可能是5或10的非零概率。然而,沒有辦法(因此沒有可能)一個(gè)人會(huì)有負(fù)數(shù)的貓。因此,我們想要一種明確的數(shù)學(xué)方法來表達(dá)變量X可以采用的每個(gè)可能值x,以及事件(X = x)的可能性。
為了做到這一點(diǎn),我們定義函數(shù)P,使得P(X = x)是變量X具有值x的概率。對(duì)于間隔而不是離散值,我們也可以要求P(X <x)或P(X> x)。這將很快變得更加重要。P是變量的密度函數(shù),它表征變量的分布。
隨著時(shí)間的推移,科學(xué)家們開始意識(shí)到自然界中的許多事物,現(xiàn)實(shí)生活往往表現(xiàn)相似,變量共享一個(gè)分布,或具有相同的密度函數(shù)(或類似的函數(shù)改變其中的一些常數(shù))。
有趣的是,對(duì)于P是一個(gè)實(shí)際的密度函數(shù),有些事情必須適用。
?對(duì)于任何值 x,P(X = x)<= 1。是再確定不過的事情了。
?對(duì)于任何值 x,P(X = x)> = 0。也沒有什么疑義。
?和最后一個(gè):所述之和的P(X = x)的所有可能的值X為1。
最后一個(gè)意味著“X在宇宙中取任何價(jià)值的概率,必須加起來為1。 ##離散與連續(xù)隨機(jī)變量分布 最后,隨機(jī)變量可以被認(rèn)為屬于兩組:離散和連續(xù)隨機(jī)變量。
離散隨機(jī)變量
離散變量具有一組離散的可能值,每個(gè)值都具有非零概率。 例如,如果我們說,當(dāng)翻轉(zhuǎn)硬幣時(shí)X =“1表示花色,0表示數(shù)字” 然后P(X = 1)= P(X = 0)= 0.5。 但是請(qǐng)注意,離散集合不必是有限的。 被用于建模的一些事件的概率的幾率p之后發(fā)生k的概率。 它具有以下密度公式。 P(X=k)=p(1-p)^k 0<=p<=1 其中k可以采用具有正概率的任何非負(fù)值。 注意所有可能值的概率之和如何仍然加起來為1。
連續(xù)隨機(jī)變量
如果你說X =“從我頭上隨機(jī)拔毛的長度(以毫米為單位)”X可以采用哪些可能的值?我們可能都認(rèn)為負(fù)值在這里沒有任何意義。但是,如果你說它只是1毫米,而不是1.1853759 ......或類似的東西,我會(huì)懷疑你的測量技巧,或你的測量錯(cuò)誤報(bào)告。連續(xù)隨機(jī)變量可以在給定(連續(xù))間隔中取任何值。因此,如果我們?yōu)槠渌锌赡苤捣峙淞朔橇愀怕剩瑒t它們的總和不會(huì)加起來為1。
為了解決這個(gè)問題,如果X是連續(xù)的,我們?yōu)樗衚設(shè)置 P(X = x)= 0,而是為X賦予一個(gè)非零的機(jī)會(huì)獲取某個(gè)間隔的值。為了表示在值a和b之間放置X的概率,我們說P(a <X <b)。而不是僅僅在一個(gè)密度函數(shù)替換值,得到P(A <X <B)為X連續(xù)變量,你會(huì)集成 X的密度函數(shù)a到b。
哇,你已經(jīng)完成了整個(gè)理論部分!現(xiàn)在您已經(jīng)知道了概率分布是什么,讓我們了解一些最常見的分布!
伯努利概率分布
具有伯努利分布的隨機(jī)變量是最簡單的。它代表一個(gè)二進(jìn)制事件:“這件事發(fā)生” VS“這種情況沒有發(fā)生”,并采取了值 p作為其唯一的參數(shù),它代表的概率是會(huì)發(fā)生的事件。具有參數(shù)p的伯努利分布的隨機(jī)變量B將具有以下密度函數(shù):
P(B = 1)= p,P(B = 0)=(1-p)
這里B = 1表示事件發(fā)生,B = 0表示事件沒發(fā)生。注意兩個(gè)概率如何加起來為1,因此B的不可能會(huì)是其他值。
統(tǒng)一概率分布
有兩種均勻隨機(jī)變量:離散變量和連續(xù)變量。
離散均勻分布 將采取(有限的)值的集合s,為每個(gè)值分配1 / n的概率,其中n是S中元素的數(shù)量。這樣,如果我的變量 Y 在{1,2,3}中是均勻的,則每個(gè)值出現(xiàn)的概率為33%。
在骰子中可以找到離散均勻隨機(jī)變量的典型情況,其中典型的骰子具有一組值{1,2,3,4,5,6}。連續(xù)均勻分布,只取兩個(gè)值a和b作為參數(shù),并為它們之間的間隔中的每個(gè)值分配相同的密度。 這意味著Y 在一個(gè)區(qū)間(從 c 到 d) 取值的概率與相對(duì)于整個(gè)區(qū)間(ba)的大小成比例。 因此,如果 Y 在a 和 b之間均勻分布,那么這樣,如果Y 是1和2之間的均勻隨機(jī)變量, P(1 <X <2)= 1 且 P(1 <X <1.5)= 0.5
Python的 random 包的 random 方法在0和1之間采樣均勻分布的連續(xù)變量。 有趣的是,可以證明, 在給定均勻隨機(jī)值生成器和一些微積分的情況下,可以對(duì) 任何其他分布進(jìn)行采樣 。
正態(tài)概率分布
通常分布的變量 在自然界中很常見,它們實(shí)際上是標(biāo)注規(guī)格。這實(shí)際上就是這個(gè)名字的來源。 如果你把所有的同事都圍起來并測量他們的身高,或者對(duì)測量體重并用結(jié)果繪制直方圖,則可能會(huì)接近正態(tài)分布。 當(dāng)我向您展示探索性數(shù)據(jù)分析示例時(shí),我實(shí)際上看到了這種效果。
還可以證明,如果您采用任意隨機(jī)變量的樣本并對(duì)這些度量進(jìn)行平均,并多次重復(fù)該過程,則該平均值也將具有正態(tài)分布。這個(gè)事實(shí)非常重要,它被稱為統(tǒng)計(jì)學(xué)的基本定理。 通常分布的變量:
? 是對(duì)稱的,以均值為中心(通常稱為 μ)。
? 可以在真實(shí)空間中獲取所有值,但僅在5%的時(shí)間內(nèi)偏離規(guī)范的兩個(gè)sigmas。
? 幾乎無處不在。
大多數(shù)情況下,如果你測量任何經(jīng)驗(yàn)數(shù)據(jù)并且它是對(duì)稱的,假設(shè)它是正常的將有點(diǎn)工作。
例如,滾動(dòng) K 骰子并將結(jié)果相加將分配非常正常。
對(duì)數(shù)正態(tài)概率分布
對(duì)數(shù)正態(tài)概率分布是正常概率分布的不常見的姐妹。 如果變量 Y = log(X) 遵循正態(tài)分布, 則稱變量X是對(duì)數(shù)正態(tài)分布的。 當(dāng)在直方圖中繪制時(shí),對(duì)數(shù)正態(tài)概率分布是不對(duì)稱的,并且如果它們的標(biāo)準(zhǔn)偏差更大則變得更加如此。 我認(rèn)為對(duì)數(shù)正態(tài)分布值得一提,因?yàn)榇蠖鄶?shù)基于貨幣的變量都是這樣的。
如果你看一下與錢有關(guān)的任何變量的概率分布,比如
? 在某個(gè)銀行的最新轉(zhuǎn)賬上發(fā)送的金額。
? 華爾街最新交易量。
? 一組公司在特定季度的季度收益。
它們通常沒有正態(tài)的概率分布,但會(huì)更接近對(duì)數(shù)正態(tài)隨機(jī)變量。
指數(shù)概率分布
指數(shù)概率分布也隨處可見。它們與稱為泊松過程的概率概念密切相關(guān) 。 直接從維基百科竊取,泊松過程是“ 事件以恒定的平均速率連續(xù)且獨(dú)立地發(fā)生的過程 ”。 所有這些意味著,如果:
? 你有很多活動(dòng)。
? 它們以一定的速率發(fā)生(不隨時(shí)間變化)。
? 僅僅因?yàn)橐粋€(gè)發(fā)生了另一個(gè)發(fā)生的機(jī)會(huì)不改變。
然后你有一個(gè)泊松過程。
一些例子可能是來到服務(wù)器的請(qǐng)求,在超市中發(fā)生的交易,或在某個(gè)湖中捕魚的鳥類。想象一下頻率為λ的泊松過程(比如,事件每秒發(fā)生一次)。指數(shù)隨機(jī)變量模擬事件發(fā)生后下一個(gè)事件發(fā)生所需的時(shí)間。有趣的是,在泊松過程中 ,事件可以在任何時(shí)間間隔內(nèi)發(fā)生在0到無窮大之間(降低概率)的任何地方。
這意味著無論您等待多久,事件都不會(huì)發(fā)生非零事件。這也意味著它可能在很短的時(shí)間內(nèi)發(fā)生很多次。 在課堂上,我們常常開玩笑的是巴士到達(dá)泊松過程。我認(rèn)為將WhatsApp消息發(fā)送給某些人時(shí)的響應(yīng)時(shí)間也符合標(biāo)準(zhǔn)。 但是,λ參數(shù)調(diào)節(jié)事件的頻率。它將使事件實(shí)際發(fā)生的預(yù)期時(shí)間以某個(gè)值為中心。這意味著如果我們知道出租車每隔15分鐘通過我們的街區(qū),即使理論上我們可以永遠(yuǎn)等待它,我們也很可能不會(huì)等待30分鐘。
數(shù)據(jù)科學(xué)中的指數(shù)概率分布
這是指數(shù)分布隨機(jī)變量的密度函數(shù):
假設(shè)您有一個(gè)來自變量的樣本,并希望查看它是否可以使用指數(shù)分布變量建模。 最佳λ參數(shù)可以很容易地估計(jì)為采樣值平均值的倒數(shù)。指數(shù)變量非常適合用非常罕見但巨大(和平均值)的異常值對(duì)任何概率分布進(jìn)行建模。這是因?yàn)樗鼈兛梢匀∪魏畏秦?fù)值但以較小值為中心,隨著值的增加頻率降低。 在特別是異常繁重的樣本中,您可能希望將λ估計(jì)為中位數(shù)而不是平均值,因?yàn)橹形粩?shù)對(duì)異常值更為穩(wěn)健。
結(jié)論
總而言之,作為數(shù)據(jù)科學(xué)家,我認(rèn)為學(xué)習(xí)基礎(chǔ)知識(shí)對(duì)我們很重要。 概率和統(tǒng)計(jì)可能不像深度學(xué)習(xí)或無監(jiān)督機(jī)器學(xué)習(xí)那樣華麗,但它們是數(shù)據(jù)科學(xué)的基石。特別是機(jī)器學(xué)習(xí)。 根據(jù)我的經(jīng)驗(yàn),提供具有功能的機(jī)器學(xué)習(xí)模型,而不知道他們遵循哪種分布,這是一個(gè)糟糕的選擇。 記住無處不在的指數(shù)和正態(tài)概率分布以及它們較小的對(duì)應(yīng)物,對(duì)數(shù)正態(tài)分布也是很好的 。 在訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),了解它們的屬性,用途和外觀會(huì) 改變游戲規(guī)則。在進(jìn)行任何類型的數(shù)據(jù)分析時(shí),記住它們通常也很好。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10