
作者 | By Luciano Strika
來源 | CDA數(shù)據(jù)分析研究院
5 Probability Distributions Every Data Scientist Should Know
概率分布就像3D眼鏡。它們允許熟練的數(shù)據(jù)科學家識別其他完全隨機變量的模式。在某種程度上,大多數(shù)其他數(shù)據(jù)科學或機器學習技能都基于對數(shù)據(jù)概率分布的某些假設。這使得概率知識成為統(tǒng)計學家構建工具箱的基礎。如果您正在尋找如何成為數(shù)據(jù)科學家的第一步。不用多說,讓我們切入正題。
什么是概率分布?
在概率論和統(tǒng)計學中,隨機變量是一個隨機值的東西,比如“我看到的下一個人的身高”。給定一個隨機變量X,我們想要一種描述它的值的方法。更重要的是,我們想要描述該變量獲取特定值x的可能性。
例如,如果X是“我的女朋友有多少只貓”,那么這個數(shù)字可能是1的非零概率。有人可能會認為這個值甚至可能是5或10的非零概率。然而,沒有辦法(因此沒有可能)一個人會有負數(shù)的貓。因此,我們想要一種明確的數(shù)學方法來表達變量X可以采用的每個可能值x,以及事件(X = x)的可能性。
為了做到這一點,我們定義函數(shù)P,使得P(X = x)是變量X具有值x的概率。對于間隔而不是離散值,我們也可以要求P(X <x)或P(X> x)。這將很快變得更加重要。P是變量的密度函數(shù),它表征變量的分布。
隨著時間的推移,科學家們開始意識到自然界中的許多事物,現(xiàn)實生活往往表現(xiàn)相似,變量共享一個分布,或具有相同的密度函數(shù)(或類似的函數(shù)改變其中的一些常數(shù))。
有趣的是,對于P是一個實際的密度函數(shù),有些事情必須適用。
?對于任何值 x,P(X = x)<= 1。是再確定不過的事情了。
?對于任何值 x,P(X = x)> = 0。也沒有什么疑義。
?和最后一個:所述之和的P(X = x)的所有可能的值X為1。
最后一個意味著“X在宇宙中取任何價值的概率,必須加起來為1。 ##離散與連續(xù)隨機變量分布 最后,隨機變量可以被認為屬于兩組:離散和連續(xù)隨機變量。
離散隨機變量
離散變量具有一組離散的可能值,每個值都具有非零概率。 例如,如果我們說,當翻轉(zhuǎn)硬幣時X =“1表示花色,0表示數(shù)字” 然后P(X = 1)= P(X = 0)= 0.5。 但是請注意,離散集合不必是有限的。 被用于建模的一些事件的概率的幾率p之后發(fā)生k的概率。 它具有以下密度公式。 P(X=k)=p(1-p)^k 0<=p<=1 其中k可以采用具有正概率的任何非負值。 注意所有可能值的概率之和如何仍然加起來為1。
連續(xù)隨機變量
如果你說X =“從我頭上隨機拔毛的長度(以毫米為單位)”X可以采用哪些可能的值?我們可能都認為負值在這里沒有任何意義。但是,如果你說它只是1毫米,而不是1.1853759 ......或類似的東西,我會懷疑你的測量技巧,或你的測量錯誤報告。連續(xù)隨機變量可以在給定(連續(xù))間隔中取任何值。因此,如果我們?yōu)槠渌锌赡苤捣峙淞朔橇愀怕剩瑒t它們的總和不會加起來為1。
為了解決這個問題,如果X是連續(xù)的,我們?yōu)樗衚設置 P(X = x)= 0,而是為X賦予一個非零的機會獲取某個間隔的值。為了表示在值a和b之間放置X的概率,我們說P(a <X <b)。而不是僅僅在一個密度函數(shù)替換值,得到P(A <X <B)為X連續(xù)變量,你會集成 X的密度函數(shù)a到b。
哇,你已經(jīng)完成了整個理論部分!現(xiàn)在您已經(jīng)知道了概率分布是什么,讓我們了解一些最常見的分布!
伯努利概率分布
具有伯努利分布的隨機變量是最簡單的。它代表一個二進制事件:“這件事發(fā)生” VS“這種情況沒有發(fā)生”,并采取了值 p作為其唯一的參數(shù),它代表的概率是會發(fā)生的事件。具有參數(shù)p的伯努利分布的隨機變量B將具有以下密度函數(shù):
P(B = 1)= p,P(B = 0)=(1-p)
這里B = 1表示事件發(fā)生,B = 0表示事件沒發(fā)生。注意兩個概率如何加起來為1,因此B的不可能會是其他值。
統(tǒng)一概率分布
有兩種均勻隨機變量:離散變量和連續(xù)變量。
離散均勻分布 將采取(有限的)值的集合s,為每個值分配1 / n的概率,其中n是S中元素的數(shù)量。這樣,如果我的變量 Y 在{1,2,3}中是均勻的,則每個值出現(xiàn)的概率為33%。
在骰子中可以找到離散均勻隨機變量的典型情況,其中典型的骰子具有一組值{1,2,3,4,5,6}。連續(xù)均勻分布,只取兩個值a和b作為參數(shù),并為它們之間的間隔中的每個值分配相同的密度。 這意味著Y 在一個區(qū)間(從 c 到 d) 取值的概率與相對于整個區(qū)間(ba)的大小成比例。 因此,如果 Y 在a 和 b之間均勻分布,那么這樣,如果Y 是1和2之間的均勻隨機變量, P(1 <X <2)= 1 且 P(1 <X <1.5)= 0.5
Python的 random 包的 random 方法在0和1之間采樣均勻分布的連續(xù)變量。 有趣的是,可以證明, 在給定均勻隨機值生成器和一些微積分的情況下,可以對 任何其他分布進行采樣 。
正態(tài)概率分布
通常分布的變量 在自然界中很常見,它們實際上是標注規(guī)格。這實際上就是這個名字的來源。 如果你把所有的同事都圍起來并測量他們的身高,或者對測量體重并用結果繪制直方圖,則可能會接近正態(tài)分布。 當我向您展示探索性數(shù)據(jù)分析示例時,我實際上看到了這種效果。
還可以證明,如果您采用任意隨機變量的樣本并對這些度量進行平均,并多次重復該過程,則該平均值也將具有正態(tài)分布。這個事實非常重要,它被稱為統(tǒng)計學的基本定理。 通常分布的變量:
? 是對稱的,以均值為中心(通常稱為 μ)。
? 可以在真實空間中獲取所有值,但僅在5%的時間內(nèi)偏離規(guī)范的兩個sigmas。
? 幾乎無處不在。
大多數(shù)情況下,如果你測量任何經(jīng)驗數(shù)據(jù)并且它是對稱的,假設它是正常的將有點工作。
例如,滾動 K 骰子并將結果相加將分配非常正常。
對數(shù)正態(tài)概率分布
對數(shù)正態(tài)概率分布是正常概率分布的不常見的姐妹。 如果變量 Y = log(X) 遵循正態(tài)分布, 則稱變量X是對數(shù)正態(tài)分布的。 當在直方圖中繪制時,對數(shù)正態(tài)概率分布是不對稱的,并且如果它們的標準偏差更大則變得更加如此。 我認為對數(shù)正態(tài)分布值得一提,因為大多數(shù)基于貨幣的變量都是這樣的。
如果你看一下與錢有關的任何變量的概率分布,比如
? 在某個銀行的最新轉(zhuǎn)賬上發(fā)送的金額。
? 華爾街最新交易量。
? 一組公司在特定季度的季度收益。
它們通常沒有正態(tài)的概率分布,但會更接近對數(shù)正態(tài)隨機變量。
指數(shù)概率分布
指數(shù)概率分布也隨處可見。它們與稱為泊松過程的概率概念密切相關 。 直接從維基百科竊取,泊松過程是“ 事件以恒定的平均速率連續(xù)且獨立地發(fā)生的過程 ”。 所有這些意味著,如果:
? 你有很多活動。
? 它們以一定的速率發(fā)生(不隨時間變化)。
? 僅僅因為一個發(fā)生了另一個發(fā)生的機會不改變。
然后你有一個泊松過程。
一些例子可能是來到服務器的請求,在超市中發(fā)生的交易,或在某個湖中捕魚的鳥類。想象一下頻率為λ的泊松過程(比如,事件每秒發(fā)生一次)。指數(shù)隨機變量模擬事件發(fā)生后下一個事件發(fā)生所需的時間。有趣的是,在泊松過程中 ,事件可以在任何時間間隔內(nèi)發(fā)生在0到無窮大之間(降低概率)的任何地方。
這意味著無論您等待多久,事件都不會發(fā)生非零事件。這也意味著它可能在很短的時間內(nèi)發(fā)生很多次。 在課堂上,我們常常開玩笑的是巴士到達泊松過程。我認為將WhatsApp消息發(fā)送給某些人時的響應時間也符合標準。 但是,λ參數(shù)調(diào)節(jié)事件的頻率。它將使事件實際發(fā)生的預期時間以某個值為中心。這意味著如果我們知道出租車每隔15分鐘通過我們的街區(qū),即使理論上我們可以永遠等待它,我們也很可能不會等待30分鐘。
數(shù)據(jù)科學中的指數(shù)概率分布
這是指數(shù)分布隨機變量的密度函數(shù):
假設您有一個來自變量的樣本,并希望查看它是否可以使用指數(shù)分布變量建模。 最佳λ參數(shù)可以很容易地估計為采樣值平均值的倒數(shù)。指數(shù)變量非常適合用非常罕見但巨大(和平均值)的異常值對任何概率分布進行建模。這是因為它們可以取任何非負值但以較小值為中心,隨著值的增加頻率降低。 在特別是異常繁重的樣本中,您可能希望將λ估計為中位數(shù)而不是平均值,因為中位數(shù)對異常值更為穩(wěn)健。
結論
總而言之,作為數(shù)據(jù)科學家,我認為學習基礎知識對我們很重要。 概率和統(tǒng)計可能不像深度學習或無監(jiān)督機器學習那樣華麗,但它們是數(shù)據(jù)科學的基石。特別是機器學習。 根據(jù)我的經(jīng)驗,提供具有功能的機器學習模型,而不知道他們遵循哪種分布,這是一個糟糕的選擇。 記住無處不在的指數(shù)和正態(tài)概率分布以及它們較小的對應物,對數(shù)正態(tài)分布也是很好的 。 在訓練機器學習模型時,了解它們的屬性,用途和外觀會 改變游戲規(guī)則。在進行任何類型的數(shù)據(jù)分析時,記住它們通常也很好。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03