
導(dǎo)讀:描述“富者愈富,窮者愈窮”的馬太效應(yīng),以及經(jīng)濟(jì)學(xué)中的帕累托法則,其背后的數(shù)學(xué)模型是什么?在統(tǒng)計(jì)學(xué)中,它們可以被抽象成冪律分布。
作者:帕諾斯·盧里達(dá)斯(Panos Louridas)
來(lái)源:大數(shù)據(jù)DT(ID:hzdashuju)
內(nèi)容摘編自《真實(shí)世界的算法:初學(xué)者指南》
我們?cè)诔鞘幸?guī)模中看到的模式:大多數(shù)人類(lèi)居住地區(qū)的規(guī)模達(dá)不到以百萬(wàn)來(lái)計(jì)數(shù),但少數(shù)地區(qū)能達(dá)到數(shù)百萬(wàn)人規(guī)模。在數(shù)字王國(guó)里,大多數(shù)網(wǎng)站的訪問(wèn)量很低,但少數(shù)網(wǎng)站的訪問(wèn)量非常龐大。在文學(xué)領(lǐng)域,大多數(shù)書(shū)籍幾乎無(wú)人閱讀,但少數(shù)書(shū)籍暢銷(xiāo)異常。
所有這些都讓我們回憶起“富者愈富,窮者愈窮”的現(xiàn)象。
在語(yǔ)言學(xué)中,這種現(xiàn)象被稱(chēng)為Zipf定律,以哈佛的語(yǔ)言學(xué)家George Kingsley Zipf的名字命名,他觀察到在一種語(yǔ)言中第i位最常見(jiàn)的單詞出現(xiàn)的頻率正比于1/i。Zipf定律指出,在一個(gè)n個(gè)單詞的語(yǔ)料庫(kù)中,遇到第i位最常見(jiàn)單詞的概率為
其中
數(shù)Hn在數(shù)學(xué)領(lǐng)域出現(xiàn)非常頻繁,值得為它起一個(gè)名字——第n位調(diào)和數(shù)(harmonic number)。這個(gè)名字源自何處?它源于音樂(lè)中的泛音或稱(chēng)和聲。一根弦以一個(gè)基波長(zhǎng)震動(dòng),同時(shí)還以1/2,1/3,1/4,…的諧波長(zhǎng)震動(dòng):這對(duì)應(yīng)一個(gè)無(wú)窮和,當(dāng)n=∞時(shí),它被稱(chēng)為調(diào)和級(jí)數(shù)(harmonic series)。
由于Zipf定律給出了一個(gè)事件的概率,因此也用它命名了對(duì)應(yīng)的概率分布。
在表11-1中,你可以看到一個(gè)英語(yǔ)語(yǔ)料庫(kù)(布朗語(yǔ)料庫(kù),包含981716個(gè)單詞,其中有40234個(gè)不同單詞)中最常見(jiàn)的20個(gè)單詞,其經(jīng)驗(yàn)概率是通過(guò)統(tǒng)計(jì)它們?cè)谡Z(yǔ)料庫(kù)中出現(xiàn)的次數(shù)來(lái)計(jì)算的,而它們的理論概率則是根據(jù)Zipf定律/分布計(jì)算的。簡(jiǎn)言之,我們給出了排名、單詞、經(jīng)驗(yàn)分布和理論分布。
在圖11-4中,我們繪制了表11-1中的數(shù)據(jù)。注意,分布只是為整數(shù)值定義的。我們?cè)黾恿艘粭l差值線來(lái)顯示總體趨勢(shì)。另外注意,理論概率和經(jīng)驗(yàn)概率并不是完全重疊。這是我們將一個(gè)數(shù)學(xué)模型應(yīng)用到現(xiàn)實(shí)世界時(shí)必須要面對(duì)的情況。
▲圖11-4 布朗語(yǔ)料庫(kù)中最常見(jiàn)的20個(gè)單詞的Zipf分布
當(dāng)我們發(fā)現(xiàn)一個(gè)快速下降的趨勢(shì)時(shí),如圖11-4中的趨勢(shì),就有必要檢查一下,如果我們將熟悉的x和y坐標(biāo)軸替換為對(duì)數(shù)坐標(biāo)軸會(huì)發(fā)生什么。在對(duì)數(shù)坐標(biāo)軸中,我們將所有值轉(zhuǎn)換為它們的對(duì)數(shù)后繪制出來(lái),圖11-5給出了與圖11-4等價(jià)的對(duì)數(shù)坐標(biāo)圖:對(duì)每個(gè)y我們使用log y,對(duì)每個(gè)x,我們使用log x。
▲圖11-5 對(duì)數(shù)坐標(biāo)軸下布朗語(yǔ)料庫(kù)中最常見(jiàn)的20個(gè)單詞的Zipf分布
如你所見(jiàn),理論分布的趨勢(shì)現(xiàn)在變?yōu)橐粭l直線,經(jīng)驗(yàn)分布看起來(lái)位于理論預(yù)測(cè)值上方一點(diǎn)。在大多數(shù)情況下,理論分布與我們實(shí)際觀測(cè)的結(jié)果會(huì)有一些不同,而且,兩個(gè)圖只顯示了包含前20個(gè)最常見(jiàn)單詞的子集,因此,基于它們我們不能真正判斷是否吻合。
為了觀察真正發(fā)生了什么,請(qǐng)查看顯示了布朗語(yǔ)料庫(kù)中所有40234個(gè)不同單詞的完整分布的圖11-6和圖11-7。有兩個(gè)現(xiàn)象凸顯出來(lái):首先,除非我們使用對(duì)數(shù)刻度,否則圖是無(wú)用的,這很好地說(shuō)明了分布有多么不均勻,我們必須使用對(duì)數(shù)值,否則任何趨勢(shì)都不可見(jiàn);第二,一旦我們使用了對(duì)數(shù)坐標(biāo)軸,理論值和經(jīng)驗(yàn)觀察結(jié)果的吻合要好得多。
▲圖11-6 布朗語(yǔ)料庫(kù)的經(jīng)驗(yàn)分布和Zipf分布
▲圖11-7 對(duì)數(shù)坐標(biāo)軸下布朗語(yǔ)料庫(kù)的經(jīng)驗(yàn)分布和Zipf分布
在對(duì)數(shù)刻度下,我們能看清所有東西,因?yàn)閆ipf定律是冪率(power law)的一個(gè)特例。冪率是指一個(gè)值出現(xiàn)的概率正比于此值的負(fù)指數(shù),用數(shù)學(xué)語(yǔ)言描述就是:
P(X=x) ∝ cx-k,其中 c > 0,k > 0
在此公式中,符號(hào)∝表示“正比于”。現(xiàn)在我們可以解釋為什么對(duì)數(shù)圖是一條直線了。如果有y=cx-k,我們可得y=log(cx-k)=log c-klog x。最后一部分就是一條直線y,截距等于log c,斜率等于-k。因此當(dāng)我們遇到在對(duì)數(shù)圖里成一條直線的數(shù)據(jù)時(shí),就是其理論分布可能是冪率的明顯信號(hào)。
經(jīng)濟(jì)學(xué)中冪率的一個(gè)例子是帕累托法則,它指出80%的結(jié)果源自20%的起因。在管理學(xué)和流行的大眾理解中,其含義通常變?yōu)?0%的人做了80%的工作。在帕累托法則中可以證明P(X=x)=c/x1-θ,其中θ=log 0.80/log 0.20。
冪率是如此普遍,以至于在過(guò)去二十年間產(chǎn)生了一個(gè)研究相關(guān)現(xiàn)象的完整領(lǐng)域似乎任何事情都有冪率現(xiàn)象隱藏在背后。
除了在介紹馬太效應(yīng)時(shí)已經(jīng)提到的例子外,我們還發(fā)現(xiàn)冪率出現(xiàn)在如科技論文的引用、地震震級(jí)和月球隕石坑的直徑等如此不同的領(lǐng)域中,還有生物物種隨時(shí)間推移而增多、分形學(xué)、食肉動(dòng)物的覓食模式以及太陽(yáng)耀斑的射線峰值強(qiáng)度,其中也都有冪率現(xiàn)象存在。
這個(gè)列表還能繼續(xù)增加:一天中長(zhǎng)途電話(huà)的數(shù)量、停電影響的人群數(shù)量、姓氏出現(xiàn)的頻率等。
這種規(guī)律有時(shí)似乎是憑空冒出來(lái)的。例如,一個(gè)相關(guān)的定律是Benford定律(Benford's law),因物理學(xué)家Frank Benford的名字而命名,也被稱(chēng)為第一位法則(First-Digit law)。它指出了在很多種類(lèi)的數(shù)據(jù)中數(shù)字頻率的分布。
具體地,它指出,一個(gè)數(shù)的第一位數(shù)字是1的概率是30%,從2到9每個(gè)數(shù)字出現(xiàn)在第一位的頻率逐漸降低。用數(shù)學(xué)語(yǔ)言表達(dá),這個(gè)定律指出,一個(gè)數(shù)的首位數(shù)字是d=1,2,…,9的概率是
如果我們計(jì)算每個(gè)數(shù)字的概率,就會(huì)得到表11-2中的結(jié)果。表中的數(shù)值告訴我們,如果數(shù)據(jù)庫(kù)中有一組數(shù),其首位數(shù)字為1的概率約為30%,大約有17%的數(shù)會(huì)以2開(kāi)頭,大約有12%的數(shù)會(huì)以3開(kāi)頭,依此類(lèi)推。
圖11-8中給出了Benford定律的一個(gè)圖示??雌饋?lái)和齊普夫分布沒(méi)有太大不同,因此我們可能想知道如果用對(duì)數(shù)坐標(biāo)軸繪制的話(huà)圖會(huì)變成什么樣子。圖11-9給出了結(jié)果,幾乎就是一條直線,意味著B(niǎo)enford定律與冪率相關(guān)。
▲圖11-8 Benford定律
▲圖11-9 對(duì)數(shù)坐標(biāo)軸下的Benford定律
Benford定律的廣度令人震驚。它適用于如物理常量、世界上最高建筑物的高度、人口數(shù)、股票價(jià)格、街道地址等如此不同的數(shù)據(jù)集,還有很多。
實(shí)際上,它看起來(lái)如此普遍,以至于一種檢測(cè)偽造數(shù)據(jù)的方法就是檢查包含的數(shù)值是否不服從Benford定律。欺詐者會(huì)修改真實(shí)值或用隨機(jī)值替代真實(shí)值,他們不會(huì)注意得到的數(shù)值是否服從Benford定律。因此如果我們遇到一個(gè)看起來(lái)可疑的數(shù)據(jù)集,最好先檢查首位數(shù)字是否服從Benford概率。
如果我們的搜索模式反映了數(shù)據(jù)分布模式,即如果記錄的關(guān)鍵字服從Benford定律,且我們正在搜索的關(guān)鍵字也服從Benford定律的話(huà),Benford定律可能影響我們的搜索。如果是這種情況,會(huì)有更多的記錄具有以1開(kāi)頭的關(guān)鍵字,對(duì)這些關(guān)鍵字的搜索也會(huì)更多,以2開(kāi)頭的關(guān)鍵字少一些,依此類(lèi)推。
關(guān)于作者:帕諾斯·盧里達(dá)斯(Panos Louridas),曼徹斯特大學(xué)軟件工程博士,現(xiàn)為雅典經(jīng)濟(jì)與商業(yè)大學(xué)管理科學(xué)與技術(shù)系副教授。在加入高校之前,曾在投資銀行擔(dān)任高級(jí)軟件工程師。
本文摘編自《真實(shí)世界的算法:初學(xué)者指南》,經(jīng)出版方授權(quán)發(fā)布。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03