
作者:小伍哥
來源:小伍哥聊風(fēng)控
大家好,我是小伍哥,今天給大家分享一個(gè)好像有用,好像又沒啥用的奇奇怪怪的知識(shí),風(fēng)控嘛,就是玩兒。
〇、“本福特定律”是什么?
“本福特定律”(Benford's law),也稱“本福特法則”,它說明一堆從實(shí)際生活得出的數(shù)據(jù)中,以1為首位數(shù)字的數(shù)(如12、135、1083首位數(shù)字均為1)的出現(xiàn)概率約為總數(shù)的三成,接近人們主觀直覺得出的期望值1/9的3倍。
推廣來說,越大的數(shù),以它為首位數(shù)字甚至是首幾位數(shù)字出現(xiàn)的概率就越低。在十進(jìn)制首位數(shù)字的出現(xiàn)概率中,1最高(30.1%),逐漸遞減,9最低(4.6%)。
在美國(guó)大選中,有人就使用了該定律質(zhì)疑拜登選票異常,在統(tǒng)計(jì)了特朗普和拜登在威斯康星州密爾沃基縣470多個(gè)選區(qū)的得票數(shù)首位數(shù)字后發(fā)現(xiàn),特朗普的這一曲線較為符合“本福特定律”的曲線,而拜登的曲線形狀則出現(xiàn)異常。拜登在包括威斯康星州密爾沃基、伊利諾伊州芝加哥和賓夕法尼亞州阿勒格尼的曲線均不滿足“本福特定律”,而與此同時(shí),特朗普在多個(gè)地區(qū)的曲線卻又正好滿足或基本滿足該定律。
一、基本概念
本福特定律(也稱為第一位數(shù)法或本福特分布)是一種概率分布,許多統(tǒng)計(jì)學(xué)的(但不是全部)數(shù)據(jù)集的第一個(gè)數(shù)字符合。例如,
15435 首位是 156 首位是 59001 首位是 9199 首位是 19 首位是 9
本福特定律通??捎米髌墼p性數(shù)據(jù)的指標(biāo),并可協(xié)助審計(jì)會(huì)計(jì)數(shù)據(jù)。本福特的分布是一種不均勻的分布,較小的數(shù)字比較大的數(shù)字有更大的出現(xiàn)j可能。
二、數(shù)位分布概率第1位數(shù)字出現(xiàn)概率10.30120.17630.12540.09750.07960.06770.05880.05190.046
三、本福特分布圖
四、本福特分布公式
六、本福特定律適用于哪類數(shù)據(jù)?
需要注意的是,“本福特定律”也有一定的使用條件。首先,數(shù)據(jù)樣本需要盡可能的多,至少要在3000個(gè)以上;其次,數(shù)據(jù)樣本跨度要大,比如人的身高就不滿足“本福特定律”,因?yàn)榇蠖鄶?shù)人身高在1米至2米這一區(qū)間;最后,數(shù)據(jù)樣本應(yīng)是自然的,不能有人為操控,例如手機(jī)號(hào)碼和郵政編碼不滿足“本福特定律”,因?yàn)檫@些都是1開頭或特定數(shù)字開頭。
也正是因?yàn)橛刑囟ㄊ褂脳l件,“本福特定律”可用于檢查各項(xiàng)數(shù)據(jù)是否存在造假行為,因?yàn)槿粲腥藶橐蛩赜绊憯?shù)據(jù),所得首位數(shù)字的概率及概率曲線圖將不符合“本福特定律”。
在大部分情況下,本福特定律可以適用于具有以下特征的數(shù)據(jù):
雖然有以上的限制,但實(shí)際上在會(huì)計(jì)中,符合上述特征的數(shù)據(jù)非常普遍。
七、會(huì)計(jì)欺詐檢測(cè)與取證分析
應(yīng)收賬款,應(yīng)付賬款,銷售和費(fèi)用數(shù)據(jù)均基于兩種類型的變量相乘的值,即價(jià)格和數(shù)量。單獨(dú),價(jià)格和數(shù)量不太可能符合本福特定律,但很可能會(huì)成倍增加。這種會(huì)計(jì)數(shù)據(jù)也可能是正確的。大公司的交易級(jí)會(huì)計(jì)數(shù)據(jù)幾乎總是會(huì)有大量的觀察結(jié)果。
如果某些會(huì)計(jì)數(shù)據(jù)預(yù)計(jì)符合本福特定律但不符合,則并不一定意味著數(shù)據(jù)是欺詐性的。然而,這將為進(jìn)一步調(diào)查提供充分的理由。
以下是如何對(duì)會(huì)計(jì)數(shù)據(jù)執(zhí)行本福特分布分析的一些示例。
1)大型企業(yè)的應(yīng)付賬款數(shù)據(jù)
分析顯示,大型企業(yè)的應(yīng)付幾款的數(shù)據(jù)的數(shù)字第一位數(shù)字中有很大比例的1。經(jīng)過仔細(xì)檢查后發(fā)現(xiàn),與上一個(gè)會(huì)計(jì)期間相比,還有更多的支付支票略高于1000美元。前一期的大部分支票金額低于100美元。
在一起財(cái)務(wù)調(diào)查中,負(fù)責(zé)的財(cái)務(wù)官隨后受到質(zhì)疑,他們回答稱他們決定匯總金額以試圖減少支票。低數(shù)字金額的合并是偏離本福特定律的常見解釋,使財(cái)務(wù)官的解釋變得合情合理。
經(jīng)過進(jìn)一步調(diào)查,據(jù)透露,該官員正在向他們創(chuàng)建的虛假殼公司寫支票。
2)本福特的分析應(yīng)用于組織的費(fèi)用數(shù)據(jù)
最初的本福特分析顯示,數(shù)據(jù)的第一位數(shù)字中“非常大”的比例非常大。經(jīng)過仔細(xì)檢查,特定費(fèi)用的許多條目達(dá)到45美元。發(fā)現(xiàn)費(fèi)用對(duì)于運(yùn)營(yíng)組織至關(guān)重要,必須經(jīng)常支付。調(diào)查了這筆特殊費(fèi)用,然后被認(rèn)為是合法的。
然后將Benford的分析應(yīng)用于費(fèi)用數(shù)據(jù)的副本,但省略了特定的頻繁費(fèi)用。發(fā)現(xiàn)排除該特定費(fèi)用的數(shù)據(jù)與本福特的分布非常接近。
超越第一個(gè)數(shù)字推廣本福特定律通過查看第一個(gè)數(shù)字以外的數(shù)字,可以增強(qiáng)Benford的分析。
八、廣義本福特的分布表
本表的作用是表示分布規(guī)則還可以作用在不同的數(shù)位上。比如,0出現(xiàn)在第2位的概率是 11.97%,要高于平均值10%。
注意:由以上數(shù)據(jù)可以看出,在廣義分布中,數(shù)字的出現(xiàn)概率要比第一個(gè)數(shù)字更加均勻。
九、一般分布公式
根據(jù)上面的數(shù)據(jù),我們可以得到一般的分布公式
十、上市公司年報(bào)凈利潤(rùn)數(shù)據(jù)驗(yàn)證本福特定律
我們用上市公司的利潤(rùn)數(shù)據(jù)來驗(yàn)證下本福特定律。
我們采用tushare接口獲取2019、2020年年報(bào)(第4季度)數(shù)據(jù),取其中的凈利潤(rùn)數(shù)據(jù),然后我們只考慮凈利潤(rùn)為正的情況。
xxxxxxxxxxbr
# 驗(yàn)證本福特定律import tushare as ts # 股票數(shù)據(jù)獲取的一個(gè)包import mathimport matplotlib.pyplot as pltimport pandas as pdfrom functools import reducefrom pylab import *# 這一句讓pyplot支持中文顯示mpl.rcParams['font.sans-serif'] = ['SimHei']# 獲取首位的函數(shù)def firstDigital(x): x= round(x) while x >= 10: x //= 10 return x# 首位概率累加def addDigit(lst, digit): lst[digit-1]+=1 return lst# 理論值:每位概率理論值用于對(duì)比th_freq=[math.log((x+1)/x, 10) for x in range(1,10)]#分別獲得2019,2020年報(bào)數(shù)據(jù)df= ts.get_report_data(2019, 4)# 只取凈利潤(rùn)>0的數(shù)據(jù),首先進(jìn)行次數(shù)統(tǒng)計(jì)freq= reduce(addDigit, map(firstDigital, filter(lambda x:x>0, df['net_profits'])), [0]*9)# 再計(jì)算實(shí)際概率pr_freq= [x/sum(freq) for x in freq]print(th_freq)print(pr_freq)# 作圖plt.title('用上市公司2019年報(bào)凈利潤(rùn)數(shù)據(jù)驗(yàn)證本福特定律')plt.xlabel("首位數(shù)字")plt.ylabel("概率")plt.xticks(range(9), range(1,10))plt.plot(pr_freq,"r-",linewidth=2, label= '實(shí)際值')plt.plot(pr_freq, "go", markersize=5)plt.plot(th_freq,"b-",linewidth=1, label= '理論值')plt.grid(True)plt.legend()plt.show()
xxxxxxxxxxbr # 驗(yàn)證本福特定律brimport tushare as ts # 股票數(shù)據(jù)獲取的一個(gè)包brimport mathbrimport matplotlib.pyplot as pltbrimport pandas as pdbrfrom functools import reducebrfrom pylab import *br# 這一句讓pyplot支持中文顯示brmpl.rcParams['font.sans-serif'] = ['SimHei']br# 獲取首位的函數(shù)brdef firstDigital(x):br x= round(x)br while x >= 10:br x //= 10br return xbr# 首位概率累加brdef addDigit(lst, digit):br lst[digit-1]+=1br return lstbr# 理論值:每位概率理論值用于對(duì)比brth_freq=[math.log((x+1)/x, 10) for x in range(1,10)]br#分別獲得2019,2020年報(bào)數(shù)據(jù)brdf= ts.get_report_data(2019, 4)br# 只取凈利潤(rùn)>0的數(shù)據(jù),首先進(jìn)行次數(shù)統(tǒng)計(jì)brfreq= reduce(addDigit, map(firstDigital, filter(lambda x:x>0, df['net_profits'])), [0]*9)br# 再計(jì)算實(shí)際概率brpr_freq= [x/sum(freq) for x in freq]brprint(th_freq)brprint(pr_freq)br# 作圖brplt.title('用上市公司2019年報(bào)凈利潤(rùn)數(shù)據(jù)驗(yàn)證本福特定律')brplt.xlabel("首位數(shù)字")brplt.ylabel("概率")brplt.xticks(range(9), range(1,10))brplt.plot(pr_freq,"r-",linewidth=2, label= '實(shí)際值')brplt.plot(pr_freq, "go", markersize=5)brplt.plot(th_freq,"b-",linewidth=1, label= '理論值')brplt.grid(True)brplt.legend()brplt.show()
xxxxxxxxxxbr br
從圖形上看,兩者擬合度還是比較高的。據(jù)說有些上市公司數(shù)據(jù)造假就是被用本福特定律查出來的。所以不認(rèn)真學(xué)習(xí)的話,造假都造不好。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10