
趣味數(shù)據(jù)挖掘 |“被打”和“北大” 的關聯(lián)
小時候喜歡讀趣味數(shù)理化,所以久有一個小心愿,寫一組趣味數(shù)據(jù)挖掘的科普博文。 要把數(shù)據(jù)挖掘的一些概念講得通俗有趣,需要好的例子,正搜尋中,一個有趣的、適合解釋關聯(lián)規(guī)則的例子就冒出來了。
科學網(wǎng)上三位博主周濤、呂喆、程智在博文中對“狼爸打子成才,把三個子女送進了北大”的事情做了定性分析。
本文借此例來說明數(shù)據(jù)挖掘中關聯(lián)規(guī)則中支持度、置信度和興趣度概念,順便對此事做個定量分析, 同時也作為趣味數(shù)據(jù)挖掘系列博文的開篇。
這個關聯(lián)規(guī)則可寫成下列形式:
●R1: 被打 –> 北大, 支持度 s=?, 置信度 c=?
或反過來
●R2: 北大 –> 被打, 支持度 s=?, 置信度 c=? (觀察因果的角度與R1有所不同)
下面將其計算支持度、置信度的上限,為簡單,采用了一些略有放大的粗略假定和估計。
全國每年高考人數(shù)大約1000萬人(2008 :1050萬,2009:1020萬,2010: 957萬);把“狼爸”的三個孩子算成同一年進北大(支持度放大三倍),假定同年進北大、且都有“被打”的經(jīng)歷有3K名(支持度大約放大3K倍)。于是,全國考生中 “被打”且 “進北大” 的支持度s 為:支持度 s = 3K/107 =3K*10-7
狼爸的故事表明,這里k≥1, 據(jù)常識估計K<10 ( 如果輕率放大K,北大學生會提出抗議,幸好,這里只是反面的假定 ),于是:支持度 s < 3*10-6 (支持度沒有因果方向, 對R1和R2都適用)
對這樣的概率比較小的事件,成熟彩民也會只當做娛樂,實在不值得媒體大驚小怪。
2.1 在北京大學內計算
規(guī)則R1“被打–> 北大” 的置信度計算稍有點難, 留到2.2小節(jié)解析。
我們先計算 R2:“北大–>被打”的置信度,它也同樣能說明某種關聯(lián),北大本科生 14000人(大約),平均每年收學生3500人,設其中挨過家長打的有3K人(1≤k<10),沒有挨打的不少于3470人,則:
●北大–>被打, 置信度為 3K/3500 < 0.86%
●北大–>不被打, 置信度為 3470/3500 > 99.14%
可見,“被打”和“北大”的關聯(lián) 很小,不足為信,當不得真。
2.2 計算“被打–>北大”的置信度 (confidence)
如上面假設,假定 同年全國被打的N名,其中進入北大的3K名(如上估計,0≤k<10)則
R1: 被打–>北大, 置信度 = 3k/N ,
●如果N很大,k>0,置信度就比較小(不敢輕易估計N的具體數(shù)值,但不希望N大,那是教育的悲劇),
●如果N不太大,K>0,置信度就比較大。
●如果某年,k=0,不管N是多大,那一年“被打–>北大”的置信度 為0.
2.3 在該家庭范圍內計算,兼議規(guī)則的興趣度:
“狼爸”有四個孩子(不知為什么能夠超生),估計四個都挨過打,三個上了北大
被打–> 北大, 支持度 0.75, 置信度 0.75。 (1)
這條規(guī)則一旦走出其家門, 就不成立了。所以,準確表達為:
(該家,被打) –> 北大, 支持度 0.75, 置信度 0.75。 (2)
為了說明其無意義,我們還可以挖掘出一條千真萬確的關聯(lián)規(guī)則:
(該家子女,每天吃飯) –> 北大, 支持度 0.75, 置信度 0.75。 (3)
如果把“每天吃飯”改為任意的保健品,關聯(lián)規(guī)則也成立,比“打”更具有有誘惑力,說不定還有經(jīng)濟效益。這條無意義的關聯(lián)規(guī)則,說明需引入關聯(lián)規(guī)則的興趣度,此概念稍復雜,只簡介其大致思想。
當關聯(lián)規(guī)則左邊是多個項,如上面的(3)式,可以用減項法測試每個項的貢獻,這類似過敏疾病患者判斷過敏源,左邊甚至可以減少到空集。在(3)式中,
(a)把“每天吃飯”去掉, 不減少支持度和置信度,說明此項冗余;
(b)如把“該家子女”去掉,則相當于在全國的大數(shù)據(jù)集上挖掘, 支持度和置信度立刻大減,說明這個項是至關重要的。
如果一個關聯(lián)規(guī)則中,每一個項都是重要的,這個關聯(lián)規(guī)則基本上是有意義的。
這里有幾個估計,(1) 所謂的“打”,實際上是高高舉起,輕輕放下,是嚴格的指代詞,還不是那種打得皮開肉綻的打(那樣會打掉尊嚴和信心,就悲劇了);(2)老大比較懂事;(3)老大對老二老三的影響遠勝于老爸打的效果?!袄前帧痹谕诰?a href='/map/guanlianguize/' style='color:#000;font-size:inherit;'>關聯(lián)規(guī)則時候,忽略了這一因素,“父假長子(女)之威”,用數(shù)據(jù)挖掘的行話,犯了“No interesteness” 的錯誤(這是一個稍復雜的概念),得出了錯誤的挖掘結論。
在輸入文本的糾錯技術中,常關注詞與詞的發(fā)聲關聯(lián),或諧音關聯(lián),“被打”和“北大”的普通話發(fā)音都是“beida”,用拼音輸入法時候,二者容易混淆,又例如,本博文在輸入最后一節(jié)小標題“辨才需待七年期”時,曾把 “辨才”輸入為“辯才“(謝謝22樓的朋友的指正),糾錯軟件會把近音詞按近似度排序列出。因為在語音近似的意義上:
被打–> 北大,支持度 100%, 置信度 100%
于是,在用拼音方法輸入“被打”之后,作輸入糾錯檢查時,軟件列出候選詞中的Top 1 就是“北大”,或許可以作為中學生被打后的一種安慰。
這一技術在處理網(wǎng)絡文本,微博挖掘時也很有用,如規(guī)范 “悲劇 Vs 杯具”,“p2p Vs. P-to-P”,”U Vs. YOU“,以及許多網(wǎng)絡同聲縮略語等等。
過去講關聯(lián)規(guī)則時候,常常用啤酒尿布的故事,有三個要點:
(a)表象分析:說,沃爾瑪通過抽象的銷售數(shù)據(jù)挖掘,發(fā)現(xiàn)啤酒和尿布常被男性顧客們同時購買,在挖掘出來的若干條形如 ( Xi–>Yi ,s=? c=? ) 的規(guī)則中,這一條支持度和置信度都比較高;
(b)內在聯(lián)系 (這不屬于數(shù)據(jù)挖掘,而屬于管理)調查發(fā)現(xiàn),嬰兒之父下班為孩子買尿布時順手買回自己愛喝的啤酒;
(c )促銷措施 (屬于促銷手段),把啤酒和尿布放在同一個貨架 ,或進一步地,把啤酒降價,把尿布漲價,吸引嬰兒之父的消費。
現(xiàn)在人們認為,這只是一個故事,或許,“狼爸”的例子更貼近,更容易消除對概念的誤解。
在人們沒有掌握行星運動規(guī)律之前,人們從歷史觀測數(shù)據(jù)去找規(guī)律,找匹配。第谷是一位實驗天文學家,歷經(jīng)40年觀察,積累了關于行星運動的大量數(shù)據(jù)。
開普勒在第谷的四十年數(shù)據(jù)上,用手工作數(shù)據(jù)挖掘,挖掘了十年,發(fā)現(xiàn)了行星運動三大定律。 Candida Ferreira采用基因表達式編程(GEP)方法,用10個 個體, 進化50代,只需要少得多的數(shù)據(jù),幾秒鐘就可完成(參見文獻[1],P253-257 )。有了這個定律,如今計算某個行星的位置,就不再需要數(shù)據(jù)挖掘,而直接用公式了。所以數(shù)據(jù)挖掘是在不知道規(guī)律時,而要猜自然之謎時的無奈之舉。
如今,未破解的自然之謎還很多,數(shù)據(jù)挖掘雖屬無奈之舉,卻很有效,挖掘出正確的表達形式(公式,定律等)后,再設法用理論或模型 來作動力學的或構造性的解釋。
上面的分析表明,數(shù)據(jù)挖掘能從能從一些平常熟視無睹的事實中,挖掘出令人驚奇的結果。所以,有些國家把數(shù)據(jù)挖掘專業(yè)看作是敏感專業(yè),出國學數(shù)據(jù)挖掘的學生去辦留學簽證時,常常被Check ,復查,偶爾也聽說過被拒簽。
“狼爸”的三個子女進了北大,還不能就說是成功了,今后還要作科研,找工作,也許還要讀研,寫論文…, 等待他們的競爭還多,要等將來工作上出成果了,才算成功。
有道是:試玉要燒三日滿,辨才需待七年期。希望他們在七年或者十年之后能真正成才,那時的成才,與現(xiàn)在的“打”,實在是沒有什么關聯(lián)了
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10