
趣味數(shù)據(jù)挖掘 |“被打”和“北大” 的關(guān)聯(lián)
小時候喜歡讀趣味數(shù)理化,所以久有一個小心愿,寫一組趣味數(shù)據(jù)挖掘的科普博文。 要把數(shù)據(jù)挖掘的一些概念講得通俗有趣,需要好的例子,正搜尋中,一個有趣的、適合解釋關(guān)聯(lián)規(guī)則的例子就冒出來了。
科學(xué)網(wǎng)上三位博主周濤、呂喆、程智在博文中對“狼爸打子成才,把三個子女送進了北大”的事情做了定性分析。
本文借此例來說明數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則中支持度、置信度和興趣度概念,順便對此事做個定量分析, 同時也作為趣味數(shù)據(jù)挖掘系列博文的開篇。
這個關(guān)聯(lián)規(guī)則可寫成下列形式:
●R1: 被打 –> 北大, 支持度 s=?, 置信度 c=?
或反過來
●R2: 北大 –> 被打, 支持度 s=?, 置信度 c=? (觀察因果的角度與R1有所不同)
下面將其計算支持度、置信度的上限,為簡單,采用了一些略有放大的粗略假定和估計。
全國每年高考人數(shù)大約1000萬人(2008 :1050萬,2009:1020萬,2010: 957萬);把“狼爸”的三個孩子算成同一年進北大(支持度放大三倍),假定同年進北大、且都有“被打”的經(jīng)歷有3K名(支持度大約放大3K倍)。于是,全國考生中 “被打”且 “進北大” 的支持度s 為:支持度 s = 3K/107 =3K*10-7
狼爸的故事表明,這里k≥1, 據(jù)常識估計K<10 ( 如果輕率放大K,北大學(xué)生會提出抗議,幸好,這里只是反面的假定 ),于是:支持度 s < 3*10-6 (支持度沒有因果方向, 對R1和R2都適用)
對這樣的概率比較小的事件,成熟彩民也會只當做娛樂,實在不值得媒體大驚小怪。
2.1 在北京大學(xué)內(nèi)計算
規(guī)則R1“被打–> 北大” 的置信度計算稍有點難, 留到2.2小節(jié)解析。
我們先計算 R2:“北大–>被打”的置信度,它也同樣能說明某種關(guān)聯(lián),北大本科生 14000人(大約),平均每年收學(xué)生3500人,設(shè)其中挨過家長打的有3K人(1≤k<10),沒有挨打的不少于3470人,則:
●北大–>被打, 置信度為 3K/3500 < 0.86%
●北大–>不被打, 置信度為 3470/3500 > 99.14%
可見,“被打”和“北大”的關(guān)聯(lián) 很小,不足為信,當不得真。
2.2 計算“被打–>北大”的置信度 (confidence)
如上面假設(shè),假定 同年全國被打的N名,其中進入北大的3K名(如上估計,0≤k<10)則
R1: 被打–>北大, 置信度 = 3k/N ,
●如果N很大,k>0,置信度就比較小(不敢輕易估計N的具體數(shù)值,但不希望N大,那是教育的悲劇),
●如果N不太大,K>0,置信度就比較大。
●如果某年,k=0,不管N是多大,那一年“被打–>北大”的置信度 為0.
2.3 在該家庭范圍內(nèi)計算,兼議規(guī)則的興趣度:
“狼爸”有四個孩子(不知為什么能夠超生),估計四個都挨過打,三個上了北大
被打–> 北大, 支持度 0.75, 置信度 0.75。 (1)
這條規(guī)則一旦走出其家門, 就不成立了。所以,準確表達為:
(該家,被打) –> 北大, 支持度 0.75, 置信度 0.75。 (2)
為了說明其無意義,我們還可以挖掘出一條千真萬確的關(guān)聯(lián)規(guī)則:
(該家子女,每天吃飯) –> 北大, 支持度 0.75, 置信度 0.75。 (3)
如果把“每天吃飯”改為任意的保健品,關(guān)聯(lián)規(guī)則也成立,比“打”更具有有誘惑力,說不定還有經(jīng)濟效益。這條無意義的關(guān)聯(lián)規(guī)則,說明需引入關(guān)聯(lián)規(guī)則的興趣度,此概念稍復(fù)雜,只簡介其大致思想。
當關(guān)聯(lián)規(guī)則左邊是多個項,如上面的(3)式,可以用減項法測試每個項的貢獻,這類似過敏疾病患者判斷過敏源,左邊甚至可以減少到空集。在(3)式中,
(a)把“每天吃飯”去掉, 不減少支持度和置信度,說明此項冗余;
(b)如把“該家子女”去掉,則相當于在全國的大數(shù)據(jù)集上挖掘, 支持度和置信度立刻大減,說明這個項是至關(guān)重要的。
如果一個關(guān)聯(lián)規(guī)則中,每一個項都是重要的,這個關(guān)聯(lián)規(guī)則基本上是有意義的。
這里有幾個估計,(1) 所謂的“打”,實際上是高高舉起,輕輕放下,是嚴格的指代詞,還不是那種打得皮開肉綻的打(那樣會打掉尊嚴和信心,就悲劇了);(2)老大比較懂事;(3)老大對老二老三的影響遠勝于老爸打的效果?!袄前帧痹谕诰?a href='/map/guanlianguize/' style='color:#000;font-size:inherit;'>關(guān)聯(lián)規(guī)則時候,忽略了這一因素,“父假長子(女)之威”,用數(shù)據(jù)挖掘的行話,犯了“No interesteness” 的錯誤(這是一個稍復(fù)雜的概念),得出了錯誤的挖掘結(jié)論。
在輸入文本的糾錯技術(shù)中,常關(guān)注詞與詞的發(fā)聲關(guān)聯(lián),或諧音關(guān)聯(lián),“被打”和“北大”的普通話發(fā)音都是“beida”,用拼音輸入法時候,二者容易混淆,又例如,本博文在輸入最后一節(jié)小標題“辨才需待七年期”時,曾把 “辨才”輸入為“辯才“(謝謝22樓的朋友的指正),糾錯軟件會把近音詞按近似度排序列出。因為在語音近似的意義上:
被打–> 北大,支持度 100%, 置信度 100%
于是,在用拼音方法輸入“被打”之后,作輸入糾錯檢查時,軟件列出候選詞中的Top 1 就是“北大”,或許可以作為中學(xué)生被打后的一種安慰。
這一技術(shù)在處理網(wǎng)絡(luò)文本,微博挖掘時也很有用,如規(guī)范 “悲劇 Vs 杯具”,“p2p Vs. P-to-P”,”U Vs. YOU“,以及許多網(wǎng)絡(luò)同聲縮略語等等。
過去講關(guān)聯(lián)規(guī)則時候,常常用啤酒尿布的故事,有三個要點:
(a)表象分析:說,沃爾瑪通過抽象的銷售數(shù)據(jù)挖掘,發(fā)現(xiàn)啤酒和尿布常被男性顧客們同時購買,在挖掘出來的若干條形如 ( Xi–>Yi ,s=? c=? ) 的規(guī)則中,這一條支持度和置信度都比較高;
(b)內(nèi)在聯(lián)系 (這不屬于數(shù)據(jù)挖掘,而屬于管理)調(diào)查發(fā)現(xiàn),嬰兒之父下班為孩子買尿布時順手買回自己愛喝的啤酒;
(c )促銷措施 (屬于促銷手段),把啤酒和尿布放在同一個貨架 ,或進一步地,把啤酒降價,把尿布漲價,吸引嬰兒之父的消費。
現(xiàn)在人們認為,這只是一個故事,或許,“狼爸”的例子更貼近,更容易消除對概念的誤解。
在人們沒有掌握行星運動規(guī)律之前,人們從歷史觀測數(shù)據(jù)去找規(guī)律,找匹配。第谷是一位實驗天文學(xué)家,歷經(jīng)40年觀察,積累了關(guān)于行星運動的大量數(shù)據(jù)。
開普勒在第谷的四十年數(shù)據(jù)上,用手工作數(shù)據(jù)挖掘,挖掘了十年,發(fā)現(xiàn)了行星運動三大定律。 Candida Ferreira采用基因表達式編程(GEP)方法,用10個 個體, 進化50代,只需要少得多的數(shù)據(jù),幾秒鐘就可完成(參見文獻[1],P253-257 )。有了這個定律,如今計算某個行星的位置,就不再需要數(shù)據(jù)挖掘,而直接用公式了。所以數(shù)據(jù)挖掘是在不知道規(guī)律時,而要猜自然之謎時的無奈之舉。
如今,未破解的自然之謎還很多,數(shù)據(jù)挖掘雖屬無奈之舉,卻很有效,挖掘出正確的表達形式(公式,定律等)后,再設(shè)法用理論或模型 來作動力學(xué)的或構(gòu)造性的解釋。
上面的分析表明,數(shù)據(jù)挖掘能從能從一些平常熟視無睹的事實中,挖掘出令人驚奇的結(jié)果。所以,有些國家把數(shù)據(jù)挖掘專業(yè)看作是敏感專業(yè),出國學(xué)數(shù)據(jù)挖掘的學(xué)生去辦留學(xué)簽證時,常常被Check ,復(fù)查,偶爾也聽說過被拒簽。
“狼爸”的三個子女進了北大,還不能就說是成功了,今后還要作科研,找工作,也許還要讀研,寫論文…, 等待他們的競爭還多,要等將來工作上出成果了,才算成功。
有道是:試玉要燒三日滿,辨才需待七年期。希望他們在七年或者十年之后能真正成才,那時的成才,與現(xiàn)在的“打”,實在是沒有什么關(guān)聯(lián)了
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03