99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀趣味數(shù)據(jù)挖掘 |“被打”和“北大” 的關聯(lián)

趣味數(shù)據(jù)挖掘 |“被打”和“北大” 的關聯(lián)

2016-10-14

趣味數(shù)據(jù)挖掘 |“被打”和“北大” 的關聯(lián)

小時候喜歡讀趣味數(shù)理化，所以久有一個小心愿，寫一組趣味數(shù)據(jù)挖掘的科普博文。要把數(shù)據(jù)挖掘的一些概念講得通俗有趣，需要好的例子，正搜尋中，一個有趣的、適合解釋關聯(lián)規(guī)則的例子就冒出來了。

科學網(wǎng)上三位博主周濤、呂喆、程智在博文中對“狼爸打子成才，把三個子女送進了北大”的事情做了定性分析。

本文借此例來說明數(shù)據(jù)挖掘中關聯(lián)規(guī)則中支持度、置信度和興趣度概念，順便對此事做個定量分析，同時也作為趣味數(shù)據(jù)挖掘系列博文的開篇。

這個關聯(lián)規(guī)則可寫成下列形式：

●R1：被打 –> 北大，支持度 s=?, 置信度 c=?

或反過來

●R2: 北大 –> 被打，支持度 s=?, 置信度 c=? (觀察因果的角度與R1有所不同)

下面將其計算支持度、置信度的上限，為簡單，采用了一些略有放大的粗略假定和估計。

1 支持度 (support)

全國每年高考人數(shù)大約1000萬人(2008 ：1050萬，2009:1020萬，2010: 957萬);把“狼爸”的三個孩子算成同一年進北大(支持度放大三倍)，假定同年進北大、且都有“被打”的經(jīng)歷有3K名(支持度大約放大3K倍)。于是，全國考生中 “被打”且 “進北大” 的支持度s 為：支持度 s = 3K/107 =3K*10-7

狼爸的故事表明，這里k≥1, 據(jù)常識估計K<10 ( 如果輕率放大K，北大學生會提出抗議，幸好，這里只是反面的假定 )，于是：支持度 s < 3*10-6 (支持度沒有因果方向，對R1和R2都適用)

對這樣的概率比較小的事件，成熟彩民也會只當做娛樂，實在不值得媒體大驚小怪。

2 計算“北大–>被打”的置信度 (confidence)

2.1 在北京大學內計算

規(guī)則R1“被打–> 北大” 的置信度計算稍有點難，留到2.2小節(jié)解析。

我們先計算 R2：“北大–>被打”的置信度，它也同樣能說明某種關聯(lián)，北大本科生 14000人(大約)，平均每年收學生3500人，設其中挨過家長打的有3K人(1≤k<10)，沒有挨打的不少于3470人，則：

●北大–>被打，置信度為 3K/3500 < 0.86%

●北大–>不被打，置信度為 3470/3500 > 99.14%

可見，“被打”和“北大”的關聯(lián) 很小，不足為信，當不得真。

2.2 計算“被打–>北大”的置信度 (confidence)

如上面假設，假定同年全國被打的N名，其中進入北大的3K名(如上估計，0≤k<10)則

R1: 被打–>北大，置信度 = 3k/N ,

●如果N很大，k>0,置信度就比較小(不敢輕易估計N的具體數(shù)值,但不希望N大，那是教育的悲劇)，

●如果N不太大，K>0,置信度就比較大。

●如果某年，k=0，不管N是多大，那一年“被打–>北大”的置信度為0.

2.3 在該家庭范圍內計算，兼議規(guī)則的興趣度：

“狼爸”有四個孩子(不知為什么能夠超生)，估計四個都挨過打，三個上了北大

被打–> 北大，支持度 0.75，置信度 0.75。 (1)

這條規(guī)則一旦走出其家門，就不成立了。所以，準確表達為：

(該家，被打) –> 北大，支持度 0.75，置信度 0.75。 (2)

為了說明其無意義，我們還可以挖掘出一條千真萬確的關聯(lián)規(guī)則：

(該家子女，每天吃飯) –> 北大，支持度 0.75，置信度 0.75。 (3)

如果把“每天吃飯”改為任意的保健品，關聯(lián)規(guī)則也成立，比“打”更具有有誘惑力，說不定還有經(jīng)濟效益。這條無意義的關聯(lián)規(guī)則，說明需引入關聯(lián)規(guī)則的興趣度，此概念稍復雜，只簡介其大致思想。

當關聯(lián)規(guī)則左邊是多個項，如上面的(3)式，可以用減項法測試每個項的貢獻，這類似過敏疾病患者判斷過敏源，左邊甚至可以減少到空集。在(3)式中，

(a)把“每天吃飯”去掉，不減少支持度和置信度，說明此項冗余;

(b)如把“該家子女”去掉，則相當于在全國的大數(shù)據(jù)集上挖掘，支持度和置信度立刻大減，說明這個項是至關重要的。

如果一個關聯(lián)規(guī)則中，每一個項都是重要的，這個關聯(lián)規(guī)則基本上是有意義的。

3 錯誤的挖掘結論

這里有幾個估計，(1) 所謂的“打”，實際上是高高舉起，輕輕放下，是嚴格的指代詞，還不是那種打得皮開肉綻的打(那樣會打掉尊嚴和信心，就悲劇了);(2)老大比較懂事;(3)老大對老二老三的影響遠勝于老爸打的效果?！袄前帧痹谕诰?a href='/map/guanlianguize/' style='color:#000;font-size:inherit;'>關聯(lián)規(guī)則時候，忽略了這一因素，“父假長子(女)之威”，用數(shù)據(jù)挖掘的行話，犯了“No interesteness” 的錯誤(這是一個稍復雜的概念)，得出了錯誤的挖掘結論。

4 一個支持度和置信度都很高的關聯(lián)規(guī)則

在輸入文本的糾錯技術中，常關注詞與詞的發(fā)聲關聯(lián)，或諧音關聯(lián)，“被打”和“北大”的普通話發(fā)音都是“beida”,用拼音輸入法時候，二者容易混淆，又例如，本博文在輸入最后一節(jié)小標題“辨才需待七年期”時，曾把 “辨才”輸入為“辯才“(謝謝22樓的朋友的指正)，糾錯軟件會把近音詞按近似度排序列出。因為在語音近似的意義上：

被打–> 北大，支持度 100%，置信度 100%

于是，在用拼音方法輸入“被打”之后，作輸入糾錯檢查時，軟件列出候選詞中的Top 1 就是“北大”，或許可以作為中學生被打后的一種安慰。

這一技術在處理網(wǎng)絡文本，微博挖掘時也很有用，如規(guī)范 “悲劇 Vs 杯具”，“p2p Vs. P-to-P”,”U Vs. YOU“,以及許多網(wǎng)絡同聲縮略語等等。

5 曾經(jīng)言必稱啤酒尿布

過去講關聯(lián)規(guī)則時候，常常用啤酒尿布的故事，有三個要點：

(a)表象分析：說，沃爾瑪通過抽象的銷售數(shù)據(jù)挖掘，發(fā)現(xiàn)啤酒和尿布常被男性顧客們同時購買，在挖掘出來的若干條形如 ( Xi–>Yi ，s=? c=? ) 的規(guī)則中，這一條支持度和置信度都比較高;

(b)內在聯(lián)系 (這不屬于數(shù)據(jù)挖掘,而屬于管理)調查發(fā)現(xiàn)，嬰兒之父下班為孩子買尿布時順手買回自己愛喝的啤酒;

(c )促銷措施 (屬于促銷手段),把啤酒和尿布放在同一個貨架，或進一步地，把啤酒降價，把尿布漲價，吸引嬰兒之父的消費。

現(xiàn)在人們認為,這只是一個故事，或許，“狼爸”的例子更貼近，更容易消除對概念的誤解。

6 猜自然之謎時，數(shù)據(jù)挖掘雖屬無奈之舉，卻很有效

在人們沒有掌握行星運動規(guī)律之前，人們從歷史觀測數(shù)據(jù)去找規(guī)律，找匹配。第谷是一位實驗天文學家，歷經(jīng)40年觀察，積累了關于行星運動的大量數(shù)據(jù)。

開普勒在第谷的四十年數(shù)據(jù)上，用手工作數(shù)據(jù)挖掘，挖掘了十年，發(fā)現(xiàn)了行星運動三大定律。 Candida Ferreira采用基因表達式編程(GEP)方法，用10個個體，進化50代，只需要少得多的數(shù)據(jù)，幾秒鐘就可完成(參見文獻[1],P253-257 )。有了這個定律，如今計算某個行星的位置，就不再需要數(shù)據(jù)挖掘，而直接用公式了。所以數(shù)據(jù)挖掘是在不知道規(guī)律時，而要猜自然之謎時的無奈之舉。

如今，未破解的自然之謎還很多，數(shù)據(jù)挖掘雖屬無奈之舉，卻很有效，挖掘出正確的表達形式(公式，定律等)后，再設法用理論或模型來作動力學的或構造性的解釋。

上面的分析表明，數(shù)據(jù)挖掘能從能從一些平常熟視無睹的事實中，挖掘出令人驚奇的結果。所以，有些國家把數(shù)據(jù)挖掘專業(yè)看作是敏感專業(yè)，出國學數(shù)據(jù)挖掘的學生去辦留學簽證時，常常被Check ,復查,偶爾也聽說過被拒簽。

7 辨才需待七年期

“狼爸”的三個子女進了北大，還不能就說是成功了，今后還要作科研，找工作，也許還要讀研，寫論文…, 等待他們的競爭還多，要等將來工作上出成果了，才算成功。

有道是：試玉要燒三日滿，辨才需待七年期。希望他們在七年或者十年之后能真正成才，那時的成才，與現(xiàn)在的“打”，實在是沒有什么關聯(lián)了

CDA數(shù)據(jù)分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

數(shù)據(jù)挖掘關聯(lián)規(guī)則大數(shù)據(jù)

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認證再升一檔！與國家共同推進大數(shù)據(jù)人才培養(yǎng)標準教育事業(yè)！

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調，回調的第一個參數(shù)驗證碼對象，之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

趣味數(shù)據(jù)挖掘 |“被打”和“北大” 的關聯(lián)

1 支持度 (support)

2 計算“北大–>被打”的置信度 (confidence)

3 錯誤的挖掘結論

4 一個支持度和置信度都很高的關聯(lián)規(guī)則

5 曾經(jīng)言必稱啤酒尿布

6 猜自然之謎時，數(shù)據(jù)挖掘雖屬無奈之舉，卻很有效

7 辨才需待七年期

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

趣味數(shù)據(jù)挖掘 |“被打”和“北大” 的關聯(lián)

1 支持度 (support)

2 計算“北大–>被打”的置信度 (confidence)

3 錯誤的挖掘結論

4 一個支持度和置信度都很高的關聯(lián)規(guī)則

5 曾經(jīng)言必稱啤酒尿布

6 猜自然之謎時，數(shù)據(jù)挖掘雖屬無奈之舉，卻很有效

7 辨才需待七年期

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉換 ...

【CDA干貨】MySQL 大表拆分與關聯(lián)查詢效率：打破 “ ...

CDA 數(shù)據(jù)分析師：表結構數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】DSGE 模型中的 Et：理性預期算子的內涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 ...

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結構數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結構數(shù)據(jù)價值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu) ...

【CDA干貨】用 SQL 驗證業(yè)務邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅動下的 ...

CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析：概念辨析與 ...

【CDA干貨】Excel 數(shù)據(jù)聚類分析：從操作實踐到業(yè)務 ...

【CDA干貨】統(tǒng)計模型的核心目的：從數(shù)據(jù)解讀到?jīng)Q策 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

6 猜自然之謎時，數(shù)據(jù)挖掘雖屬無奈之舉，卻很有效

【CDA干貨】Excel 導入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗與 t 檢驗：差異、適用 ...