99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀趣味數(shù)據(jù)挖掘 |“被打”和“北大” 的關(guān)聯(lián)
趣味數(shù)據(jù)挖掘 |“被打”和“北大” 的關(guān)聯(lián)
2016-10-14
收藏

趣味數(shù)據(jù)挖掘 |“被打”和“北大” 的關(guān)聯(lián)

小時候喜歡讀趣味數(shù)理化,所以久有一個小心愿,寫一組趣味數(shù)據(jù)挖掘的科普博文。 要把數(shù)據(jù)挖掘的一些概念講得通俗有趣,需要好的例子,正搜尋中,一個有趣的、適合解釋關(guān)聯(lián)規(guī)則的例子就冒出來了。


科學(xué)網(wǎng)上三位博主周濤、呂喆、程智在博文中對“狼爸打子成才,把三個子女送進了北大”的事情做了定性分析。

本文借此例來說明數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則中支持度、置信度和興趣度概念,順便對此事做個定量分析, 同時也作為趣味數(shù)據(jù)挖掘系列博文的開篇。

這個關(guān)聯(lián)規(guī)則可寫成下列形式:

●R1: 被打 –> 北大, 支持度 s=?, 置信度 c=?

或反過來

●R2: 北大 –> 被打, 支持度 s=?, 置信度 c=? (觀察因果的角度與R1有所不同)

下面將其計算支持度、置信度的上限,為簡單,采用了一些略有放大的粗略假定和估計。

1 支持度 (support)

全國每年高考人數(shù)大約1000萬人(2008 :1050萬,2009:1020萬,2010: 957萬);把“狼爸”的三個孩子算成同一年進北大(支持度放大三倍),假定同年進北大、且都有“被打”的經(jīng)歷有3K名(支持度大約放大3K倍)。于是,全國考生中 “被打”且 “進北大” 的支持度s 為:支持度 s = 3K/107 =3K*10-7

狼爸的故事表明,這里k≥1, 據(jù)常識估計K<10 ( 如果輕率放大K,北大學(xué)生會提出抗議,幸好,這里只是反面的假定 ),于是:支持度 s < 3*10-6 (支持度沒有因果方向, 對R1和R2都適用)

對這樣的概率比較小的事件,成熟彩民也會只當做娛樂,實在不值得媒體大驚小怪。

2 計算“北大–>被打”的置信度 (confidence)

2.1 在北京大學(xué)內(nèi)計算

規(guī)則R1“被打–> 北大” 的置信度計算稍有點難, 留到2.2小節(jié)解析。

我們先計算 R2:“北大–>被打”的置信度,它也同樣能說明某種關(guān)聯(lián),北大本科生 14000人(大約),平均每年收學(xué)生3500人,設(shè)其中挨過家長打的有3K人(1≤k<10),沒有挨打的不少于3470人,則:

●北大–>被打, 置信度為 3K/3500 < 0.86%

●北大–>不被打, 置信度為 3470/3500 > 99.14%

可見,“被打”和“北大”的關(guān)聯(lián) 很小,不足為信,當不得真。

2.2 計算“被打–>北大”的置信度 (confidence)

如上面假設(shè),假定 同年全國被打的N名,其中進入北大的3K名(如上估計,0≤k<10)則

R1: 被打–>北大, 置信度 = 3k/N ,

●如果N很大,k>0,置信度就比較小(不敢輕易估計N的具體數(shù)值,但不希望N大,那是教育的悲劇),

●如果N不太大,K>0,置信度就比較大。

●如果某年,k=0,不管N是多大,那一年“被打–>北大”的置信度 為0.

2.3 在該家庭范圍內(nèi)計算,兼議規(guī)則的興趣度:

“狼爸”有四個孩子(不知為什么能夠超生),估計四個都挨過打,三個上了北大

被打–> 北大, 支持度 0.75, 置信度 0.75。 (1)

這條規(guī)則一旦走出其家門, 就不成立了。所以,準確表達為:

(該家,被打) –> 北大, 支持度 0.75, 置信度 0.75。 (2)

為了說明其無意義,我們還可以挖掘出一條千真萬確的關(guān)聯(lián)規(guī)則

(該家子女,每天吃飯) –> 北大, 支持度 0.75, 置信度 0.75。 (3)

如果把“每天吃飯”改為任意的保健品,關(guān)聯(lián)規(guī)則也成立,比“打”更具有有誘惑力,說不定還有經(jīng)濟效益。這條無意義的關(guān)聯(lián)規(guī)則,說明需引入關(guān)聯(lián)規(guī)則的興趣度,此概念稍復(fù)雜,只簡介其大致思想。

關(guān)聯(lián)規(guī)則左邊是多個項,如上面的(3)式,可以用減項法測試每個項的貢獻,這類似過敏疾病患者判斷過敏源,左邊甚至可以減少到空集。在(3)式中,

(a)把“每天吃飯”去掉, 不減少支持度和置信度,說明此項冗余;

(b)如把“該家子女”去掉,則相當于在全國的大數(shù)據(jù)集上挖掘, 支持度和置信度立刻大減,說明這個項是至關(guān)重要的。

如果一個關(guān)聯(lián)規(guī)則中,每一個項都是重要的,這個關(guān)聯(lián)規(guī)則基本上是有意義的。

3 錯誤的挖掘結(jié)論

這里有幾個估計,(1) 所謂的“打”,實際上是高高舉起,輕輕放下,是嚴格的指代詞,還不是那種打得皮開肉綻的打(那樣會打掉尊嚴和信心,就悲劇了);(2)老大比較懂事;(3)老大對老二老三的影響遠勝于老爸打的效果?!袄前帧痹谕诰?a href='/map/guanlianguize/' style='color:#000;font-size:inherit;'>關(guān)聯(lián)規(guī)則時候,忽略了這一因素,“父假長子(女)之威”,用數(shù)據(jù)挖掘的行話,犯了“No interesteness” 的錯誤(這是一個稍復(fù)雜的概念),得出了錯誤的挖掘結(jié)論。

4 一個支持度和置信度都很高的關(guān)聯(lián)規(guī)則

在輸入文本的糾錯技術(shù)中,常關(guān)注詞與詞的發(fā)聲關(guān)聯(lián),或諧音關(guān)聯(lián),“被打”和“北大”的普通話發(fā)音都是“beida”,用拼音輸入法時候,二者容易混淆,又例如,本博文在輸入最后一節(jié)小標題“辨才需待七年期”時,曾把 “辨才”輸入為“辯才“(謝謝22樓的朋友的指正),糾錯軟件會把近音詞按近似度排序列出。因為在語音近似的意義上:

被打–> 北大,支持度 100%, 置信度 100%

于是,在用拼音方法輸入“被打”之后,作輸入糾錯檢查時,軟件列出候選詞中的Top 1 就是“北大”,或許可以作為中學(xué)生被打后的一種安慰。

這一技術(shù)在處理網(wǎng)絡(luò)文本,微博挖掘時也很有用,如規(guī)范 “悲劇 Vs 杯具”,“p2p Vs. P-to-P”,”U Vs. YOU“,以及許多網(wǎng)絡(luò)同聲縮略語等等。

5 曾經(jīng)言必稱啤酒尿布

過去講關(guān)聯(lián)規(guī)則時候,常常用啤酒尿布的故事,有三個要點:

(a)表象分析:說,沃爾瑪通過抽象的銷售數(shù)據(jù)挖掘,發(fā)現(xiàn)啤酒和尿布常被男性顧客們同時購買,在挖掘出來的若干條形如 ( Xi–>Yi ,s=? c=? ) 的規(guī)則中,這一條支持度和置信度都比較高;

(b)內(nèi)在聯(lián)系 (這不屬于數(shù)據(jù)挖掘,而屬于管理)調(diào)查發(fā)現(xiàn),嬰兒之父下班為孩子買尿布時順手買回自己愛喝的啤酒;

(c )促銷措施 (屬于促銷手段),把啤酒和尿布放在同一個貨架 ,或進一步地,把啤酒降價,把尿布漲價,吸引嬰兒之父的消費。

現(xiàn)在人們認為,這只是一個故事,或許,“狼爸”的例子更貼近,更容易消除對概念的誤解。

6 猜自然之謎時,數(shù)據(jù)挖掘雖屬無奈之舉,卻很有效

在人們沒有掌握行星運動規(guī)律之前,人們從歷史觀測數(shù)據(jù)去找規(guī)律,找匹配。第谷是一位實驗天文學(xué)家,歷經(jīng)40年觀察,積累了關(guān)于行星運動的大量數(shù)據(jù)。

開普勒在第谷的四十年數(shù)據(jù)上,用手工作數(shù)據(jù)挖掘,挖掘了十年,發(fā)現(xiàn)了行星運動三大定律。 Candida Ferreira采用基因表達式編程(GEP)方法,用10個 個體, 進化50代,只需要少得多的數(shù)據(jù),幾秒鐘就可完成(參見文獻[1],P253-257 )。有了這個定律,如今計算某個行星的位置,就不再需要數(shù)據(jù)挖掘,而直接用公式了。所以數(shù)據(jù)挖掘是在不知道規(guī)律時,而要猜自然之謎時的無奈之舉。

如今,未破解的自然之謎還很多,數(shù)據(jù)挖掘雖屬無奈之舉,卻很有效,挖掘出正確的表達形式(公式,定律等)后,再設(shè)法用理論或模型 來作動力學(xué)的或構(gòu)造性的解釋。

上面的分析表明,數(shù)據(jù)挖掘能從能從一些平常熟視無睹的事實中,挖掘出令人驚奇的結(jié)果。所以,有些國家把數(shù)據(jù)挖掘專業(yè)看作是敏感專業(yè),出國學(xué)數(shù)據(jù)挖掘的學(xué)生去辦留學(xué)簽證時,常常被Check ,復(fù)查,偶爾也聽說過被拒簽。

7 辨才需待七年期

“狼爸”的三個子女進了北大,還不能就說是成功了,今后還要作科研,找工作,也許還要讀研,寫論文…, 等待他們的競爭還多,要等將來工作上出成果了,才算成功。

有道是:試玉要燒三日滿,辨才需待七年期。希望他們在七年或者十年之后能真正成才,那時的成才,與現(xiàn)在的“打”,實在是沒有什么關(guān)聯(lián)了

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }