99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀大數(shù)據(jù)挖掘是個(gè)什么鬼?先搞定以下五大關(guān)系
大數(shù)據(jù)挖掘是個(gè)什么鬼?先搞定以下五大關(guān)系
2016-07-29
收藏

數(shù)據(jù)挖掘是個(gè)什么鬼?先搞定以下五大關(guān)系

數(shù)據(jù)科學(xué)家”作為一個(gè)新興的名詞,他們主要是采用科學(xué)方法、運(yùn)用數(shù)據(jù)挖掘工具來(lái)做大數(shù)據(jù)洞察的工程師。一個(gè)優(yōu)秀的數(shù)據(jù)科學(xué)家需要具備諸如數(shù)據(jù)采集、模型算法、數(shù)學(xué)軟件、分析預(yù)測(cè)、市場(chǎng)應(yīng)用等多方面的素質(zhì)。如果你也想成為一名數(shù)據(jù)科學(xué)家,那么可以先從本文介紹的數(shù)據(jù)挖掘過(guò)程中的五個(gè)關(guān)系開(kāi)始,一點(diǎn)點(diǎn)探索整個(gè)數(shù)據(jù)挖掘的藍(lán)圖。

1.樣本與總量

相信大家讀書(shū)的時(shí)候,數(shù)學(xué)老師曾經(jīng)扔給你一批樣本數(shù)據(jù),然后讓你去根據(jù)課堂上的知識(shí)做個(gè)分析或者建個(gè)模型,當(dāng)時(shí)大家心里有沒(méi)有想過(guò),自己拿這么點(diǎn)數(shù)據(jù)分析出來(lái)的結(jié)果到底能用到實(shí)際中去么?其實(shí)平常工作學(xué)習(xí)中,我們?cè)?a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘或建模的時(shí)候,采用的往往是樣本數(shù)據(jù)而非總體數(shù)據(jù)。以貸款業(yè)務(wù)為例,一個(gè)P2P貸款公司只有曾在其公司有過(guò)貸款行為的客戶(hù)的數(shù)據(jù),而這些客戶(hù)是所有貸款客戶(hù)的一個(gè)樣本。那么,有很多人就會(huì)擔(dān)心這樣一個(gè)問(wèn)題:采用這樣的樣本數(shù)據(jù)訓(xùn)練模型是否會(huì)對(duì)結(jié)果造成影響?

這個(gè)問(wèn)題的答案取決于樣本大小和樣本偏差。 首先來(lái)聊聊樣本大小。

假設(shè)我們要做一個(gè)信用評(píng)分模型,這個(gè)模型以某一客戶(hù)群體的數(shù)據(jù)作為訓(xùn)練樣本。假設(shè)每個(gè)客戶(hù)由性別和職業(yè)兩個(gè)變量來(lái)描述,如果性別有2種取值,而職業(yè)有18種取值,則描述這個(gè)客戶(hù)群體的特征分布需要2*18=36個(gè)參數(shù)。在這種情況下,如果僅有幾百個(gè)樣本,那么樣本量恐怕是不足夠的。

一般來(lái)說(shuō),描述客戶(hù)群體的維度越多,需要的樣本量也越大。如果每個(gè)客戶(hù)由K個(gè)變量表示,而每個(gè)變量有V種取值,則描述這個(gè)群體的特征分布需要O(K^V)個(gè)參數(shù),需要樣本量至少為10^2~10^3*O(K^V)。 再來(lái)聊聊樣本偏差。

如果所抽取的樣本不是隨機(jī)的,那么無(wú)論其選擇的樣本量有多大,則根據(jù)這些樣本數(shù)據(jù)所估計(jì)的參數(shù)就不能準(zhǔn)確反映所研究的總體性質(zhì)的分布,這種情況下樣本存在偏差

樣本偏差在實(shí)際問(wèn)題中是不可避免的。還是以貸款業(yè)務(wù)為例,一個(gè)針對(duì)大學(xué)生群體的P2P公司的樣本數(shù)據(jù)與貸款客戶(hù)的總體數(shù)據(jù)是有偏差的。如果用存在偏差的樣本訓(xùn)練風(fēng)險(xiǎn)評(píng)分模型,那么其在總客戶(hù)群體上的表現(xiàn)可能一般。這種情況下,可以通過(guò)對(duì)樣本加權(quán)重的方法來(lái)調(diào)整其特征分布,從而修正樣本偏差

2.數(shù)據(jù)質(zhì)量與模型選擇

聊完數(shù)據(jù)樣本的問(wèn)題,我們接著看看數(shù)據(jù)質(zhì)量和模型選擇的關(guān)系。人們常說(shuō)garbage in garbage out. 所以有人要說(shuō):“數(shù)據(jù)質(zhì)量最重要!模型是浮云”這個(gè)時(shí)候,每天研究各種模型算法的人抬頭看一眼那哥們兒,怒火中燒。那么這兩者到底什么關(guān)系呢?其實(shí),數(shù)據(jù)質(zhì)量和模型選擇是實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè)的關(guān)鍵。數(shù)據(jù)質(zhì)量決定了預(yù)測(cè)準(zhǔn)確性的上限,而模型選擇(包括參數(shù)調(diào)優(yōu))決定了如何達(dá)到上限。數(shù)據(jù)質(zhì)量包括三個(gè)方面:一個(gè)是數(shù)據(jù)的長(zhǎng)度,即有多少數(shù)據(jù)能夠供我們分析使用,另外一個(gè)是數(shù)據(jù)的寬度,即數(shù)據(jù)的信息量是否全面。最后一個(gè)是數(shù)據(jù)的飽和度,即對(duì)于每一個(gè)研究的單元對(duì)象,其信息是否都真實(shí)反應(yīng)了本體,而不存在大量缺失。訓(xùn)練數(shù)據(jù)集的質(zhì)量直接決定了模型的可靠程度,故數(shù)據(jù)質(zhì)量測(cè)試、數(shù)據(jù)清洗是在建立模型之前不可或缺的一步。

為了實(shí)現(xiàn)某一個(gè)商業(yè)目標(biāo),有很多模型可以作為候選。例如解決最常見(jiàn)的分類(lèi)預(yù)測(cè)問(wèn)題時(shí),有非常多的備選的模型:線性回歸模型(邏輯回歸)、概率圖模型(Tree-augmented na?ve bayes)、深度學(xué)習(xí)模型等。然后可以通過(guò)KS、AUC等指標(biāo),調(diào)整模型中的參數(shù),從而提高其表現(xiàn)。在數(shù)據(jù)挖掘競(jìng)賽中,單個(gè)模型表現(xiàn)往往中庸,而一個(gè)廣泛采用的策略是通過(guò)多模型混合來(lái)提升預(yù)測(cè)的穩(wěn)定性和表現(xiàn)。

然而,相對(duì)數(shù)學(xué)模型,數(shù)據(jù)質(zhì)量乃是最關(guān)鍵的要素。一個(gè)數(shù)據(jù)挖掘工程師可能80%的時(shí)間用在篩選變量和清洗數(shù)據(jù)上。在現(xiàn)實(shí)環(huán)境中,我們首要的是經(jīng)常問(wèn)這樣一個(gè)問(wèn)題:“where is the data?”

3.模型準(zhǔn)確性和模型可解釋性

有時(shí)候會(huì)發(fā)生這樣一個(gè)場(chǎng)景:建模型的人欣喜若狂的拿著個(gè)評(píng)分卡模型去給業(yè)務(wù)部門(mén)看,驕傲的說(shuō)了一通自己的模型有多牛逼,能如何準(zhǔn)確地發(fā)現(xiàn)潛在風(fēng)險(xiǎn)違約客戶(hù)。結(jié)果業(yè)務(wù)部門(mén)的人一臉困惑的問(wèn)了一句:“我拿你這個(gè)結(jié)果拒絕了客戶(hù)的話,我要怎么跟客戶(hù)解釋原因?”這里模型的準(zhǔn)確性指的是能否準(zhǔn)確地發(fā)現(xiàn)潛在風(fēng)險(xiǎn)違約客戶(hù),而模型的可解釋性指的是如何理解模型評(píng)分,即,如果一個(gè)客戶(hù)的信用評(píng)分為400分,那么是什么造成了他的分?jǐn)?shù)比較低的。

通常情況下,模型的準(zhǔn)確性和模型的可解釋性是不可兼得的。模型越簡(jiǎn)單,則其越容易理解,但簡(jiǎn)單的模型預(yù)測(cè)準(zhǔn)確性往往不好,例如,決策樹(shù)模型可以讓人一目了然的知道哪個(gè)群體的人存在風(fēng)險(xiǎn),但其表現(xiàn)往往在所有模型中墊底。而一些非參數(shù)模型(如隨機(jī)森林等),其規(guī)則復(fù)雜到難以用自然語(yǔ)言描述,無(wú)法直觀的被人理解,但其預(yù)測(cè)效果卻很優(yōu)秀。

那么,在兩者不可兼得的情況下,我們應(yīng)該更重視模型的準(zhǔn)確性還是其可解釋性?相信很多人會(huì)認(rèn)為準(zhǔn)確性更重要。的確,在大多數(shù)數(shù)據(jù)挖掘競(jìng)賽中,模型算法是通過(guò)其準(zhǔn)確性來(lái)衡量?jī)?yōu)劣的。這很容易理解,如果一個(gè)P2P借貸公司完全依靠評(píng)分卡模型來(lái)做準(zhǔn)入審核,那么模型的準(zhǔn)確性會(huì)直接影響到貸后的違約率,直接決定了這個(gè)公司的CEO是要跑路還是走向人生巔峰。

然而實(shí)際情況是,評(píng)分卡模型僅僅是其準(zhǔn)入審核的一個(gè)環(huán)節(jié),在初篩之后,風(fēng)控專(zhuān)家會(huì)對(duì)評(píng)分卡模型不能有效分辨好壞的客戶(hù)進(jìn)行人工審核。人工審核的過(guò)程不僅會(huì)全面收集客戶(hù)的信息,更需要通過(guò)話術(shù)策略有效的鑒別客戶(hù)所提供信息是否虛假。例如,在照會(huì)過(guò)程中,風(fēng)控人員可能會(huì)故意將客戶(hù)提供的一些資料說(shuō)錯(cuò)而觀察其反應(yīng)等。

在這種情況下,模型的可解釋性就變的尤為重要。設(shè)想,如果一個(gè)評(píng)分卡模型不僅能告訴風(fēng)控人員客戶(hù)的潛在違約率,更可以幫風(fēng)控人員在錯(cuò)綜復(fù)雜的客戶(hù)數(shù)據(jù)中梳理出一條明晰的調(diào)查線索,告訴風(fēng)控專(zhuān)家應(yīng)該著重調(diào)查客戶(hù)的哪個(gè)方面以及客戶(hù)之前提供的信息有哪些初看起來(lái)正常但實(shí)際自相矛盾的地方,這將對(duì)提高風(fēng)險(xiǎn)控制能力有很大作用。 4.統(tǒng)計(jì)分析數(shù)據(jù)挖掘

統(tǒng)計(jì)分析數(shù)據(jù)挖掘都是商業(yè)智能的一方面。統(tǒng)計(jì)分析是運(yùn)用統(tǒng)計(jì)方法,基于假設(shè)分布和假設(shè)檢驗(yàn)的理論方法,總結(jié)數(shù)據(jù)與基礎(chǔ)群體之間的聯(lián)系并做預(yù)測(cè)。數(shù)據(jù)挖掘是基于訓(xùn)練(Training)、驗(yàn)證(Validation)、測(cè)試(Test)數(shù)據(jù)集的關(guān)聯(lián),通過(guò)算法,搜索出隱藏于其中的信息。統(tǒng)計(jì)分析需要更多的概率分布假定,而數(shù)據(jù)挖掘更注重驗(yàn)證結(jié)果的可靠性。但是兩者往往互通互容、相互支持,之間并沒(méi)有明確的界限。

5.當(dāng)前模型和模型迭代

人類(lèi)的行為模式在科技發(fā)展的今天是在不斷演變的,所以當(dāng)前模型只能反應(yīng)出過(guò)去的歷史規(guī)律和判斷,且一般都有一個(gè)有效期。模型迭代是保證模型有效性的必然步驟。

在迭代模型的過(guò)程中,需要在風(fēng)險(xiǎn)管理階段對(duì)上一階段的執(zhí)行情況作出判斷、規(guī)劃下一步的執(zhí)行內(nèi)容、評(píng)估風(fēng)險(xiǎn)及控制時(shí)間與資源。

最后,送給大家三句秘籍:

在最終的分析中,所有知識(shí)皆為歷史

在抽象的意義下,所有科學(xué)皆為數(shù)學(xué)

在理性的世界里,所有判斷皆為統(tǒng)計(jì)

這三句秘籍可不是我說(shuō)的,是來(lái)自印度的傳奇數(shù)學(xué)家拉曼努楊。我想,只有那些優(yōu)秀的“數(shù)據(jù)科學(xué)家”,方能深切體會(huì)上面三句話的含義。在漫漫歷史長(zhǎng)河里,所有的判斷結(jié)論皆為概率存在,這也是這個(gè)世界之所以迷人的終極原因。

數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢(xún)
客服在線
立即咨詢(xún)
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶(hù)后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }