99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線(xiàn)電話(huà):13121318867

登錄
首頁(yè)精彩閱讀一個(gè)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)型者眼中的數(shù)據(jù)挖掘
一個(gè)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)型者眼中的數(shù)據(jù)挖掘
2016-05-15
收藏

一個(gè)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)型者眼中的數(shù)據(jù)挖掘

對(duì)于大多數(shù)非從業(yè)者或者初學(xué)者來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)(Data Warehousing)與數(shù)據(jù)挖掘(Data Mining)是很容易混淆的兩個(gè)概念。有個(gè)形象的比喻說(shuō):如果把數(shù)據(jù)倉(cāng)庫(kù)比做一個(gè)大型的礦坑,那么數(shù)據(jù)挖掘就是入坑采礦的工作,數(shù)據(jù)挖掘需要有非常好的數(shù)據(jù)基礎(chǔ),沒(méi)有豐富完整的數(shù)據(jù),是挖掘不出好內(nèi)容的。數(shù)據(jù)倉(cāng)庫(kù)可以說(shuō)是數(shù)據(jù)挖掘最理想的地基。

筆者從事數(shù)據(jù)倉(cāng)庫(kù)BI行業(yè)多年,先給各位簡(jiǎn)單介紹一下什么是數(shù)據(jù)倉(cāng)庫(kù)。
數(shù)據(jù)倉(cāng)庫(kù)
要將非常龐大又復(fù)雜的數(shù)據(jù)轉(zhuǎn)化成有用的信息,首先需要做的是有效率地收集數(shù)據(jù),于是數(shù)據(jù)倉(cāng)庫(kù)應(yīng)運(yùn)而生。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)環(huán)境,而不是一件產(chǎn)品;數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、相對(duì)穩(wěn)定的、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,提供用戶(hù)用于決策支持的當(dāng)前和歷史數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是為了有效的把操作型數(shù)據(jù)集成到統(tǒng)一的環(huán)境中,以提供決策型數(shù)據(jù)訪(fǎng)問(wèn)的各種技術(shù)和模塊的總稱(chēng)。
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)全部來(lái)源于外部,它本身并不“生產(chǎn)”任何數(shù)據(jù),同時(shí)自身也不需要“消費(fèi)”任何數(shù)據(jù)。在數(shù)據(jù)架構(gòu)上面,數(shù)據(jù)倉(cāng)庫(kù)通常采用層次化的模型架構(gòu),這種模式成本最低,基礎(chǔ)數(shù)據(jù)和應(yīng)用指標(biāo)的一致性最好,以某銀行數(shù)據(jù)倉(cāng)庫(kù)邏輯架構(gòu)設(shè)計(jì)為代表:

第一層為貼源/標(biāo)準(zhǔn)數(shù)據(jù)層:這一層為“數(shù)據(jù)緩沖層”,在這一層中主要保存最原始的貼源數(shù)據(jù),有些設(shè)計(jì)會(huì)將數(shù)據(jù)的清洗及標(biāo)準(zhǔn)化操作也放到這一層中,用以保證不同系統(tǒng)的數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)方面保持統(tǒng)一,如性別、日期、行業(yè)代碼等。另一些設(shè)計(jì)則不在這一層對(duì)數(shù)據(jù)進(jìn)行哪怕最基礎(chǔ)的清洗及格式化等工作,確保數(shù)據(jù)的貼源一致性,由后面的數(shù)據(jù)需求方自己處理。
第二層為主題數(shù)據(jù)層:這一層為數(shù)據(jù)倉(cāng)庫(kù)的核心層,涵蓋內(nèi)容包括多個(gè)數(shù)據(jù)來(lái)源的數(shù)據(jù)整合、分類(lèi)體系和業(yè)務(wù)實(shí)體的統(tǒng)一、不同系統(tǒng)數(shù)據(jù)關(guān)聯(lián)關(guān)系搭建等,形成客戶(hù)、機(jī)構(gòu)、協(xié)議、事件、產(chǎn)品等不同的主題,為后續(xù)的數(shù)據(jù)使用奠定基礎(chǔ)。建設(shè)數(shù)據(jù)倉(cāng)庫(kù)主題區(qū)對(duì)于提高競(jìng)爭(zhēng)力、提高服務(wù)性收入并有效規(guī)避各種風(fēng)險(xiǎn)有其重要意義。例如:基于客戶(hù)主題可快速、準(zhǔn)確尋找出潛在客戶(hù)及各類(lèi)型、資產(chǎn)規(guī)模、年齡段客戶(hù)的資產(chǎn)狀況和偏好,從而有效制定營(yíng)銷(xiāo)策略吸引更多客戶(hù)在銀行開(kāi)辦更多的業(yè)務(wù),提高營(yíng)業(yè)收入和服務(wù)收入;基于機(jī)構(gòu)主題勾勒出我行賬務(wù)機(jī)構(gòu)及管理機(jī)構(gòu)之間的層級(jí)關(guān)系,便于內(nèi)部管理,可從不同角度、不同層級(jí)查看機(jī)構(gòu)架設(shè)是否合理,查看機(jī)構(gòu)變遷歷史;基于協(xié)議主題能更清晰明了看出客戶(hù)的資產(chǎn)變化情況和當(dāng)前存貸款規(guī)模、現(xiàn)狀,能更有效規(guī)避風(fēng)險(xiǎn)等。
第三層為數(shù)據(jù)匯總層/數(shù)據(jù)集市層,在這一層中通常會(huì)建立針對(duì)某些業(yè)務(wù)領(lǐng)域作更深層次的指標(biāo)體系分析。數(shù)據(jù)集市以主題數(shù)據(jù)層為基礎(chǔ),但不再面向全行數(shù)據(jù),而主要面向部門(mén)級(jí)業(yè)務(wù),并且只面向某個(gè)特定的主題,如建設(shè)對(duì)公數(shù)據(jù)集市,是為滿(mǎn)足對(duì)公業(yè)務(wù)管理需要,支持最新的對(duì)公業(yè)務(wù)管理方針,通過(guò)整合對(duì)公客戶(hù)的數(shù)據(jù)信息,進(jìn)一步分析對(duì)公客戶(hù)的價(jià)值信息,更好的支持公司業(yè)務(wù)客戶(hù)營(yíng)銷(xiāo)、管理分析工作的開(kāi)展。
總而言之數(shù)據(jù)倉(cāng)庫(kù)可以看做一個(gè)非常大的數(shù)據(jù)庫(kù),它存儲(chǔ)著由各個(gè)源頭數(shù)據(jù)庫(kù)中抽取過(guò)來(lái)的數(shù)據(jù),然后利用這些數(shù)據(jù)更有效率的給公司的決策者提供決策支持。其中,轉(zhuǎn)換及整合數(shù)據(jù)的過(guò)程是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)建立遇到的最大挑戰(zhàn),需要將雜亂的數(shù)據(jù)按照各主題轉(zhuǎn)換成有用的策略數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的重點(diǎn)。數(shù)據(jù)倉(cāng)庫(kù)通過(guò)把所有的數(shù)據(jù)放在一個(gè)地方,方便存取的同時(shí),極大的減少了重復(fù)的數(shù)據(jù)處理和分析,實(shí)現(xiàn)數(shù)據(jù)文件統(tǒng)一出口。
當(dāng)筆者轉(zhuǎn)型、真正來(lái)到一個(gè)數(shù)據(jù)挖掘的團(tuán)隊(duì),在一大堆統(tǒng)計(jì)學(xué)碩博身邊熏陶了一段時(shí)間后,我理解的數(shù)據(jù)挖掘是這個(gè)樣子的:
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是綜合了統(tǒng)計(jì)分析、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)等諸多方面的研究成果而成,用一個(gè)人大統(tǒng)計(jì)碩士同事的說(shuō)法:從某方面來(lái)講其實(shí)數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取隱含在其中的、人們事先未知但又是潛在有用的信息和知識(shí)的過(guò)程。
數(shù)據(jù)挖掘的結(jié)果是事先未知的,這與固定報(bào)表有著本質(zhì)的區(qū)別,雖然固定報(bào)表應(yīng)用模式已經(jīng)存在很多年,由于其非常簡(jiǎn)單明了直觀的特點(diǎn),現(xiàn)在依然是各行業(yè)內(nèi)部各級(jí)管理人員分析數(shù)據(jù)應(yīng)用形態(tài)的主力,但固定報(bào)表首先得知道報(bào)表的樣式,這是一個(gè)查證假設(shè)的過(guò)程,而數(shù)據(jù)挖掘是用來(lái)幫助使用者產(chǎn)生假設(shè),用工具幫助使用者做探索。
數(shù)據(jù)挖掘是一個(gè)過(guò)程,而不是一個(gè)技術(shù),它更偏重于實(shí)際應(yīng)用,所以數(shù)據(jù)挖掘不能只是知道挖掘算法等技術(shù),更需要實(shí)現(xiàn)具體的業(yè)務(wù)目標(biāo),只有落地到現(xiàn)實(shí)的業(yè)務(wù)中才能體現(xiàn)數(shù)據(jù)挖掘的價(jià)值,因此業(yè)務(wù)目標(biāo)是數(shù)據(jù)挖掘的核心。在數(shù)據(jù)挖掘項(xiàng)目的實(shí)現(xiàn)過(guò)程中,挖掘出來(lái)的數(shù)據(jù)僅能表示現(xiàn)實(shí)世界的一部分,數(shù)據(jù)和現(xiàn)實(shí)世界之間是有差距的,只有業(yè)務(wù)知識(shí)可以彌補(bǔ)這一差距,從業(yè)者需要豐富的業(yè)務(wù)知識(shí)才能夠解釋數(shù)據(jù)中發(fā)現(xiàn)的相關(guān)結(jié)論,業(yè)務(wù)知識(shí)是數(shù)據(jù)挖掘的基礎(chǔ),好的數(shù)據(jù)挖掘者需要有深厚的行業(yè)業(yè)務(wù)功底。
數(shù)據(jù)挖掘有一個(gè)著名的格言論調(diào),我的博士領(lǐng)導(dǎo)也經(jīng)常提到這段話(huà),數(shù)據(jù)挖掘項(xiàng)目中最費(fèi)力的是數(shù)據(jù)的獲取與預(yù)處理,其占用整個(gè)項(xiàng)目的時(shí)間高達(dá)60%-80%。在筆者了解的幾個(gè)項(xiàng)目中實(shí)際情況也確實(shí)如此。數(shù)據(jù)預(yù)處理的目的是把數(shù)據(jù)挖掘問(wèn)題轉(zhuǎn)化為格式化的數(shù)據(jù),使各項(xiàng)分析技術(shù)挖掘算法更容易去使用它。一般的數(shù)據(jù)處理有兩種辦法,一種是將數(shù)據(jù)轉(zhuǎn)化成完全結(jié)構(gòu)化的基礎(chǔ)分析數(shù)據(jù),根據(jù)對(duì)應(yīng)算法可能需要的數(shù)據(jù)形式,將數(shù)據(jù)轉(zhuǎn)化成合格的格式。第二種是將盡可能多的業(yè)務(wù)問(wèn)題涉及的數(shù)據(jù)都涵蓋進(jìn)來(lái),然后找到合適的技術(shù)解決方案來(lái)實(shí)現(xiàn)挖掘的結(jié)果。但數(shù)據(jù)會(huì)隨著清洗、轉(zhuǎn)換、數(shù)據(jù)量變化而相應(yīng)發(fā)生變化,這種分析只能是探索性的。因此,即使有一個(gè)非常成熟的數(shù)據(jù)倉(cāng)庫(kù),但數(shù)據(jù)預(yù)處理仍然是必不可少的,它仍然要占用數(shù)據(jù)挖掘項(xiàng)目一半以上的時(shí)間。
數(shù)據(jù)挖掘的過(guò)程同樣也是一個(gè)不斷試驗(yàn)、不斷試錯(cuò)的過(guò)程,一個(gè)正確的模型只有通過(guò)不斷的試驗(yàn)才能被發(fā)現(xiàn),在數(shù)據(jù)挖掘的過(guò)程中會(huì)經(jīng)常發(fā)現(xiàn)一個(gè)算法對(duì)某一個(gè)數(shù)據(jù)集是合適的,但是對(duì)另一個(gè)數(shù)據(jù)集又是不利的,沒(méi)有一個(gè)算法是適合每一個(gè)問(wèn)題的。因此數(shù)據(jù)挖掘就是一個(gè)方法不合適再試用其他方法的過(guò)程,但是在有條件的限制約束下,比如業(yè)務(wù)目標(biāo)比較穩(wěn)定、數(shù)據(jù)變化相對(duì)規(guī)律的情況下,一個(gè)可接受的算法或算法組合是可以解決問(wèn)題的。
數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)之間的關(guān)系
數(shù)據(jù)挖掘可以說(shuō)是從數(shù)據(jù)倉(cāng)庫(kù)中發(fā)現(xiàn)并提取隱藏在其中有用信息的一種過(guò)程。數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中挖取數(shù)據(jù)的過(guò)程,而數(shù)據(jù)倉(cāng)庫(kù)就是匯集所有相關(guān)數(shù)據(jù)的一個(gè)過(guò)程,數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)挖掘提供了更好的、更廣泛的數(shù)據(jù)源。當(dāng)然,在有些情況下,數(shù)據(jù)倉(cāng)庫(kù)并沒(méi)有建立起來(lái),但是數(shù)據(jù)挖掘工作還是可以依托業(yè)務(wù)源數(shù)據(jù)先行的,只是在挖掘數(shù)據(jù)預(yù)處理階段去整合多個(gè)源系統(tǒng)的數(shù)據(jù)源時(shí)可能工作量會(huì)增大,效率也肯定不如從數(shù)據(jù)倉(cāng)庫(kù)中取數(shù)要高,因?yàn)?a href='/map/shujucangku/' style='color:#000;font-size:inherit;'>數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是經(jīng)過(guò)預(yù)處理的結(jié)構(gòu)化數(shù)據(jù),能夠?yàn)?a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘提供非常好的支持平臺(tái),同樣數(shù)據(jù)挖掘也對(duì)數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建提出了更高的要求,兩者是互相促進(jìn)的。

數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線(xiàn)
立即咨詢(xún)
客服在線(xiàn)
立即咨詢(xún)
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶(hù)后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }