99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀大數(shù)據(jù)挖掘技術(shù)和流程
大數(shù)據(jù)挖掘技術(shù)和流程
2015-12-01
收藏

數(shù)據(jù)挖掘技術(shù)和流程

如何從海量的數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)并為企業(yè)發(fā)展提供幫助和指導(dǎo),數(shù)據(jù)分析師就是專門為企業(yè)解決這一難題的。

    簡單來說,數(shù)據(jù)挖掘就是利用人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、模式識(shí)別等技術(shù),從大量的、含有噪聲的實(shí)際數(shù)據(jù)中提取其中隱含的、事先不為人所知的有效信息的過程。一方面,數(shù)據(jù)分析師對(duì)數(shù)據(jù)分析或數(shù)據(jù)挖掘所處理的數(shù)據(jù)對(duì)象是真實(shí)的、包含噪音,因此是一門實(shí)際應(yīng)用科學(xué);另一方面,其目的在于發(fā)現(xiàn)人們感興趣的知識(shí),與市場(chǎng)邏輯存在著緊密聯(lián)系。大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)并不是一門新的學(xué)科,其基本原理與傳統(tǒng)數(shù)據(jù)挖掘并無本質(zhì)區(qū)別。只是由于所需要處理的數(shù)據(jù)規(guī)模龐大、且價(jià)值密度低,在處理方法和邏輯上被賦予了新的含義。比如傳統(tǒng)數(shù)據(jù)挖掘由于數(shù)據(jù)量較小,為真實(shí)反應(yīng)實(shí)際情況,需要構(gòu)建相對(duì)復(fù)雜的模型;而大數(shù)據(jù)時(shí)代提供了海量的數(shù)據(jù),可能使用相對(duì)簡單的模型便可以滿足需求。

[連載一百零七]<a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘</a>技術(shù)和流程

    所示為數(shù)據(jù)挖掘基本流程,包括商業(yè)理解、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)理解、模型建立、模型評(píng)估和模型應(yīng)用幾個(gè)步驟。

    首先是商業(yè)理解,也就是對(duì)數(shù)據(jù)挖掘問題本身的定義。所謂做正確的事比正確的做事更重要,在著手做數(shù)據(jù)模型之前一定要花時(shí)間去理解需求,弄清楚真正要解決的問題是什么,根據(jù)需求制定工作方案。這個(gè)過程需要比較多的溝通和市場(chǎng)調(diào)研,了解問題提出的商業(yè)邏輯。在溝通交流過程中,為了便于對(duì)溝通效果進(jìn)行把控,可以采取思維導(dǎo)圖等工具對(duì)的結(jié)果進(jìn)行記錄、整理。

    明確需求后,接下來就是要收集并整理數(shù)據(jù)建模所需要的數(shù)據(jù)。這個(gè)過程是資源調(diào)配的過程,需要與企業(yè)的相關(guān)部門明確可以使用的數(shù)據(jù)維度有哪些,哪些維度與建模任務(wù)相關(guān)性比價(jià)高。這個(gè)過程通常需要一定的專業(yè)背景知識(shí)。

    數(shù)據(jù)理解指的是對(duì)用于挖掘數(shù)據(jù)的預(yù)處理和統(tǒng)計(jì)分析過程,有時(shí)也稱為ETL過程。主要包括數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換和加載,是整個(gè)數(shù)據(jù)挖掘過程最耗時(shí)的過程,也是最為關(guān)鍵的一環(huán)。數(shù)據(jù)處理方法是否得當(dāng),對(duì)數(shù)據(jù)中所體現(xiàn)出來的業(yè)務(wù)特點(diǎn)理解是否到位,將直接影響到后面模型的選擇及模型的效果,甚至決定整個(gè)數(shù)據(jù)挖掘工作能否完成預(yù)定目標(biāo)。該過程需要有一定的統(tǒng)計(jì)學(xué)理論和實(shí)際經(jīng)驗(yàn),并具備一定的項(xiàng)目經(jīng)驗(yàn)。

    模型建立是是整個(gè)數(shù)據(jù)挖掘流程中最為關(guān)鍵的一步,需要在數(shù)據(jù)理解的基礎(chǔ)上選擇并實(shí)現(xiàn)相關(guān)的挖掘算法,并對(duì)算法進(jìn)行反復(fù)調(diào)試、實(shí)驗(yàn)。通常模型建立和數(shù)據(jù)理解是相互影響,經(jīng)常需要經(jīng)過反復(fù)的嘗試、磨合,多次迭代后方可訓(xùn)練處真正有效的模型。數(shù)據(jù)分析師培訓(xùn)

    模型評(píng)估是在數(shù)據(jù)挖掘工作基本結(jié)束的時(shí)候,對(duì)最終模型效果進(jìn)行評(píng)測(cè)的過程。在挖掘算法初期需要制定好最終模型的評(píng)測(cè)方法、相關(guān)指標(biāo)等,在這個(gè)過程中對(duì)這些評(píng)測(cè)指標(biāo)進(jìn)行量化,判斷最終模型是否可以達(dá)到預(yù)期目標(biāo)。通常模型的評(píng)估人員和模型的構(gòu)建人員不是同一批人,以保證模型評(píng)估的客觀、公正性。

    最終,當(dāng)挖掘得到的模型通過評(píng)測(cè)后可以安排上線、正式進(jìn)入商業(yè)化流程中。為了避免由于建模數(shù)據(jù)與線上真實(shí)情況不一致而導(dǎo)致模型失效的狀況出現(xiàn),通常在應(yīng)用過程中采取A/B測(cè)試的步驟,對(duì)模型在實(shí)際線上環(huán)境中的運(yùn)行狀況進(jìn)行觀察跟蹤,確保模型在線上環(huán)境中符合預(yù)期。

    了解了數(shù)據(jù)挖掘的基本流程,常用的數(shù)據(jù)挖掘任務(wù)和所用到的挖掘技術(shù)有哪些?總的來說,數(shù)據(jù)挖掘任務(wù)可以概括為描述性預(yù)測(cè)性兩大類。描述性任務(wù)主要是對(duì)現(xiàn)有數(shù)據(jù)的理解和整理,從中發(fā)現(xiàn)其中的一般特性,是對(duì)歷史知識(shí)的總結(jié)和歸納。預(yù)測(cè)性任務(wù)則是利用當(dāng)前數(shù)據(jù)對(duì)事務(wù)的未來發(fā)展趨勢(shì)進(jìn)行推斷,是知識(shí)的外延和推理過程。

    比較常見的數(shù)據(jù)挖掘技術(shù)有如下幾類:

    關(guān)聯(lián)規(guī)則分析:包括頻繁模式挖掘、序列模式挖掘,用于發(fā)現(xiàn)能夠描述數(shù)據(jù)項(xiàng)之間關(guān)系的規(guī)則。典型應(yīng)用是用戶購物籃分析,發(fā)現(xiàn)用戶經(jīng)常一起購買的商品集合,如購買啤酒的人經(jīng)常也會(huì)順手購買小孩尿布;及用戶購買某商品之后后續(xù)最有可能購買的其他商品,如用戶購買自行車兩個(gè)月左右后通常會(huì)再購買打氣筒。前者可以用來指導(dǎo)商場(chǎng)的商品陳列,將用戶最可能在一起購買的商品擺列在一起。后者則可以用來對(duì)用戶的未來消費(fèi)行為進(jìn)行推薦引導(dǎo)。

    分類和預(yù)測(cè):分類是按照已知的分類模式找出數(shù)據(jù)對(duì)象的共同特點(diǎn),并將樣本劃分到相應(yīng)的類別中,是最為基本的數(shù)據(jù)挖掘技術(shù),廣泛用于客戶喜好分析、滿意度分析等場(chǎng)景。如銀行根據(jù)用戶的消費(fèi)能力和還款記錄對(duì)其信用評(píng)級(jí)進(jìn)行劃分等。預(yù)測(cè)是將樣本映射到連續(xù)的數(shù)值型目標(biāo)值,發(fā)現(xiàn)屬性見的依賴關(guān)系。如對(duì)產(chǎn)品未來一段時(shí)間的銷售狀況進(jìn)行預(yù)測(cè)等。

    聚類分析:將一組對(duì)象按照相似性和差異程度劃分到幾個(gè)類別,使同一類別中樣本的相似性盡可能大。如在金融行業(yè)中對(duì)不同股票的發(fā)展趨勢(shì)進(jìn)行歸類,找出股價(jià)波動(dòng)趨勢(shì)相近的股票集合。

    推薦技術(shù):根據(jù)用戶的興趣特點(diǎn)和歷史的行為,向用戶推薦其感興趣的信息或商品。其最為成功的應(yīng)用是在電子商務(wù)網(wǎng)站中,向用戶推薦其可能購買的商品,從而增加商品的銷售規(guī)模并提高用戶粘性。

    鏈接分析:根據(jù)樣本或數(shù)據(jù)對(duì)象之間的關(guān)聯(lián),可以構(gòu)建對(duì)象之間的鏈接網(wǎng)絡(luò)。鏈接分析是指利用圖論模型對(duì)這些鏈接網(wǎng)絡(luò)進(jìn)行分析挖掘的一系列技術(shù)。其中最為知名的當(dāng)屬Google通過分析網(wǎng)頁之間的跳轉(zhuǎn)關(guān)系對(duì)頁面權(quán)威度進(jìn)行排序的PageRank算法。CDA數(shù)據(jù)分析師培訓(xùn)

    其他相關(guān)挖掘技術(shù)還包括孤立點(diǎn)分析、數(shù)據(jù)演變分析等。

    上述挖掘技術(shù)均在互聯(lián)網(wǎng)、金融、生物醫(yī)學(xué)、零售業(yè)等多個(gè)行業(yè)和領(lǐng)域得到廣泛應(yīng)用,并為相關(guān)企業(yè)帶來豐厚的收益。以下將通過具體行業(yè)案例,說明數(shù)據(jù)挖掘技術(shù)的使用方法及其價(jià)值。


數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }