99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀SAS數(shù)據(jù)挖掘?qū)崙?zhàn)篇【一】
SAS數(shù)據(jù)挖掘?qū)崙?zhàn)篇【一】
2016-04-08
收藏

SAS數(shù)據(jù)挖掘實戰(zhàn)篇【一】

1數(shù)據(jù)挖掘簡介 1.1數(shù)據(jù)挖掘的產(chǎn)生

需求是一切技術(shù)之母,管理和計算機技術(shù)的發(fā)展,促使數(shù)據(jù)挖掘技術(shù)的誕生。隨著世界信息技術(shù)的迅猛發(fā)展,信息量也呈幾何指數(shù)增長,如何從巨量、復(fù)雜的數(shù)據(jù)中獲取有用的信息,成為了信息技術(shù)研究領(lǐng)域的一道新課題。在這樣的背景下,數(shù)據(jù)挖掘技術(shù)誕生并成為了近年來的研究熱點。機器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)和數(shù)理統(tǒng)計是數(shù)據(jù)挖掘的三個技術(shù)支柱。
今天,這些技術(shù)已經(jīng)相當(dāng)成熟,加上高性能關(guān)系數(shù)據(jù)庫引擎和廣泛的數(shù)據(jù)集成,讓數(shù)據(jù)挖掘技術(shù)得到了廣泛的實際應(yīng)用。目前數(shù)據(jù)挖掘相關(guān)研究文獻越來越多、可用技術(shù)也層出不窮,數(shù)據(jù)挖掘的理論體系正在形成,相信很快就會成為一種主流信息技術(shù)。當(dāng)然,數(shù)據(jù)挖掘面向應(yīng)用領(lǐng)域要做的事還很多,比如需要開發(fā)更多數(shù)據(jù)挖掘系統(tǒng)和產(chǎn)品,需要建立行業(yè)內(nèi)的數(shù)據(jù)標(biāo)準(zhǔn)和通用挖掘平臺,需要建立可交換信息和共享知識的通用數(shù)據(jù)倉庫等。應(yīng)該說,數(shù)據(jù)挖掘包含的內(nèi)容很多,值得研究的方向也很多。但是,我們也注意到,就目前而言,注重多種策略和技術(shù)的集成,以及各個學(xué)科之間的相互滲透是目前的研究熱點。傳統(tǒng)機器學(xué)習(xí)技術(shù)一般使用研究者按照條件和結(jié)論事先組織好的數(shù)據(jù),但是數(shù)據(jù)挖掘卻需要面對現(xiàn)實的數(shù)據(jù),通常具有不完整、帶有噪音、數(shù)量大、甚至還不斷增加等特點,因此傳統(tǒng)機器學(xué)習(xí)方法需要改進后才能用于數(shù)據(jù)挖掘。所以,目前數(shù)據(jù)挖掘的研究重點應(yīng)該是針對應(yīng)用實踐,綜合借鑒交叉學(xué)科中的技術(shù)和方法,互相滲透,發(fā)現(xiàn)新的方法或進行多種策略和技術(shù)的集成。
1.2數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘,顧名思義就是指從大量的數(shù)據(jù)中提取人們所感興趣的、事先不知道的、隱含在數(shù)據(jù)中的有用的信息和知識的過程,并且把這些知識用概念、規(guī)則、規(guī)律和模式等方式展示給用戶,從而解決信息時代的“數(shù)據(jù)過量,知識不足” 的矛盾。 數(shù)據(jù)挖掘技術(shù)是從數(shù)據(jù)庫中的知識發(fā)現(xiàn)KDD(Knowledge Discovery in Database)的研究起步的,KDD是隨著數(shù)據(jù)庫開始存儲了大量業(yè)務(wù)數(shù)據(jù),并采用機器學(xué)習(xí)技術(shù)分析這些數(shù)據(jù),挖掘這些數(shù)據(jù)背后的知識而發(fā)展起來的。隨著KDD研究的深入,越來越多的研究人員進入這一領(lǐng)域。目前,大多數(shù)研究還是主要集中在數(shù)據(jù)挖掘的算法和應(yīng)用上。事實上,人們往往不嚴(yán)格區(qū)分數(shù)據(jù)挖掘和數(shù)據(jù)庫中的知識發(fā)現(xiàn)這兩個概念,常常將兩者混淆使用。一般在科學(xué)研究領(lǐng)域中稱為KDD,而在工程應(yīng)用領(lǐng)域則稱為數(shù)據(jù)挖掘數(shù)據(jù)挖掘是一門交叉學(xué)科,涉及到機器學(xué)習(xí)、統(tǒng)計學(xué)、人工智能、模式識別、數(shù)據(jù)庫、信息檢索、信息可視化和專家系統(tǒng)等多個領(lǐng)域。
 
2數(shù)據(jù)挖掘原理
2.1數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘任務(wù)主要有很多種,常見的有監(jiān)督學(xué)習(xí)(或稱為分類學(xué)習(xí))、無監(jiān)督學(xué)習(xí)(或稱為聚類分析)、關(guān)聯(lián)規(guī)則挖掘、預(yù)測、時序挖掘和偏差分析等等。
1.分類學(xué)習(xí):分類就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法模型而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測。目前比較常見的分類算法有K最近鄰居算法(K Nearest Neighbor Algorithm)、決策樹算法、貝葉斯分類和支持向量機算法(Support Vector Machine)等等。
2.聚類分析:聚類就是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。目前常見的聚類算法有基于劃分的算法、基于層次的算法、基于密度算法和基于網(wǎng)格的算法等等。
3.關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則挖掘是描述兩個或兩個以上變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個閾值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。
4.預(yù)測:預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進行預(yù)測。預(yù)測關(guān)心的是精度和不確定性,通常采用預(yù)測方差來度量。預(yù)測的主要方法有統(tǒng)計學(xué)中的回歸分析等等。
5.時序模式:時序模式是指通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣,它也是用已知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。
6.偏差分析:在偏差中包括很多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結(jié)果與參照之間的差別。
2.2數(shù)據(jù)挖掘過程

數(shù)據(jù)挖掘方法在數(shù)據(jù)挖掘過程起著很重要的作用。但是,作為一個數(shù)據(jù)挖掘應(yīng)用來說,數(shù)據(jù)挖掘僅僅是整個過程中的一個環(huán)節(jié)。數(shù)據(jù)挖掘項目的成功需要花費相當(dāng)?shù)男难?,依照?guī)范的流程進行操作。一般來說,數(shù)據(jù)挖掘需要經(jīng)歷以下過程:確定挖掘?qū)ο?、收集?shù)據(jù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和信息解釋。在整個數(shù)據(jù)挖掘過程中,信息可視化技術(shù)扮演著很重要的角色。下面詳細介紹各個數(shù)據(jù)挖掘的步驟。數(shù)據(jù)挖掘步驟圖:


1.確定挖掘?qū)ο螅憾x清晰的挖掘?qū)ο?,認清數(shù)據(jù)挖掘的目標(biāo)是數(shù)據(jù)挖掘的第一步。數(shù)據(jù)挖掘的最后結(jié)果往往是不可預(yù)測的,但是要解決的問題應(yīng)該是有預(yù)見性的、有目標(biāo)的。在數(shù)據(jù)挖掘的第一步中,有時還需要用戶提供一些先驗知識。這些先驗知識可能是用戶的業(yè)務(wù)領(lǐng)域知識或是以前數(shù)據(jù)挖掘所得到的初步成果。這就意味著數(shù)據(jù)挖掘是一個過程,在挖掘過程中可能會提出新的問題;可能會嘗試用其他的方法來檢驗數(shù)據(jù),在數(shù)據(jù)的子集上展開研究。
2.數(shù)據(jù)收集:數(shù)據(jù)是挖掘知識最原始的資料?!袄M,垃圾出”,只有從正確的數(shù)據(jù)中才能挖掘到有用的知識。為特定問題選擇數(shù)據(jù)需要領(lǐng)域?qū)<覅⒓?。因此,領(lǐng)域問題的數(shù)據(jù)收集好之后,和目標(biāo)信息相關(guān)的屬性也可以確定。
3.數(shù)據(jù)預(yù)處理:數(shù)據(jù)選擇好以后,就需要對數(shù)據(jù)進行預(yù)處理。數(shù)據(jù)預(yù)處理包括:去除錯誤數(shù)據(jù)和數(shù)據(jù)轉(zhuǎn)換。錯誤數(shù)據(jù),在統(tǒng)計學(xué)中稱為異常值,應(yīng)該在此階段發(fā)現(xiàn)并且刪除。否則,它們將導(dǎo)致產(chǎn)生錯誤的挖掘結(jié)果。同時,需要將數(shù)據(jù)轉(zhuǎn)換成合適的形式。例如,在某些情況下,將數(shù)據(jù)轉(zhuǎn)換成向量形式。另外,為了尋找更多重要的特征和減少數(shù)據(jù)挖掘步驟的負擔(dān),我們可以將數(shù)據(jù)從一個高維空間轉(zhuǎn)換到一個低維空間。
4.數(shù)據(jù)挖掘數(shù)據(jù)挖掘步驟主要是根據(jù)數(shù)據(jù)建立模型。我們可以在這個步驟使用各種數(shù)據(jù)挖掘算法和技術(shù)。然而,對于特定的任務(wù),需要選擇正確合適的算法,來解決相應(yīng)的問題。
5.信息解釋:首先,通過數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)的知識需要專家對其進行解釋,幫助解決實際問題。然后,根據(jù)可用性、正確性、可理解性等評價指標(biāo)對解釋的結(jié)果進行評估。只有經(jīng)過這一步驟的過濾,數(shù)據(jù)挖掘的結(jié)果才能夠被應(yīng)用于實踐。
6.可視化:可視化技術(shù)主要用來通過圖形化的方式顯示數(shù)據(jù)和數(shù)據(jù)挖掘的結(jié)果,從而幫助用戶更好的發(fā)現(xiàn)隱藏在數(shù)據(jù)之后的知識。它可以被應(yīng)用在數(shù)據(jù)挖掘的整個過程,包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和信息解釋。數(shù)據(jù)和信息的可視化顯示對用戶來說非常重要,因為它能夠增強可理解性和可用性。
3數(shù)據(jù)挖掘應(yīng)用
目前國際上廣泛應(yīng)用的數(shù)據(jù)挖掘工具有很多,如SAS公司的Enterprise Miner,SPSS公司的Clementine,Waikato大學(xué)開發(fā)的Weka平臺,SQL Sever的數(shù)據(jù)挖掘模塊,IBM公司的DB Miner等。本文應(yīng)用了SAS Enterprise Miner模塊進行了數(shù)據(jù)挖掘的相應(yīng)研究。
SAS(STATISTICAL ANALYSIS SYSTEM)是由美國NORTH CAROLINA州立大學(xué)1966年開發(fā)的統(tǒng)計分析軟件。SAS(Statistical Analysis System)是一個模塊化、集成化的大型應(yīng)用軟件系統(tǒng)。它由數(shù)十個專用模塊構(gòu)成,功能包括數(shù)據(jù)訪問、數(shù)據(jù)儲存及管理、應(yīng)用開發(fā)、圖形處理、數(shù)據(jù)分析、報告編制、運籌學(xué)方法、計量經(jīng)濟學(xué)與預(yù)測等等。SAS系統(tǒng)基本上可以分為四大部分:SAS數(shù)據(jù)庫部分;SAS分析核心;SAS開發(fā)呈現(xiàn)工具;SAS對分布處理模式的支持極其數(shù)據(jù)倉庫設(shè)計。SAS系統(tǒng)主要完成以數(shù)據(jù)為中心的四大任務(wù):數(shù)據(jù)訪問、數(shù)據(jù)管理、數(shù)據(jù)呈現(xiàn)、
數(shù)據(jù)分析。SAS持續(xù)良好的統(tǒng)計分析功能,得到了業(yè)界廣泛好評,這為它在國際專業(yè)統(tǒng)計分析軟件領(lǐng)域獲得頭把交椅奠定了基礎(chǔ)。
3.2數(shù)據(jù)挖掘應(yīng)用場景
目前,數(shù)據(jù)挖掘在很多領(lǐng)域得到了廣泛的應(yīng)用。以客戶為導(dǎo)向的應(yīng)用有市場購物籃分析、獲取客戶、客戶細分、客戶保持、交叉銷售、向上銷售、客戶終身價值分析等等;以運營為導(dǎo)向的應(yīng)用有盈利分析、定價、欺詐發(fā)現(xiàn)、風(fēng)險評估、客戶流失分析、生產(chǎn)效率分析等等。除此之外,數(shù)據(jù)挖掘還在生物信息學(xué)、互聯(lián)網(wǎng)、金融、電力等等企業(yè)有著各種各樣的應(yīng)用。 在未來的發(fā)展中,數(shù)據(jù)挖掘將被用于更多的領(lǐng)域。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }