99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀SAS數(shù)據(jù)挖掘?qū)崙?zhàn)篇【二】
SAS數(shù)據(jù)挖掘?qū)崙?zhàn)篇【二】
2016-04-08
收藏

SAS數(shù)據(jù)挖掘實(shí)戰(zhàn)篇【二】

SAS數(shù)據(jù)挖掘實(shí)戰(zhàn)篇【一】介紹完目前的數(shù)據(jù)挖掘基本概念之外,對(duì)整個(gè)數(shù)據(jù)挖掘的概念和應(yīng)用有初步的認(rèn)識(shí)和宏觀的把握之后,我們來了解一下SAS數(shù)據(jù)挖掘實(shí)戰(zhàn)篇【二】SAS工具的應(yīng)用。首先來看一下SAS大概的一個(gè)軟件界面。(這里面實(shí)際操作性較強(qiáng),建議都打開軟件,step by step自己操作一遍,印象深刻)操作流程如下:
 
1 認(rèn)識(shí) SAS Enterprise Miner
1啟動(dòng)SAS EM
方式1:首先打開SAS,然后在SAS命令欄輸入miner,回車即可;
 
方式2:?jiǎn)?dòng)SAS,點(diǎn)擊Solutions菜單下面的Analysis菜單下面的Enterprise Miner,即可啟動(dòng)SAS EM。


2建立工程和流程圖
EM通過工程和流程圖組織數(shù)據(jù)分析。每個(gè)工程可能有多個(gè)處理流程圖,每個(gè)流程圖可能包含多個(gè)數(shù)據(jù)分析。一般而言,每個(gè)流程圖包括一個(gè)數(shù)據(jù)集的分析。
創(chuàng)建工程步驟:
1) 從SAS菜單創(chuàng)建工程


2) 為該工程輸入工程名


3) 如果需要訪問服務(wù)器,選擇Client/Server選項(xiàng),否則就不需要選擇該項(xiàng)


4) 設(shè)置工程路徑


5) 點(diǎn)擊創(chuàng)建按鈕,默認(rèn)情況下生成一個(gè)流程圖。


6) 選擇流程圖標(biāo)題,輸入流程圖標(biāo)題


3識(shí)別窗口組件


 
 
2 SAS EM挖掘過程
SEMMA概述
SAS公司將數(shù)據(jù)挖掘的核心過程分為抽樣Sample探索Explore、修整Modify建模Model以及評(píng)估Assess幾個(gè)階段。
①抽樣
從數(shù)據(jù)集中抽取有代表性的樣本,樣本應(yīng)該大到不丟失重要的信息,小到能夠便于操作。創(chuàng)建三個(gè)數(shù)據(jù)子集:(1)訓(xùn)練數(shù)據(jù),用于擬合各種模型;(2)驗(yàn)證數(shù)據(jù),用于評(píng)估各模型并進(jìn)行模型選擇避免過度擬合;(3)測(cè)試數(shù)據(jù),用于對(duì)模型的普適性形成真實(shí)的評(píng)價(jià)。
 
②探索
使用可視化的方法或主成分分析、因子分析、聚類等統(tǒng)計(jì)方法對(duì)數(shù)據(jù)集進(jìn)行探索分析,發(fā)現(xiàn)未曾預(yù)料的趨勢(shì)和異常情況,對(duì)數(shù)據(jù)形成初步理解,尋求進(jìn)一步分析的思路。
 
③修整
包括生成和轉(zhuǎn)換變量,發(fā)現(xiàn)異常值,變量選擇等。
 
④模型
針對(duì)數(shù)據(jù)集選擇適當(dāng)?shù)哪P瓦M(jìn)行建模。
 
⑤評(píng)估
評(píng)估模型的實(shí)用性、可靠性和效果。
 
3 SAS EM結(jié)點(diǎn)介紹
主要針對(duì)下面的幾個(gè)圖標(biāo)進(jìn)行介紹:


 
----------------------------------------------------------------------------
①抽樣

輸入數(shù)據(jù)源節(jié)點(diǎn)主要用于讀取數(shù)據(jù)和定義數(shù)據(jù)的屬性。
抽樣節(jié)點(diǎn)主要通過隨機(jī)抽樣、層次抽樣和聚類抽樣三種技術(shù)對(duì)數(shù)據(jù)集進(jìn)行抽樣。對(duì)于非常大的數(shù)據(jù)庫,抽樣非常重要,這樣處理可以減少模型的訓(xùn)練時(shí)間。
數(shù)據(jù)劃分節(jié)點(diǎn)主要用于將數(shù)據(jù)集劃分為訓(xùn)練集、測(cè)試集以及驗(yàn)證集。訓(xùn)練集主要用于模型的訓(xùn)練。驗(yàn)證集主要用來調(diào)整估計(jì)階段的模型和模型評(píng)估階段。測(cè)試數(shù)據(jù)集是一種另外的數(shù)據(jù)集,主要用于模型評(píng)估。該節(jié)點(diǎn)使用簡(jiǎn)單隨機(jī)抽樣、層次抽樣或者用戶自定義的劃分來創(chuàng)建劃分?jǐn)?shù)據(jù)集。
-------------------------------------------------------------------------------------------------------------------
②探索


分布探索節(jié)點(diǎn)用于探索大量數(shù)據(jù),并且通過可視化的方式對(duì)數(shù)據(jù)進(jìn)行展示,譬如多維直方圖等等。
多圖節(jié)點(diǎn)也是一種可視化的方式顯示大量數(shù)據(jù)。與觀察節(jié)點(diǎn)和分布探索節(jié)點(diǎn)不一樣的是,該節(jié)點(diǎn)能夠自動(dòng)創(chuàng)建柱狀圖散點(diǎn)圖。
觀察節(jié)點(diǎn)可以打開SAS/INSIGHT會(huì)話。它是一種數(shù)據(jù)探索和分析的交互式工具。
關(guān)聯(lián)規(guī)則節(jié)點(diǎn)主要用來識(shí)別數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。
變量選擇節(jié)點(diǎn)主要用于評(píng)估預(yù)測(cè)或者分類目標(biāo)變量中輸入變量的重要性。為了選擇重要的輸入,該節(jié)點(diǎn)使用R平方標(biāo)準(zhǔn)或者卡方標(biāo)準(zhǔn)選擇變量。
鏈接分析節(jié)點(diǎn)用于發(fā)現(xiàn)復(fù)雜系統(tǒng)中鏈接之間的效果,從而發(fā)現(xiàn)活動(dòng)的模式得到有用的結(jié)論。
 
-------------------------------------------------------------------------------------------------------------------
③調(diào)整

數(shù)據(jù)集屬性節(jié)點(diǎn)可以用來修改數(shù)據(jù)集屬性,譬如數(shù)據(jù)集名稱,描述和角色。同時(shí),還可以修改樣本數(shù)據(jù)集的元數(shù)據(jù)以及定義目標(biāo)變量的資料。
轉(zhuǎn)換變量節(jié)點(diǎn)用于轉(zhuǎn)換變量,譬如計(jì)算自然對(duì)數(shù),最大化和目標(biāo)的相關(guān)性或者規(guī)范化變量。
過濾異常節(jié)點(diǎn)使用過濾器排除訓(xùn)練數(shù)據(jù)集中的某些觀測(cè)值,譬如異常點(diǎn)或者其他觀測(cè)值,即不包含在數(shù)據(jù)挖掘分析中的數(shù)據(jù)集。但是,該節(jié)點(diǎn)不能過濾驗(yàn)證數(shù)據(jù)集、測(cè)試數(shù)據(jù)集以及打分?jǐn)?shù)據(jù)集中的異常點(diǎn)。
替換節(jié)點(diǎn)用于對(duì)有缺失值的觀測(cè)值進(jìn)行插值。對(duì)于區(qū)間變量,可以采用平均值、中值、中間區(qū)間、基于分布的替換等等來替換缺失值。另外,還可以使用基于決策樹的方法插值。對(duì)于類別變量來說,可以使用最頻繁發(fā)生的事件的值替換缺失值,基于分布的替換,基于決策樹的插值或者常量也可以用來處理類別變量的缺失值。
聚類節(jié)點(diǎn)主要用于對(duì)數(shù)據(jù)的劃分,識(shí)別具有相似性的觀測(cè)值。相似的觀測(cè)值在相同的聚類中,不同的觀測(cè)值在不同的聚類中。
SOM節(jié)點(diǎn)產(chǎn)生自組織映射,Kohonen網(wǎng)絡(luò)以及向量數(shù)量化網(wǎng)絡(luò)。尤其是,該節(jié)點(diǎn)執(zhí)行非監(jiān)督學(xué)習(xí),理解數(shù)據(jù)的結(jié)構(gòu)。與聚類節(jié)點(diǎn)類似,在網(wǎng)絡(luò)映射創(chuàng)建好以后,數(shù)據(jù)的特性可以通過圖形化的方式來瀏覽。
時(shí)間序列節(jié)點(diǎn)主要用于預(yù)測(cè)趨勢(shì)和季節(jié)性因素的影響。時(shí)間序列數(shù)據(jù)時(shí)給予時(shí)間間隔的。

-------------------------------------------------------------------------------------------------------------------
模型

回歸模型節(jié)點(diǎn)用于擬合線性和邏輯回歸模型,可以使用連續(xù)變量、順序變量和二值目標(biāo)變量,同時(shí)可以使用連續(xù)變量和離散變量作為輸入。該節(jié)點(diǎn)支持前向、后向和雙向的選擇方法。
樹節(jié)點(diǎn)在名義變量、順序變量和連續(xù)變量的基礎(chǔ)上對(duì)數(shù)據(jù)庫執(zhí)行多路劃分。該節(jié)點(diǎn)同時(shí)支持自動(dòng)化和交互性訓(xùn)練。當(dāng)在自動(dòng)模式下運(yùn)行樹節(jié)點(diǎn)時(shí),它能夠在變量對(duì)樹模型貢獻(xiàn)的基礎(chǔ)之上自動(dòng)對(duì)輸入變量進(jìn)行排序。這種排序可能被用來作為接下步驟選擇變量的方法。另外,它所產(chǎn)生的啞變量也可用在接下來的建模過程中。交互式訓(xùn)練可以用來探索和評(píng)價(jià)比較大和復(fù)雜的樹。
神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)用于構(gòu)建、訓(xùn)練和驗(yàn)證多層前向神經(jīng)網(wǎng)路。一般來說,每個(gè)輸入是完全和第一個(gè)隱藏層連接,每個(gè)隱藏層和接下來的隱藏層完全相連,最后的隱藏層和輸出是完全連接的。該節(jié)點(diǎn)還支持一般形式的多種變種形式。
主成分分析節(jié)點(diǎn)用于擬合非線性模型。并且,該節(jié)點(diǎn)也可以執(zhí)行主成分分析,將打分的主成分傳遞給后面的節(jié)點(diǎn)。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),目標(biāo)變量必須是二值或者區(qū)間變量,但在進(jìn)行主成分分析時(shí)不需要目標(biāo)變量。
用戶自定義模型用于產(chǎn)生使用模型中SAS代碼節(jié)點(diǎn)生成的預(yù)測(cè)值或者變量選擇節(jié)點(diǎn)的評(píng)估統(tǒng)計(jì)信息。預(yù)測(cè)值可以保存在sas數(shù)據(jù)集中,然后將其導(dǎo)入到流程的數(shù)據(jù)輸入節(jié)點(diǎn)中。
集成節(jié)點(diǎn)用來組合模型,它比單個(gè)模型更加穩(wěn)定。當(dāng)獨(dú)立的模型相關(guān)性越低時(shí),組合模型更加有效。該節(jié)點(diǎn)創(chuàng)建三種組合方式:
組合模型:例如組合決策樹模型和神經(jīng)網(wǎng)絡(luò)模型。組合函數(shù)是預(yù)測(cè)值的平均值。
層次模型:在一個(gè)或者多個(gè)變量上面執(zhí)行分組處理。在這種情況下,由于數(shù)據(jù)集中每行是通過獨(dú)立的模型進(jìn)行打分,并且依賴于一個(gè)或者多個(gè)變量,因此該模型沒有組合函數(shù)。
袋和步進(jìn)模型:袋和步進(jìn)模型是通過重抽樣訓(xùn)練數(shù)據(jù)集,為每個(gè)樣本擬合獨(dú)立的模型。對(duì)預(yù)測(cè)值(區(qū)間目標(biāo)變量)或者先驗(yàn)值(分類變量)進(jìn)行平均產(chǎn)生集成模型。袋模型使用隨機(jī)抽樣代替創(chuàng)建n個(gè)樣本。每個(gè)觀測(cè)值的權(quán)重是相等的。步進(jìn)模型對(duì)每個(gè)訓(xùn)練觀測(cè)值進(jìn)行自適應(yīng)重置權(quán)重。對(duì)于先前經(jīng)常誤分類的模型,重抽樣的權(quán)重是逐漸增加的。因此,觀測(cè)值權(quán)重的分布是建立在模型先前抽樣的性能的基礎(chǔ)之上。步進(jìn)模型需要一個(gè)類型目標(biāo)變量。
基于內(nèi)存的推理節(jié)點(diǎn)是根據(jù)案例集尋找出和新的觀測(cè)值相似的案例集。在SAS EM中,基于內(nèi)存的推理模型節(jié)點(diǎn)使用K最近鄰居算法分類或者預(yù)測(cè)觀測(cè)值。
雙階段模型節(jié)點(diǎn)用于計(jì)算預(yù)測(cè)分類目標(biāo)和區(qū)間目標(biāo)的雙階段模型。區(qū)間目標(biāo)變量經(jīng)常和類別目標(biāo)的某個(gè)級(jí)別相關(guān)聯(lián)。

-------------------------------------------------------------------------------------------------------------------
⑤評(píng)估

評(píng)估節(jié)點(diǎn)為模型比較提供共同的框架。模型比較是建立在期望和實(shí)際利潤或者損失的基礎(chǔ)之上。它提供幾種圖表幫助描述模型的有效性,譬如提升圖和利潤/損失圖表。
報(bào)表節(jié)點(diǎn)將整個(gè)流程分析的結(jié)果導(dǎo)入到HTML報(bào)表中,可以通過網(wǎng)頁瀏覽器來查看。每個(gè)報(bào)表包括表頭信息,處理流程圖片以及每個(gè)節(jié)點(diǎn)的單獨(dú)報(bào)告。

-------------------------------------------------------------------------------------------------------------------
其他類型節(jié)點(diǎn):打分節(jié)點(diǎn)

打分節(jié)點(diǎn)是從訓(xùn)練模型中產(chǎn)生和管理預(yù)測(cè)值。打分公式主要用來評(píng)估和預(yù)測(cè)。SAS EM以sas數(shù)據(jù)步代碼的形式產(chǎn)生和管理打分公式。
C打分節(jié)點(diǎn)將SAS數(shù)據(jù)步的代碼轉(zhuǎn)換成c語言的形式。
 
其他類型節(jié)點(diǎn):實(shí)用節(jié)點(diǎn)


分組處理節(jié)點(diǎn)針對(duì)分類變量執(zhí)行分組處理。并且,也可以用來分析多目標(biāo),對(duì)同樣的數(shù)據(jù)源進(jìn)行重復(fù)處理。
數(shù)據(jù)挖掘數(shù)據(jù)庫節(jié)點(diǎn)為批處理創(chuàng)建數(shù)據(jù)挖掘數(shù)據(jù)庫。
SAS 代碼節(jié)點(diǎn)用來添加新的或者已經(jīng)存在的sas代碼到處理流程圖中。SAS code節(jié)點(diǎn)能夠?qū)⑵渌膕as過程加入到數(shù)據(jù)挖掘分析過程中。并且,也可以用SAS數(shù)據(jù)步創(chuàng)建自定義的評(píng)分代碼,從而有條件地進(jìn)行數(shù)據(jù)連接和合并操作。該節(jié)點(diǎn)還提供宏功能,動(dòng)態(tài)的關(guān)聯(lián)到訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集中的變量。運(yùn)行完SAS code節(jié)點(diǎn)之后,結(jié)果集合數(shù)據(jù)集可以被導(dǎo)出用于后面的節(jié)點(diǎn)。
控制點(diǎn)節(jié)點(diǎn)用于減少節(jié)點(diǎn)連接的步驟。例如,假設(shè)三個(gè)輸入數(shù)據(jù)源節(jié)點(diǎn)和三個(gè)建模節(jié)點(diǎn)連接。如果沒有使用控制點(diǎn)節(jié)點(diǎn),需要9個(gè)鏈接完成。然而,如果使用控制點(diǎn)節(jié)點(diǎn),只需要6次連接操作。
子圖節(jié)點(diǎn)將整個(gè)流程圖劃分為不同的分組。對(duì)于復(fù)雜的處理流程圖,需要?jiǎng)?chuàng)建子圖來更好的設(shè)計(jì)和控制流程。
結(jié)點(diǎn)使用的一般規(guī)則
在過程流程圖中放置結(jié)點(diǎn)的一般規(guī)則:
a)不能將任何結(jié)點(diǎn)放在輸入數(shù)據(jù)源結(jié)點(diǎn)之前。
b)在抽樣結(jié)點(diǎn)前面必須有用于導(dǎo)出數(shù)據(jù)集的結(jié)點(diǎn)。
c)評(píng)估結(jié)點(diǎn)之前必須有一個(gè)或者多個(gè)模型結(jié)點(diǎn)。
d)評(píng)分結(jié)點(diǎn)和評(píng)分轉(zhuǎn)換結(jié)點(diǎn)之前必須有用于產(chǎn)生打分的結(jié)點(diǎn)。任何修改數(shù)據(jù)結(jié)點(diǎn)和創(chuàng)建模型結(jié)點(diǎn)都會(huì)產(chǎn)生打分結(jié)點(diǎn)。
e)SAS源代碼結(jié)點(diǎn)可以定義在流程圖的任何步驟。它不需要由輸入數(shù)據(jù)源結(jié)點(diǎn)定義的數(shù)據(jù)集。

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }