99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀SAS數(shù)據(jù)挖掘?qū)崙?zhàn)篇【二】
SAS數(shù)據(jù)挖掘?qū)崙?zhàn)篇【二】
2016-04-08
收藏

SAS數(shù)據(jù)挖掘實戰(zhàn)篇【二】

SAS數(shù)據(jù)挖掘實戰(zhàn)篇【一】介紹完目前的數(shù)據(jù)挖掘基本概念之外,對整個數(shù)據(jù)挖掘的概念和應(yīng)用有初步的認識和宏觀的把握之后,我們來了解一下SAS數(shù)據(jù)挖掘實戰(zhàn)篇【二】SAS工具的應(yīng)用。首先來看一下SAS大概的一個軟件界面。(這里面實際操作性較強,建議都打開軟件,step by step自己操作一遍,印象深刻)操作流程如下:
 
1 認識 SAS Enterprise Miner
1啟動SAS EM
方式1:首先打開SAS,然后在SAS命令欄輸入miner,回車即可;
 
方式2:啟動SAS,點擊Solutions菜單下面的Analysis菜單下面的Enterprise Miner,即可啟動SAS EM。


2建立工程和流程圖
EM通過工程和流程圖組織數(shù)據(jù)分析。每個工程可能有多個處理流程圖,每個流程圖可能包含多個數(shù)據(jù)分析。一般而言,每個流程圖包括一個數(shù)據(jù)集的分析。
創(chuàng)建工程步驟:
1) 從SAS菜單創(chuàng)建工程


2) 為該工程輸入工程名


3) 如果需要訪問服務(wù)器,選擇Client/Server選項,否則就不需要選擇該項


4) 設(shè)置工程路徑


5) 點擊創(chuàng)建按鈕,默認情況下生成一個流程圖。


6) 選擇流程圖標題,輸入流程圖標題


3識別窗口組件


 
 
2 SAS EM挖掘過程
SEMMA概述
SAS公司將數(shù)據(jù)挖掘的核心過程分為抽樣Sample探索Explore、修整Modify、建模Model以及評估Assess幾個階段。
①抽樣
從數(shù)據(jù)集中抽取有代表性的樣本,樣本應(yīng)該大到不丟失重要的信息,小到能夠便于操作。創(chuàng)建三個數(shù)據(jù)子集:(1)訓(xùn)練數(shù)據(jù),用于擬合各種模型;(2)驗證數(shù)據(jù),用于評估各模型并進行模型選擇避免過度擬合;(3)測試數(shù)據(jù),用于對模型的普適性形成真實的評價。
 
②探索
使用可視化的方法或主成分分析、因子分析、聚類等統(tǒng)計方法對數(shù)據(jù)集進行探索分析,發(fā)現(xiàn)未曾預(yù)料的趨勢和異常情況,對數(shù)據(jù)形成初步理解,尋求進一步分析的思路。
 
③修整
包括生成和轉(zhuǎn)換變量,發(fā)現(xiàn)異常值,變量選擇等。
 
④模型
針對數(shù)據(jù)集選擇適當(dāng)?shù)哪P瓦M行建模。
 
⑤評估
評估模型的實用性、可靠性和效果。
 
3 SAS EM結(jié)點介紹
主要針對下面的幾個圖標進行介紹:


 
----------------------------------------------------------------------------
①抽樣

輸入數(shù)據(jù)源節(jié)點主要用于讀取數(shù)據(jù)和定義數(shù)據(jù)的屬性。
抽樣節(jié)點主要通過隨機抽樣、層次抽樣和聚類抽樣三種技術(shù)對數(shù)據(jù)集進行抽樣。對于非常大的數(shù)據(jù)庫,抽樣非常重要,這樣處理可以減少模型的訓(xùn)練時間。
數(shù)據(jù)劃分節(jié)點主要用于將數(shù)據(jù)集劃分為訓(xùn)練集、測試集以及驗證集。訓(xùn)練集主要用于模型的訓(xùn)練。驗證集主要用來調(diào)整估計階段的模型和模型評估階段。測試數(shù)據(jù)集是一種另外的數(shù)據(jù)集,主要用于模型評估。該節(jié)點使用簡單隨機抽樣、層次抽樣或者用戶自定義的劃分來創(chuàng)建劃分數(shù)據(jù)集。
-------------------------------------------------------------------------------------------------------------------
②探索


分布探索節(jié)點用于探索大量數(shù)據(jù),并且通過可視化的方式對數(shù)據(jù)進行展示,譬如多維直方圖等等。
多圖節(jié)點也是一種可視化的方式顯示大量數(shù)據(jù)。與觀察節(jié)點和分布探索節(jié)點不一樣的是,該節(jié)點能夠自動創(chuàng)建柱狀圖散點圖。
觀察節(jié)點可以打開SAS/INSIGHT會話。它是一種數(shù)據(jù)探索和分析的交互式工具。
關(guān)聯(lián)規(guī)則節(jié)點主要用來識別數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。
變量選擇節(jié)點主要用于評估預(yù)測或者分類目標變量中輸入變量的重要性。為了選擇重要的輸入,該節(jié)點使用R平方標準或者卡方標準選擇變量。
鏈接分析節(jié)點用于發(fā)現(xiàn)復(fù)雜系統(tǒng)中鏈接之間的效果,從而發(fā)現(xiàn)活動的模式得到有用的結(jié)論。
 
-------------------------------------------------------------------------------------------------------------------
③調(diào)整

數(shù)據(jù)集屬性節(jié)點可以用來修改數(shù)據(jù)集屬性,譬如數(shù)據(jù)集名稱,描述和角色。同時,還可以修改樣本數(shù)據(jù)集的元數(shù)據(jù)以及定義目標變量的資料。
轉(zhuǎn)換變量節(jié)點用于轉(zhuǎn)換變量,譬如計算自然對數(shù),最大化和目標的相關(guān)性或者規(guī)范化變量。
過濾異常節(jié)點使用過濾器排除訓(xùn)練數(shù)據(jù)集中的某些觀測值,譬如異常點或者其他觀測值,即不包含在數(shù)據(jù)挖掘分析中的數(shù)據(jù)集。但是,該節(jié)點不能過濾驗證數(shù)據(jù)集、測試數(shù)據(jù)集以及打分數(shù)據(jù)集中的異常點。
替換節(jié)點用于對有缺失值的觀測值進行插值。對于區(qū)間變量,可以采用平均值、中值、中間區(qū)間、基于分布的替換等等來替換缺失值。另外,還可以使用基于決策樹的方法插值。對于類別變量來說,可以使用最頻繁發(fā)生的事件的值替換缺失值,基于分布的替換,基于決策樹的插值或者常量也可以用來處理類別變量的缺失值。
聚類節(jié)點主要用于對數(shù)據(jù)的劃分,識別具有相似性的觀測值。相似的觀測值在相同的聚類中,不同的觀測值在不同的聚類中。
SOM節(jié)點產(chǎn)生自組織映射,Kohonen網(wǎng)絡(luò)以及向量數(shù)量化網(wǎng)絡(luò)。尤其是,該節(jié)點執(zhí)行非監(jiān)督學(xué)習(xí),理解數(shù)據(jù)的結(jié)構(gòu)。與聚類節(jié)點類似,在網(wǎng)絡(luò)映射創(chuàng)建好以后,數(shù)據(jù)的特性可以通過圖形化的方式來瀏覽。
時間序列節(jié)點主要用于預(yù)測趨勢和季節(jié)性因素的影響。時間序列數(shù)據(jù)時給予時間間隔的。

-------------------------------------------------------------------------------------------------------------------
模型

回歸模型節(jié)點用于擬合線性和邏輯回歸模型,可以使用連續(xù)變量、順序變量和二值目標變量,同時可以使用連續(xù)變量和離散變量作為輸入。該節(jié)點支持前向、后向和雙向的選擇方法。
樹節(jié)點在名義變量、順序變量和連續(xù)變量的基礎(chǔ)上對數(shù)據(jù)庫執(zhí)行多路劃分。該節(jié)點同時支持自動化和交互性訓(xùn)練。當(dāng)在自動模式下運行樹節(jié)點時,它能夠在變量對樹模型貢獻的基礎(chǔ)之上自動對輸入變量進行排序。這種排序可能被用來作為接下步驟選擇變量的方法。另外,它所產(chǎn)生的啞變量也可用在接下來的建模過程中。交互式訓(xùn)練可以用來探索和評價比較大和復(fù)雜的樹。
神經(jīng)網(wǎng)絡(luò)節(jié)點用于構(gòu)建、訓(xùn)練和驗證多層前向神經(jīng)網(wǎng)路。一般來說,每個輸入是完全和第一個隱藏層連接,每個隱藏層和接下來的隱藏層完全相連,最后的隱藏層和輸出是完全連接的。該節(jié)點還支持一般形式的多種變種形式。
主成分分析節(jié)點用于擬合非線性模型。并且,該節(jié)點也可以執(zhí)行主成分分析,將打分的主成分傳遞給后面的節(jié)點。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,目標變量必須是二值或者區(qū)間變量,但在進行主成分分析時不需要目標變量。
用戶自定義模型用于產(chǎn)生使用模型中SAS代碼節(jié)點生成的預(yù)測值或者變量選擇節(jié)點的評估統(tǒng)計信息。預(yù)測值可以保存在sas數(shù)據(jù)集中,然后將其導(dǎo)入到流程的數(shù)據(jù)輸入節(jié)點中。
集成節(jié)點用來組合模型,它比單個模型更加穩(wěn)定。當(dāng)獨立的模型相關(guān)性越低時,組合模型更加有效。該節(jié)點創(chuàng)建三種組合方式:
組合模型:例如組合決策樹模型和神經(jīng)網(wǎng)絡(luò)模型。組合函數(shù)是預(yù)測值的平均值。
層次模型:在一個或者多個變量上面執(zhí)行分組處理。在這種情況下,由于數(shù)據(jù)集中每行是通過獨立的模型進行打分,并且依賴于一個或者多個變量,因此該模型沒有組合函數(shù)。
袋和步進模型:袋和步進模型是通過重抽樣訓(xùn)練數(shù)據(jù)集,為每個樣本擬合獨立的模型。對預(yù)測值(區(qū)間目標變量)或者先驗值(分類變量)進行平均產(chǎn)生集成模型。袋模型使用隨機抽樣代替創(chuàng)建n個樣本。每個觀測值的權(quán)重是相等的。步進模型對每個訓(xùn)練觀測值進行自適應(yīng)重置權(quán)重。對于先前經(jīng)常誤分類的模型,重抽樣的權(quán)重是逐漸增加的。因此,觀測值權(quán)重的分布是建立在模型先前抽樣的性能的基礎(chǔ)之上。步進模型需要一個類型目標變量。
基于內(nèi)存的推理節(jié)點是根據(jù)案例集尋找出和新的觀測值相似的案例集。在SAS EM中,基于內(nèi)存的推理模型節(jié)點使用K最近鄰居算法分類或者預(yù)測觀測值。
雙階段模型節(jié)點用于計算預(yù)測分類目標和區(qū)間目標的雙階段模型。區(qū)間目標變量經(jīng)常和類別目標的某個級別相關(guān)聯(lián)。

-------------------------------------------------------------------------------------------------------------------
⑤評估

評估節(jié)點為模型比較提供共同的框架。模型比較是建立在期望和實際利潤或者損失的基礎(chǔ)之上。它提供幾種圖表幫助描述模型的有效性,譬如提升圖和利潤/損失圖表。
報表節(jié)點將整個流程分析的結(jié)果導(dǎo)入到HTML報表中,可以通過網(wǎng)頁瀏覽器來查看。每個報表包括表頭信息,處理流程圖片以及每個節(jié)點的單獨報告。

-------------------------------------------------------------------------------------------------------------------
其他類型節(jié)點:打分節(jié)點

打分節(jié)點是從訓(xùn)練模型中產(chǎn)生和管理預(yù)測值。打分公式主要用來評估和預(yù)測。SAS EM以sas數(shù)據(jù)步代碼的形式產(chǎn)生和管理打分公式。
C打分節(jié)點將SAS數(shù)據(jù)步的代碼轉(zhuǎn)換成c語言的形式。
 
其他類型節(jié)點:實用節(jié)點


分組處理節(jié)點針對分類變量執(zhí)行分組處理。并且,也可以用來分析多目標,對同樣的數(shù)據(jù)源進行重復(fù)處理。
數(shù)據(jù)挖掘數(shù)據(jù)庫節(jié)點為批處理創(chuàng)建數(shù)據(jù)挖掘數(shù)據(jù)庫。
SAS 代碼節(jié)點用來添加新的或者已經(jīng)存在的sas代碼到處理流程圖中。SAS code節(jié)點能夠?qū)⑵渌膕as過程加入到數(shù)據(jù)挖掘分析過程中。并且,也可以用SAS數(shù)據(jù)步創(chuàng)建自定義的評分代碼,從而有條件地進行數(shù)據(jù)連接和合并操作。該節(jié)點還提供宏功能,動態(tài)的關(guān)聯(lián)到訓(xùn)練數(shù)據(jù)集、驗證數(shù)據(jù)集和測試數(shù)據(jù)集中的變量。運行完SAS code節(jié)點之后,結(jié)果集合數(shù)據(jù)集可以被導(dǎo)出用于后面的節(jié)點。
控制點節(jié)點用于減少節(jié)點連接的步驟。例如,假設(shè)三個輸入數(shù)據(jù)源節(jié)點和三個建模節(jié)點連接。如果沒有使用控制點節(jié)點,需要9個鏈接完成。然而,如果使用控制點節(jié)點,只需要6次連接操作。
子圖節(jié)點將整個流程圖劃分為不同的分組。對于復(fù)雜的處理流程圖,需要創(chuàng)建子圖來更好的設(shè)計和控制流程。
結(jié)點使用的一般規(guī)則
在過程流程圖中放置結(jié)點的一般規(guī)則:
a)不能將任何結(jié)點放在輸入數(shù)據(jù)源結(jié)點之前。
b)在抽樣結(jié)點前面必須有用于導(dǎo)出數(shù)據(jù)集的結(jié)點。
c)評估結(jié)點之前必須有一個或者多個模型結(jié)點。
d)評分結(jié)點和評分轉(zhuǎn)換結(jié)點之前必須有用于產(chǎn)生打分的結(jié)點。任何修改數(shù)據(jù)結(jié)點和創(chuàng)建模型結(jié)點都會產(chǎn)生打分結(jié)點。
e)SAS源代碼結(jié)點可以定義在流程圖的任何步驟。它不需要由輸入數(shù)據(jù)源結(jié)點定義的數(shù)據(jù)集。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }