SEMMA概述
SAS公司將數(shù)據(jù)挖掘的核心過程分為抽樣Sample、探索Explore、修整Modify、建模Model以及評(píng)估Assess幾個(gè)階段。
①抽樣
從數(shù)據(jù)集中抽取有代表性的樣本,樣本應(yīng)該大到不丟失重要的信息,小到能夠便于操作。創(chuàng)建三個(gè)數(shù)據(jù)子集:(1)訓(xùn)練數(shù)據(jù),用于擬合各種模型;(2)驗(yàn)證數(shù)據(jù),用于評(píng)估各模型并進(jìn)行模型選擇避免過度擬合;(3)測(cè)試數(shù)據(jù),用于對(duì)模型的普適性形成真實(shí)的評(píng)價(jià)。
②探索
使用可視化的方法或主成分分析、因子分析、聚類等統(tǒng)計(jì)方法對(duì)數(shù)據(jù)集進(jìn)行探索分析,發(fā)現(xiàn)未曾預(yù)料的趨勢(shì)和異常情況,對(duì)數(shù)據(jù)形成初步理解,尋求進(jìn)一步分析的思路。
③修整
包括生成和轉(zhuǎn)換變量,發(fā)現(xiàn)異常值,變量選擇等。
④模型
針對(duì)數(shù)據(jù)集選擇適當(dāng)?shù)哪P瓦M(jìn)行建模。
⑤評(píng)估
評(píng)估模型的實(shí)用性、可靠性和效果。
3 SAS EM結(jié)點(diǎn)介紹
主要針對(duì)下面的幾個(gè)圖標(biāo)進(jìn)行介紹:
----------------------------------------------------------------------------
①抽樣
輸入數(shù)據(jù)源節(jié)點(diǎn)主要用于讀取數(shù)據(jù)和定義數(shù)據(jù)的屬性。
抽樣節(jié)點(diǎn)主要通過隨機(jī)抽樣、層次抽樣和聚類抽樣三種技術(shù)對(duì)數(shù)據(jù)集進(jìn)行抽樣。對(duì)于非常大的數(shù)據(jù)庫,抽樣非常重要,這樣處理可以減少模型的訓(xùn)練時(shí)間。
數(shù)據(jù)劃分節(jié)點(diǎn)主要用于將數(shù)據(jù)集劃分為訓(xùn)練集、測(cè)試集以及驗(yàn)證集。訓(xùn)練集主要用于模型的訓(xùn)練。驗(yàn)證集主要用來調(diào)整估計(jì)階段的模型和模型評(píng)估階段。測(cè)試數(shù)據(jù)集是一種另外的數(shù)據(jù)集,主要用于模型評(píng)估。該節(jié)點(diǎn)使用簡(jiǎn)單隨機(jī)抽樣、層次抽樣或者用戶自定義的劃分來創(chuàng)建劃分?jǐn)?shù)據(jù)集。
-------------------------------------------------------------------------------------------------------------------
②探索
分布探索節(jié)點(diǎn)用于探索大量數(shù)據(jù),并且通過可視化的方式對(duì)數(shù)據(jù)進(jìn)行展示,譬如多維直方圖等等。
多圖節(jié)點(diǎn)也是一種可視化的方式顯示大量數(shù)據(jù)。與觀察節(jié)點(diǎn)和分布探索節(jié)點(diǎn)不一樣的是,該節(jié)點(diǎn)能夠自動(dòng)創(chuàng)建柱狀圖和散點(diǎn)圖。
觀察節(jié)點(diǎn)可以打開SAS/INSIGHT會(huì)話。它是一種數(shù)據(jù)探索和分析的交互式工具。
變量選擇節(jié)點(diǎn)主要用于評(píng)估預(yù)測(cè)或者分類目標(biāo)變量中輸入變量的重要性。為了選擇重要的輸入,該節(jié)點(diǎn)使用R平方標(biāo)準(zhǔn)或者卡方標(biāo)準(zhǔn)選擇變量。
鏈接分析節(jié)點(diǎn)用于發(fā)現(xiàn)復(fù)雜系統(tǒng)中鏈接之間的效果,從而發(fā)現(xiàn)活動(dòng)的模式得到有用的結(jié)論。
-------------------------------------------------------------------------------------------------------------------
③調(diào)整
數(shù)據(jù)集屬性節(jié)點(diǎn)可以用來修改數(shù)據(jù)集屬性,譬如數(shù)據(jù)集名稱,描述和角色。同時(shí),還可以修改樣本數(shù)據(jù)集的元數(shù)據(jù)以及定義目標(biāo)變量的資料。
轉(zhuǎn)換變量節(jié)點(diǎn)用于轉(zhuǎn)換變量,譬如計(jì)算自然對(duì)數(shù),最大化和目標(biāo)的相關(guān)性或者規(guī)范化變量。
過濾異常節(jié)點(diǎn)使用過濾器排除訓(xùn)練數(shù)據(jù)集中的某些觀測(cè)值,譬如異常點(diǎn)或者其他觀測(cè)值,即不包含在數(shù)據(jù)挖掘分析中的數(shù)據(jù)集。但是,該節(jié)點(diǎn)不能過濾驗(yàn)證數(shù)據(jù)集、測(cè)試數(shù)據(jù)集以及打分?jǐn)?shù)據(jù)集中的異常點(diǎn)。
替換節(jié)點(diǎn)用于對(duì)有缺失值的觀測(cè)值進(jìn)行插值。對(duì)于區(qū)間變量,可以采用平均值、中值、中間區(qū)間、基于分布的替換等等來替換缺失值。另外,還可以使用基于決策樹的方法插值。對(duì)于類別變量來說,可以使用最頻繁發(fā)生的事件的值替換缺失值,基于分布的替換,基于決策樹的插值或者常量也可以用來處理類別變量的缺失值。
聚類節(jié)點(diǎn)主要用于對(duì)數(shù)據(jù)的劃分,識(shí)別具有相似性的觀測(cè)值。相似的觀測(cè)值在相同的聚類中,不同的觀測(cè)值在不同的聚類中。
SOM節(jié)點(diǎn)產(chǎn)生自組織映射,Kohonen網(wǎng)絡(luò)以及向量數(shù)量化網(wǎng)絡(luò)。尤其是,該節(jié)點(diǎn)執(zhí)行非監(jiān)督學(xué)習(xí),理解數(shù)據(jù)的結(jié)構(gòu)。與聚類節(jié)點(diǎn)類似,在網(wǎng)絡(luò)映射創(chuàng)建好以后,數(shù)據(jù)的特性可以通過圖形化的方式來瀏覽。
時(shí)間序列節(jié)點(diǎn)主要用于預(yù)測(cè)趨勢(shì)和季節(jié)性因素的影響。時(shí)間序列數(shù)據(jù)時(shí)給予時(shí)間間隔的。
-------------------------------------------------------------------------------------------------------------------
④模型
回歸模型節(jié)點(diǎn)用于擬合線性和邏輯回歸模型,可以使用連續(xù)變量、順序變量和二值目標(biāo)變量,同時(shí)可以使用連續(xù)變量和離散變量作為輸入。該節(jié)點(diǎn)支持前向、后向和雙向的選擇方法。
樹節(jié)點(diǎn)在名義變量、順序變量和連續(xù)變量的基礎(chǔ)上對(duì)數(shù)據(jù)庫執(zhí)行多路劃分。該節(jié)點(diǎn)同時(shí)支持自動(dòng)化和交互性訓(xùn)練。當(dāng)在自動(dòng)模式下運(yùn)行樹節(jié)點(diǎn)時(shí),它能夠在變量對(duì)樹模型貢獻(xiàn)的基礎(chǔ)之上自動(dòng)對(duì)輸入變量進(jìn)行排序。這種排序可能被用來作為接下步驟選擇變量的方法。另外,它所產(chǎn)生的啞變量也可用在接下來的建模過程中。交互式訓(xùn)練可以用來探索和評(píng)價(jià)比較大和復(fù)雜的樹。
神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)用于構(gòu)建、訓(xùn)練和驗(yàn)證多層前向神經(jīng)網(wǎng)路。一般來說,每個(gè)輸入是完全和第一個(gè)隱藏層連接,每個(gè)隱藏層和接下來的隱藏層完全相連,最后的隱藏層和輸出是完全連接的。該節(jié)點(diǎn)還支持一般形式的多種變種形式。
主成分分析節(jié)點(diǎn)用于擬合非線性模型。并且,該節(jié)點(diǎn)也可以執(zhí)行主成分分析,將打分的主成分傳遞給后面的節(jié)點(diǎn)。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),目標(biāo)變量必須是二值或者區(qū)間變量,但在進(jìn)行主成分分析時(shí)不需要目標(biāo)變量。
用戶自定義模型用于產(chǎn)生使用模型中SAS代碼節(jié)點(diǎn)生成的預(yù)測(cè)值或者變量選擇節(jié)點(diǎn)的評(píng)估統(tǒng)計(jì)信息。預(yù)測(cè)值可以保存在sas數(shù)據(jù)集中,然后將其導(dǎo)入到流程的數(shù)據(jù)輸入節(jié)點(diǎn)中。
集成節(jié)點(diǎn)用來組合模型,它比單個(gè)模型更加穩(wěn)定。當(dāng)獨(dú)立的模型相關(guān)性越低時(shí),組合模型更加有效。該節(jié)點(diǎn)創(chuàng)建三種組合方式:
層次模型:在一個(gè)或者多個(gè)變量上面執(zhí)行分組處理。在這種情況下,由于數(shù)據(jù)集中每行是通過獨(dú)立的模型進(jìn)行打分,并且依賴于一個(gè)或者多個(gè)變量,因此該模型沒有組合函數(shù)。
袋和步進(jìn)模型:袋和步進(jìn)模型是通過重抽樣訓(xùn)練數(shù)據(jù)集,為每個(gè)樣本擬合獨(dú)立的模型。對(duì)預(yù)測(cè)值(區(qū)間目標(biāo)變量)或者先驗(yàn)值(分類變量)進(jìn)行平均產(chǎn)生集成模型。袋模型使用隨機(jī)抽樣代替創(chuàng)建n個(gè)樣本。每個(gè)觀測(cè)值的權(quán)重是相等的。步進(jìn)模型對(duì)每個(gè)訓(xùn)練觀測(cè)值進(jìn)行自適應(yīng)重置權(quán)重。對(duì)于先前經(jīng)常誤分類的模型,重抽樣的權(quán)重是逐漸增加的。因此,觀測(cè)值權(quán)重的分布是建立在模型先前抽樣的性能的基礎(chǔ)之上。步進(jìn)模型需要一個(gè)類型目標(biāo)變量。
基于內(nèi)存的推理節(jié)點(diǎn)是根據(jù)案例集尋找出和新的觀測(cè)值相似的案例集。在SAS EM中,基于內(nèi)存的推理模型節(jié)點(diǎn)使用K最近鄰居算法分類或者預(yù)測(cè)觀測(cè)值。
雙階段模型節(jié)點(diǎn)用于計(jì)算預(yù)測(cè)分類目標(biāo)和區(qū)間目標(biāo)的雙階段模型。區(qū)間目標(biāo)變量經(jīng)常和類別目標(biāo)的某個(gè)級(jí)別相關(guān)聯(lián)。
-------------------------------------------------------------------------------------------------------------------
⑤評(píng)估
評(píng)估節(jié)點(diǎn)為模型比較提供共同的框架。模型比較是建立在期望和實(shí)際利潤或者損失的基礎(chǔ)之上。它提供幾種圖表幫助描述模型的有效性,譬如提升圖和利潤/損失圖表。
報(bào)表節(jié)點(diǎn)將整個(gè)流程分析的結(jié)果導(dǎo)入到HTML報(bào)表中,可以通過網(wǎng)頁瀏覽器來查看。每個(gè)報(bào)表包括表頭信息,處理流程圖片以及每個(gè)節(jié)點(diǎn)的單獨(dú)報(bào)告。
-------------------------------------------------------------------------------------------------------------------
其他類型節(jié)點(diǎn):打分節(jié)點(diǎn)
打分節(jié)點(diǎn)是從訓(xùn)練模型中產(chǎn)生和管理預(yù)測(cè)值。打分公式主要用來評(píng)估和預(yù)測(cè)。SAS EM以sas數(shù)據(jù)步代碼的形式產(chǎn)生和管理打分公式。
C打分節(jié)點(diǎn)將SAS數(shù)據(jù)步的代碼轉(zhuǎn)換成c語言的形式。
其他類型節(jié)點(diǎn):實(shí)用節(jié)點(diǎn)
分組處理節(jié)點(diǎn)針對(duì)分類變量執(zhí)行分組處理。并且,也可以用來分析多目標(biāo),對(duì)同樣的數(shù)據(jù)源進(jìn)行重復(fù)處理。
SAS 代碼節(jié)點(diǎn)用來添加新的或者已經(jīng)存在的sas代碼到處理流程圖中。SAS code節(jié)點(diǎn)能夠?qū)⑵渌膕as過程加入到數(shù)據(jù)挖掘分析過程中。并且,也可以用SAS數(shù)據(jù)步創(chuàng)建自定義的評(píng)分代碼,從而有條件地進(jìn)行數(shù)據(jù)連接和合并操作。該節(jié)點(diǎn)還提供宏功能,動(dòng)態(tài)的關(guān)聯(lián)到訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集中的變量。運(yùn)行完SAS code節(jié)點(diǎn)之后,結(jié)果集合數(shù)據(jù)集可以被導(dǎo)出用于后面的節(jié)點(diǎn)。
控制點(diǎn)節(jié)點(diǎn)用于減少節(jié)點(diǎn)連接的步驟。例如,假設(shè)三個(gè)輸入數(shù)據(jù)源節(jié)點(diǎn)和三個(gè)建模節(jié)點(diǎn)連接。如果沒有使用控制點(diǎn)節(jié)點(diǎn),需要9個(gè)鏈接完成。然而,如果使用控制點(diǎn)節(jié)點(diǎn),只需要6次連接操作。
子圖節(jié)點(diǎn)將整個(gè)流程圖劃分為不同的分組。對(duì)于復(fù)雜的處理流程圖,需要?jiǎng)?chuàng)建子圖來更好的設(shè)計(jì)和控制流程。
結(jié)點(diǎn)使用的一般規(guī)則
在過程流程圖中放置結(jié)點(diǎn)的一般規(guī)則:
a)不能將任何結(jié)點(diǎn)放在輸入數(shù)據(jù)源結(jié)點(diǎn)之前。
b)在抽樣結(jié)點(diǎn)前面必須有用于導(dǎo)出數(shù)據(jù)集的結(jié)點(diǎn)。
c)評(píng)估結(jié)點(diǎn)之前必須有一個(gè)或者多個(gè)模型結(jié)點(diǎn)。
d)評(píng)分結(jié)點(diǎn)和評(píng)分轉(zhuǎn)換結(jié)點(diǎn)之前必須有用于產(chǎn)生打分的結(jié)點(diǎn)。任何修改數(shù)據(jù)結(jié)點(diǎn)和創(chuàng)建模型結(jié)點(diǎn)都會(huì)產(chǎn)生打分結(jié)點(diǎn)。
e)SAS源代碼結(jié)點(diǎn)可以定義在流程圖的任何步驟。它不需要由輸入數(shù)據(jù)源結(jié)點(diǎn)定義的數(shù)據(jù)集。
CDA數(shù)據(jù)分析師考試相關(guān)入口一覽(建議收藏):
? 想報(bào)名CDA認(rèn)證考試,點(diǎn)擊>>>
“CDA報(bào)名”
了解CDA考試詳情;
? 想學(xué)習(xí)CDA考試教材,點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫,點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情;
? 想了解CDA考試含金量,點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情;