SEMMA概述
SAS公司將數(shù)據(jù)挖掘的核心過程分為抽樣Sample、探索Explore、修整Modify、建模Model以及評估Assess幾個階段。
①抽樣
從數(shù)據(jù)集中抽取有代表性的樣本,樣本應(yīng)該大到不丟失重要的信息,小到能夠便于操作。創(chuàng)建三個數(shù)據(jù)子集:(1)訓(xùn)練數(shù)據(jù),用于擬合各種模型;(2)驗證數(shù)據(jù),用于評估各模型并進行模型選擇避免過度擬合;(3)測試數(shù)據(jù),用于對模型的普適性形成真實的評價。
②探索
使用可視化的方法或主成分分析、因子分析、聚類等統(tǒng)計方法對數(shù)據(jù)集進行探索分析,發(fā)現(xiàn)未曾預(yù)料的趨勢和異常情況,對數(shù)據(jù)形成初步理解,尋求進一步分析的思路。
③修整
包括生成和轉(zhuǎn)換變量,發(fā)現(xiàn)異常值,變量選擇等。
④模型
針對數(shù)據(jù)集選擇適當(dāng)?shù)哪P瓦M行建模。
3 SAS EM結(jié)點介紹
主要針對下面的幾個圖標進行介紹:
----------------------------------------------------------------------------
①抽樣
輸入數(shù)據(jù)源節(jié)點主要用于讀取數(shù)據(jù)和定義數(shù)據(jù)的屬性。
抽樣節(jié)點主要通過隨機抽樣、層次抽樣和聚類抽樣三種技術(shù)對數(shù)據(jù)集進行抽樣。對于非常大的數(shù)據(jù)庫,抽樣非常重要,這樣處理可以減少模型的訓(xùn)練時間。
數(shù)據(jù)劃分節(jié)點主要用于將數(shù)據(jù)集劃分為訓(xùn)練集、測試集以及驗證集。訓(xùn)練集主要用于模型的訓(xùn)練。驗證集主要用來調(diào)整估計階段的模型和模型評估階段。測試數(shù)據(jù)集是一種另外的數(shù)據(jù)集,主要用于模型評估。該節(jié)點使用簡單隨機抽樣、層次抽樣或者用戶自定義的劃分來創(chuàng)建劃分數(shù)據(jù)集。
-------------------------------------------------------------------------------------------------------------------
②探索
分布探索節(jié)點用于探索大量數(shù)據(jù),并且通過可視化的方式對數(shù)據(jù)進行展示,譬如多維直方圖等等。
多圖節(jié)點也是一種可視化的方式顯示大量數(shù)據(jù)。與觀察節(jié)點和分布探索節(jié)點不一樣的是,該節(jié)點能夠自動創(chuàng)建柱狀圖和散點圖。
觀察節(jié)點可以打開SAS/INSIGHT會話。它是一種數(shù)據(jù)探索和分析的交互式工具。
變量選擇節(jié)點主要用于評估預(yù)測或者分類目標變量中輸入變量的重要性。為了選擇重要的輸入,該節(jié)點使用R平方標準或者卡方標準選擇變量。
鏈接分析節(jié)點用于發(fā)現(xiàn)復(fù)雜系統(tǒng)中鏈接之間的效果,從而發(fā)現(xiàn)活動的模式得到有用的結(jié)論。
-------------------------------------------------------------------------------------------------------------------
③調(diào)整
數(shù)據(jù)集屬性節(jié)點可以用來修改數(shù)據(jù)集屬性,譬如數(shù)據(jù)集名稱,描述和角色。同時,還可以修改樣本數(shù)據(jù)集的元數(shù)據(jù)以及定義目標變量的資料。
轉(zhuǎn)換變量節(jié)點用于轉(zhuǎn)換變量,譬如計算自然對數(shù),最大化和目標的相關(guān)性或者規(guī)范化變量。
過濾異常節(jié)點使用過濾器排除訓(xùn)練數(shù)據(jù)集中的某些觀測值,譬如異常點或者其他觀測值,即不包含在數(shù)據(jù)挖掘分析中的數(shù)據(jù)集。但是,該節(jié)點不能過濾驗證數(shù)據(jù)集、測試數(shù)據(jù)集以及打分數(shù)據(jù)集中的異常點。
替換節(jié)點用于對有缺失值的觀測值進行插值。對于區(qū)間變量,可以采用平均值、中值、中間區(qū)間、基于分布的替換等等來替換缺失值。另外,還可以使用基于決策樹的方法插值。對于類別變量來說,可以使用最頻繁發(fā)生的事件的值替換缺失值,基于分布的替換,基于決策樹的插值或者常量也可以用來處理類別變量的缺失值。
聚類節(jié)點主要用于對數(shù)據(jù)的劃分,識別具有相似性的觀測值。相似的觀測值在相同的聚類中,不同的觀測值在不同的聚類中。
SOM節(jié)點產(chǎn)生自組織映射,Kohonen網(wǎng)絡(luò)以及向量數(shù)量化網(wǎng)絡(luò)。尤其是,該節(jié)點執(zhí)行非監(jiān)督學(xué)習(xí),理解數(shù)據(jù)的結(jié)構(gòu)。與聚類節(jié)點類似,在網(wǎng)絡(luò)映射創(chuàng)建好以后,數(shù)據(jù)的特性可以通過圖形化的方式來瀏覽。
時間序列節(jié)點主要用于預(yù)測趨勢和季節(jié)性因素的影響。時間序列數(shù)據(jù)時給予時間間隔的。
-------------------------------------------------------------------------------------------------------------------
④模型
回歸模型節(jié)點用于擬合線性和邏輯回歸模型,可以使用連續(xù)變量、順序變量和二值目標變量,同時可以使用連續(xù)變量和離散變量作為輸入。該節(jié)點支持前向、后向和雙向的選擇方法。
樹節(jié)點在名義變量、順序變量和連續(xù)變量的基礎(chǔ)上對數(shù)據(jù)庫執(zhí)行多路劃分。該節(jié)點同時支持自動化和交互性訓(xùn)練。當(dāng)在自動模式下運行樹節(jié)點時,它能夠在變量對樹模型貢獻的基礎(chǔ)之上自動對輸入變量進行排序。這種排序可能被用來作為接下步驟選擇變量的方法。另外,它所產(chǎn)生的啞變量也可用在接下來的建模過程中。交互式訓(xùn)練可以用來探索和評價比較大和復(fù)雜的樹。
神經(jīng)網(wǎng)絡(luò)節(jié)點用于構(gòu)建、訓(xùn)練和驗證多層前向神經(jīng)網(wǎng)路。一般來說,每個輸入是完全和第一個隱藏層連接,每個隱藏層和接下來的隱藏層完全相連,最后的隱藏層和輸出是完全連接的。該節(jié)點還支持一般形式的多種變種形式。
主成分分析節(jié)點用于擬合非線性模型。并且,該節(jié)點也可以執(zhí)行主成分分析,將打分的主成分傳遞給后面的節(jié)點。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,目標變量必須是二值或者區(qū)間變量,但在進行主成分分析時不需要目標變量。
用戶自定義模型用于產(chǎn)生使用模型中SAS代碼節(jié)點生成的預(yù)測值或者變量選擇節(jié)點的評估統(tǒng)計信息。預(yù)測值可以保存在sas數(shù)據(jù)集中,然后將其導(dǎo)入到流程的數(shù)據(jù)輸入節(jié)點中。
集成節(jié)點用來組合模型,它比單個模型更加穩(wěn)定。當(dāng)獨立的模型相關(guān)性越低時,組合模型更加有效。該節(jié)點創(chuàng)建三種組合方式:
層次模型:在一個或者多個變量上面執(zhí)行分組處理。在這種情況下,由于數(shù)據(jù)集中每行是通過獨立的模型進行打分,并且依賴于一個或者多個變量,因此該模型沒有組合函數(shù)。
袋和步進模型:袋和步進模型是通過重抽樣訓(xùn)練數(shù)據(jù)集,為每個樣本擬合獨立的模型。對預(yù)測值(區(qū)間目標變量)或者先驗值(分類變量)進行平均產(chǎn)生集成模型。袋模型使用隨機抽樣代替創(chuàng)建n個樣本。每個觀測值的權(quán)重是相等的。步進模型對每個訓(xùn)練觀測值進行自適應(yīng)重置權(quán)重。對于先前經(jīng)常誤分類的模型,重抽樣的權(quán)重是逐漸增加的。因此,觀測值權(quán)重的分布是建立在模型先前抽樣的性能的基礎(chǔ)之上。步進模型需要一個類型目標變量。
基于內(nèi)存的推理節(jié)點是根據(jù)案例集尋找出和新的觀測值相似的案例集。在SAS EM中,基于內(nèi)存的推理模型節(jié)點使用K最近鄰居算法分類或者預(yù)測觀測值。
雙階段模型節(jié)點用于計算預(yù)測分類目標和區(qū)間目標的雙階段模型。區(qū)間目標變量經(jīng)常和類別目標的某個級別相關(guān)聯(lián)。
-------------------------------------------------------------------------------------------------------------------
⑤評估
評估節(jié)點為模型比較提供共同的框架。模型比較是建立在期望和實際利潤或者損失的基礎(chǔ)之上。它提供幾種圖表幫助描述模型的有效性,譬如提升圖和利潤/損失圖表。
報表節(jié)點將整個流程分析的結(jié)果導(dǎo)入到HTML報表中,可以通過網(wǎng)頁瀏覽器來查看。每個報表包括表頭信息,處理流程圖片以及每個節(jié)點的單獨報告。
-------------------------------------------------------------------------------------------------------------------
其他類型節(jié)點:打分節(jié)點
打分節(jié)點是從訓(xùn)練模型中產(chǎn)生和管理預(yù)測值。打分公式主要用來評估和預(yù)測。SAS EM以sas數(shù)據(jù)步代碼的形式產(chǎn)生和管理打分公式。
C打分節(jié)點將SAS數(shù)據(jù)步的代碼轉(zhuǎn)換成c語言的形式。
其他類型節(jié)點:實用節(jié)點
分組處理節(jié)點針對分類變量執(zhí)行分組處理。并且,也可以用來分析多目標,對同樣的數(shù)據(jù)源進行重復(fù)處理。
SAS 代碼節(jié)點用來添加新的或者已經(jīng)存在的sas代碼到處理流程圖中。SAS code節(jié)點能夠?qū)⑵渌膕as過程加入到數(shù)據(jù)挖掘分析過程中。并且,也可以用SAS數(shù)據(jù)步創(chuàng)建自定義的評分代碼,從而有條件地進行數(shù)據(jù)連接和合并操作。該節(jié)點還提供宏功能,動態(tài)的關(guān)聯(lián)到訓(xùn)練數(shù)據(jù)集、驗證數(shù)據(jù)集和測試數(shù)據(jù)集中的變量。運行完SAS code節(jié)點之后,結(jié)果集合數(shù)據(jù)集可以被導(dǎo)出用于后面的節(jié)點。
控制點節(jié)點用于減少節(jié)點連接的步驟。例如,假設(shè)三個輸入數(shù)據(jù)源節(jié)點和三個建模節(jié)點連接。如果沒有使用控制點節(jié)點,需要9個鏈接完成。然而,如果使用控制點節(jié)點,只需要6次連接操作。
子圖節(jié)點將整個流程圖劃分為不同的分組。對于復(fù)雜的處理流程圖,需要創(chuàng)建子圖來更好的設(shè)計和控制流程。
結(jié)點使用的一般規(guī)則
在過程流程圖中放置結(jié)點的一般規(guī)則:
a)不能將任何結(jié)點放在輸入數(shù)據(jù)源結(jié)點之前。
b)在抽樣結(jié)點前面必須有用于導(dǎo)出數(shù)據(jù)集的結(jié)點。
c)評估結(jié)點之前必須有一個或者多個模型結(jié)點。
d)評分結(jié)點和評分轉(zhuǎn)換結(jié)點之前必須有用于產(chǎn)生打分的結(jié)點。任何修改數(shù)據(jù)結(jié)點和創(chuàng)建模型結(jié)點都會產(chǎn)生打分結(jié)點。
e)SAS源代碼結(jié)點可以定義在流程圖的任何步驟。它不需要由輸入數(shù)據(jù)源結(jié)點定義的數(shù)據(jù)集。
CDA數(shù)據(jù)分析師考試相關(guān)入口一覽(建議收藏):
? 想報名CDA認證考試,點擊>>>
“CDA報名”
了解CDA考試詳情;
? 想學(xué)習(xí)CDA考試教材,點擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫,點擊>>> “CDA題庫” 了解CDA考試詳情;
? 想了解CDA考試含金量,點擊>>> “CDA含金量” 了解CDA考試詳情;