
在SAS中進(jìn)行數(shù)據(jù)挖掘之關(guān)聯(lián)規(guī)則
SAS系統(tǒng)被譽(yù)為國(guó)際上的標(biāo)準(zhǔn)軟件系統(tǒng),本文將詳細(xì)介紹如何在SAS/EM模塊中進(jìn)行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,使用的軟件版本是SAS 9.1.3下的Enterprise Miner 4.3:
從SAS頂端的【解決方案(S)】菜單下調(diào)出企業(yè)數(shù)據(jù)挖掘(也可以通過(guò)在命令行輸入miner):
SAS/EM的初始界面如下:
接下來(lái),將數(shù)據(jù)挖掘外接程序示例數(shù)據(jù)集中的Associate表導(dǎo)入SAS邏輯庫(kù)。先將xlsx文件另存為xls文件,再雙擊SAS資源管理器中的邏輯庫(kù),從【文件(F)】菜單下調(diào)出【導(dǎo)入數(shù)據(jù)】對(duì)話框:
點(diǎn)擊【Next >】,選擇xls文件及相應(yīng)的工作表:
點(diǎn)擊【Next >】,選擇相應(yīng)的SAS邏輯庫(kù)并命名:
點(diǎn)擊【Finish】,完成數(shù)據(jù)導(dǎo)入操作。回到SAS/EM界面,雙擊Untitled節(jié)點(diǎn)并重命名為Analysis。
鼠標(biāo)左鍵按住上方工具欄中的【Input Data Source】節(jié)點(diǎn) 不放,拖入右邊的空白區(qū)域之后再放開(kāi)鼠標(biāo),此時(shí)SAS/EM界面如下:
雙擊剛剛拖入的【Input Data Source】節(jié)點(diǎn),選擇前面導(dǎo)入的數(shù)據(jù)集Sasuser.Associate:
切換到【Variables】選項(xiàng)卡,在【Model Role】列【CATEGORY】行處點(diǎn)擊右鍵,選擇【Set Model Role】菜單:
分別將【CATEGORY】行設(shè)置為target,其他兩行設(shè)置為rejected:
關(guān)閉對(duì)話框,詢問(wèn)是否保存變化時(shí),點(diǎn)擊【是(Y)】。若關(guān)閉SAS后重新打開(kāi)EM項(xiàng)目時(shí)彈出Diagram被鎖,則刪除emproj文件夾中后綴是.lck的文件即可繼續(xù)編輯。
鼠標(biāo)左鍵按住上方工具欄中的【Association】節(jié)點(diǎn) 不放,拖入右邊的空白區(qū)域之后再放開(kāi)鼠標(biāo)。將鼠標(biāo)移向旁邊的【SASUSER.ASSOCIATE】節(jié)點(diǎn)周圍,當(dāng)變成十字型時(shí),鼠標(biāo)左鍵按住不放,拖向【Association】節(jié)點(diǎn),此時(shí)SAS/EM界面如下:
雙擊右邊的【Association】節(jié)點(diǎn) 圖標(biāo),切換到【General】選項(xiàng)卡的界面如下:
默認(rèn)的分析模式是【By Context】,它根據(jù)輸入數(shù)據(jù)源的結(jié)點(diǎn)信息選擇合適的分析方法。如果輸入數(shù)據(jù)集包括一個(gè)id變量和target變量,該結(jié)點(diǎn)自動(dòng)執(zhí)行關(guān)聯(lián)分析。下面的選項(xiàng)是設(shè)置關(guān)聯(lián)最小支持度、項(xiàng)集最大數(shù)目和規(guī)則最小置信度。
關(guān)閉【Association】對(duì)話框,右鍵【Association】節(jié)點(diǎn)圖標(biāo),在彈出的下拉選項(xiàng)中選擇【Run】,得到運(yùn)行結(jié)果如下:
此時(shí)在【Rules】選項(xiàng)卡上右鍵單擊,會(huì)彈出查看圖形菜單:
選擇【圖形(G)】之后,將窗口拉伸到合適的寬度,有些圖例需要拉到更寬才會(huì)顯示出來(lái),結(jié)果界面如下:
前面結(jié)果表中的19條關(guān)聯(lián)規(guī)則都體現(xiàn)在這張圖里面,此圖的信息量比較大。我們以右下方的圓圈為例來(lái)解讀它的含義:從縱橫坐標(biāo)軸來(lái)看,此圓圈對(duì)應(yīng)表中的第11條關(guān)聯(lián)規(guī)則,即{Road Bikes ==> Jerseys};從圓圈標(biāo)示對(duì)應(yīng)的圖例來(lái)看,它表示置信度(Confidence)在20.24%到24.13%區(qū)間內(nèi),從表中可以看出實(shí)際值為20.26%;從圓圈的顏色對(duì)應(yīng)的圖例來(lái)看,它表示支持度(Support)在3.12%到3.78%區(qū)間內(nèi),從表中可以看出實(shí)際值為3.68%;圓圈的大小表示提升度(Lift)的大小,從表中可以看出實(shí)際值為1.34。
上面提到的置信度(Confidence)、支持度(Support)、提升度(Lift)是關(guān)聯(lián)發(fā)現(xiàn)的三個(gè)重要評(píng)價(jià)指標(biāo),它們都是怎么計(jì)算出來(lái)的呢?我們還是以前面提到的第11條關(guān)聯(lián)規(guī)則{Road Bikes ==> Jerseys}為例進(jìn)行說(shuō)明:
先簡(jiǎn)單統(tǒng)計(jì)一下數(shù)據(jù)源中相關(guān)數(shù)據(jù),總共13050個(gè)訂單,其中有購(gòu)買Road Bikes訂單的2369個(gè),有購(gòu)買Jerseys的訂單1978個(gè),同時(shí)購(gòu)買了Road Bikes和Jerseys的訂單480個(gè),計(jì)算以下幾個(gè)概率:
P(Road Bikes) = 2369/13050 = 18.15%
P(Jerseys) = 1978/13050 = 15.16%
P(Road Bikes & Jerseys) = 480/13050 = 3.68%
置信度Confidence(Road Bikes ==> Jerseys)表示在客戶購(gòu)買Road Bikes的條件下,同時(shí)又購(gòu)買Jerseys的概率,即P(Jerseys|Road Bikes) = P(Road Bikes & Jerseys)/P(Road Bikes) = 3.68%/18.15% = 20.26%。置信度越高,說(shuō)明相關(guān)聯(lián)的商品被交叉銷售的機(jī)會(huì)越大。
支持度Support(Road Bikes ==> Jerseys)表示客戶同時(shí)購(gòu)買過(guò)Road Bikes和Jerseys的概率,即P(Road Bikes & Jerseys) = 3.68%。支持度越高,說(shuō)明相關(guān)聯(lián)的商品被同時(shí)購(gòu)買的越頻繁。
提升度Lift(Road Bikes ==> Jerseys)表示使用關(guān)聯(lián)規(guī)則可以提升的倍數(shù),是置信度與期望置信度的比值,公式為Confidence(Road Bikes ==> Jerseys)/P(Jerseys) = 20.26%/15.16% = 1.34。
在進(jìn)行關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘中,通過(guò)指定這三個(gè)標(biāo)準(zhǔn)的最小值,三個(gè)標(biāo)準(zhǔn)的值都大于臨界值的關(guān)聯(lián)規(guī)則就被列出。而且以上這三個(gè)標(biāo)準(zhǔn)缺一不可,孤立地使用這三個(gè)標(biāo)準(zhǔn)中的任意一個(gè),都可能導(dǎo)致錯(cuò)誤結(jié)果。
當(dāng)某種常見(jiàn)現(xiàn)象出現(xiàn)在關(guān)聯(lián)規(guī)則右邊時(shí),高置信度也會(huì)產(chǎn)生誤導(dǎo)。比如以下幾條規(guī)則的置信度都比較高,但幾乎是沒(méi)有作用的規(guī)則:“買方便面則買牛奶”、“買牙刷則買牛奶”、“喜歡野外休閑則會(huì)買牛奶”等等。這一類規(guī)則的置信度和支持度都會(huì)比較高,因?yàn)楹苌儆腥藭?huì)不買牛奶。但這一類規(guī)則沒(méi)有任何作用。
在關(guān)聯(lián)規(guī)則結(jié)果界面是查看表的情況下,還可以在查看菜單下選擇【生成表子集(S)...】,通過(guò)設(shè)定篩選出想要的關(guān)聯(lián)規(guī)則出來(lái),例如下圖是在【Confidence】選項(xiàng)卡中設(shè)定最小置信度為26:
點(diǎn)擊【Process】后,結(jié)果將篩選出8條關(guān)聯(lián)規(guī)則。
在置信度(Confidence)、支持度(Support)、提升度(Lift)這三個(gè)重要評(píng)價(jià)指標(biāo)之中,提升度是最有可能單獨(dú)使用而不致產(chǎn)生誤導(dǎo)的標(biāo)準(zhǔn),因?yàn)樗梢詼y(cè)量關(guān)聯(lián)規(guī)則增進(jìn)預(yù)測(cè)右邊現(xiàn)象的能力。但如果該規(guī)則的支持度很低,該規(guī)則也可能造成誤導(dǎo)。
除了以上三個(gè)對(duì)關(guān)聯(lián)規(guī)則的數(shù)量標(biāo)準(zhǔn)外,一條關(guān)聯(lián)規(guī)則真正可取,還需要具備以下兩個(gè)條件:一是該規(guī)則必須是人們常識(shí)之外、意料之外的關(guān)聯(lián),二是該規(guī)則必須具有潛在的作用,而目前任何技術(shù)與算法都無(wú)法判斷哪些知識(shí)屬于常識(shí),也無(wú)法判斷哪些屬于可能具有潛在作用的規(guī)則,因此關(guān)聯(lián)規(guī)則的挖掘離不開(kāi)人的作用。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10