
101002
電商行業(yè)——淘寶大規(guī)模網(wǎng)店綜合分析
劉莎莎
H633紡織、服裝及日用品
Sas EG Sas EM
CSV導入saseg 數(shù)據(jù)導入 表格合并 數(shù)據(jù)整理 數(shù)據(jù)篩選 變量`計算 頻數(shù)統(tǒng)計
RFM模型 聚類分析 sas編程 關(guān)聯(lián)規(guī)則
電子商務是指在各種形式的網(wǎng)絡上,包括企業(yè)內(nèi)網(wǎng)、局域網(wǎng)和互聯(lián)網(wǎng)上以電子行式,進行交易活動和系列服務的行為,是依托于互聯(lián)網(wǎng)技術(shù)的新型電子化商業(yè)活動。電子商務內(nèi)容分為兩部分,電子操作和商務貿(mào)易活動。利用電子技術(shù),為買賣雙方提供無距離限制的便捷貿(mào)易服務。電子商務緊密聯(lián)系生產(chǎn)商和分銷商,為客戶提供更便捷的高性價比產(chǎn)品,推動了市場資源的全球合理化配置。
在大數(shù)據(jù)時代,電子商務得到了迅猛發(fā)展,電商企業(yè)如雨后春筍般出現(xiàn)。與傳統(tǒng)的線下銷售的企業(yè)相比較,電商企業(yè)具有的優(yōu)勢和經(jīng)濟價值的資源是爆炸性增長的數(shù)據(jù)。以天貓為例,根據(jù)互聯(lián)網(wǎng)研究中心的數(shù)據(jù)顯示,截至2014年第一季度,天貓的注冊用戶已經(jīng)達到5 億人次,在線商品的銷售數(shù)量達到 9億,天貓的活躍買家已經(jīng)超過了2.5億,平均每個購買活躍買家的購買數(shù)量達到了 50單以上,頁面的瀏覽量已超過京東的3倍,擁有 22億的超大規(guī)模,每天產(chǎn)品的訊息達到 5億條。
面對如此海量的信息,數(shù)據(jù)分析、數(shù)據(jù)挖掘技術(shù)可以幫助電商企業(yè)在海量的數(shù)據(jù)中提取有價值的數(shù)據(jù),這些數(shù)據(jù)有些用來分析消費者購買商品的規(guī)律和趨勢,還可以幫助電商企業(yè)實現(xiàn)未來規(guī)劃提出可行性報告。
此案例所用數(shù)據(jù)集來自于一個淘寶網(wǎng)店,屬于電商行業(yè),店主想通過數(shù)據(jù)分析提供一些管理或者銷售思路,提高銷售業(yè)績。
該數(shù)據(jù)集記錄的是該電商2013年一年的銷售記錄情況,共有四個csv文件,對應一年中的四個時間段。20130101-20130502.csv數(shù)據(jù)集中有26804條觀測值,20130502-20130730.csv數(shù)據(jù)集中有32676條觀測值,20130730-20131030.csv數(shù)據(jù)集中有30452條觀測值,20131030-20131230.csv數(shù)據(jù)集中有30828條觀測值。
第1個知識點將4個csv文件導入到sas軟件中,并且保存為4個sas數(shù)據(jù)文件。
第2個知識點是對數(shù)據(jù)進行初步加工處理。將4個sas數(shù)據(jù)文件合并為一個大的數(shù)據(jù)文件,并且將合并后的數(shù)據(jù)文件保存為originaldata.sas7bdat;
第3個知識點將originaldata.sas7bdat數(shù)據(jù)集分成兩部分,交易成功的數(shù)據(jù)和交易失敗的數(shù)據(jù),分別保存為success.sas7bdat和closedata.sas7bdat。
第4個知識點在success.sas7bdat基礎上,刪掉補郵費或差價的訂單,將數(shù)據(jù)保存為shaixuan1.sas7bdat;
第5個知識點在shaixuan1.sas7bdat基礎上,篩選出實際支付金額大于5的訂單,將數(shù)據(jù)保存為shaixuan2.sas7bdat;
第6個知識點在shaixuan2.sas7bdat基礎上,刪掉退款類訂單,將數(shù)據(jù)保存為shaixuan3.sas7bdat;
第7個知識點在shaixuan3.sas7bdat基礎上,刪除購買頻率大于25的買家的訂單,將最終的數(shù)據(jù)保存為finaldata.sas7bdat;
第8個知識點是在finaldata.sas7bdat數(shù)據(jù)集的基礎之上進行的統(tǒng)計分析,各省交易的訂單分布情況。
第9個知識點是對交易失敗的訂單進行分析。先是在originaldata.sas7bdat, success.sas7bdat, closedata.sas7bdat基礎之上,分析了交易失敗訂單在總訂單中占得比例。然后在closedata.sas7bdat基礎之上,對交易失敗的訂單的失敗原因進行了頻數(shù)分析。
第10個知識點是在finaldata.sas7bdat數(shù)據(jù)集的基礎之上進行進一步的計算,然后用RFM模型對客戶進行畫像分析,從而找到最有價值的客戶。
第11個知識點在finaldata.sas7bdat數(shù)據(jù)集的基礎之上進行進一步的加工,然后用SASEM模塊對數(shù)據(jù)進行關(guān)聯(lián)規(guī)則分析,從而可以發(fā)現(xiàn)一些推薦規(guī)則。
單人上機
數(shù)據(jù)導入
先要將外部數(shù)據(jù)導入到統(tǒng)計軟件中才能進行后續(xù)的分析和建模。
將CSV數(shù)據(jù)導入到saseg中,并且將數(shù)據(jù)保存為sas格式。
CSV導入saseg 數(shù)據(jù)導入
Saseg
將CSV數(shù)據(jù)導入到saseg中。
20130101-20130502.csv數(shù)據(jù)集中有26804條觀測值,20130502-20130730.csv數(shù)據(jù)集中有32676條觀測值,20130730-20131030.csv數(shù)據(jù)集中有30452條觀測值,20131030-20131230.csv數(shù)據(jù)集中有30828條觀測值。
? 將本書所提供的淘寶數(shù)據(jù)文件夾中4個csv文件導入SAS。
? 操作步驟:
1) 新建邏輯庫
? 執(zhí)行“工具”,“分配項目邏輯庫”輸入8個字符以內(nèi)的英文名稱,如“MYLIB”,點擊“下一步”;在電腦中選擇一個文件夾,將其路徑作為邏輯庫的路徑,如“E:***”單擊“下一步”;
? 單擊“下一步”,點擊“完成”按鈕。
圖1分配項目邏輯庫
2) 在邏輯庫中依次導入四個csv文件
? 執(zhí)行“文件”,“導入數(shù)據(jù)”,選擇數(shù)據(jù)所在文件夾,選中要打開的數(shù)據(jù),打開。
![]() |
圖2導入數(shù)據(jù)
? 在導入數(shù)據(jù)向?qū)У谝徊?,將輸?/span>SAS數(shù)據(jù)集的邏輯庫改為上一步建立的永久邏輯庫MYLIB,點擊“下一步”按鈕。
圖3導入數(shù)據(jù)指定數(shù)據(jù)
? 勾選“重命名列以遵守SAS命名規(guī)則”,其他選默認,勾選首行范圍包含字段名稱,點擊”下一步”按鈕;
圖4導入數(shù)據(jù)選擇數(shù)據(jù)源
? 查看字段屬性,若有不符合原數(shù)據(jù)特征的,進行修改,此處將訂單編號類型改為字符串,點擊“下一步”按鈕;
? 點擊“完成”按鈕。
? 其他三個文件的數(shù)據(jù)導入同上。
? 除了前面需要注意的情況外,在導入第三張表格的時候,需要將第12列的類型改為數(shù)字。否則無法進行后面的表格合并。
將上面生成的sas數(shù)據(jù)文件保存在文件夾中存為_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat,以備后續(xù)使用。
想把csv格式數(shù)據(jù)導入到saseg中,先要將csv數(shù)據(jù)格式整理成比較標準的格式才不容易出錯,如果csv文件是從數(shù)據(jù)庫中導出的通常格式比較正常。
數(shù)據(jù)整理
我們需要將多個表格進行縱向合并,因為這些表格結(jié)構(gòu)一樣,只是時間不同,我們需要將其合并進行后續(xù)的分析和整理。
將多個sas數(shù)據(jù)文件合并為一個sas數(shù)據(jù)文件。
表格合并 數(shù)據(jù)整理
Saseg
將多個數(shù)據(jù)集合并為一個數(shù)據(jù)集。
_20130101_20130502.sas7bdat,_20130502_20130730.sas7bdat,_20130730_20131030.sas7bdat及_20131030_20131230.sas7bdat。
觀察數(shù)據(jù)我們發(fā)現(xiàn),四個數(shù)據(jù)為這家網(wǎng)店在2013年不同月份的訂單情況,因此為方便以后分析,首先將四個表進行合并,此處進行追加表操作。
操作步驟:
? 查看四張表的列名是否一致。單擊菜單欄最右側(cè)的“屬性”選項,在彈出的“屬性”對話框中,點擊“列”選項,可以看到列名。
圖5查看數(shù)據(jù)屬性
經(jīng)查看四張表列名一致。
? 在工作區(qū)雙擊打開第一張表,在表上方的選項卡中,單擊“數(shù)據(jù)”,選擇 “追加表”;
圖6追加表
? 在打開的“追加表”對話框中選擇“添加表”,將其他三個表添加進去,最后單擊“運行”按鈕。合并后的數(shù)據(jù)文件存為數(shù)據(jù)集 originaldata.sas7bdat。
? 訂單編號的表示方式為科學計數(shù)法,需要將其改為正常格式,只需右鍵單擊“訂單編號”變量,點擊“屬性”, 將“輸出格式”改為“NLBESTw.d”。總寬度設定為17,小數(shù)位數(shù)為0。
?
將上面生成的sas數(shù)據(jù)文件保存在文件夾中存為originaldata.sas7bdat,以備后續(xù)使用。
將多個數(shù)據(jù)集合進行縱向合并要保證,多個數(shù)據(jù)文件結(jié)構(gòu)一致。
數(shù)據(jù)整理
在數(shù)據(jù)分析過程中有些數(shù)據(jù)不適合進行后續(xù)分析,須要先將其剔除,或者將滿足條件的數(shù)據(jù)篩選出來。
把交易成功的數(shù)據(jù)篩選出來。
數(shù)據(jù)篩選
SasEG
對數(shù)據(jù)進行篩選,將數(shù)據(jù)分為交易成功和交易失敗的兩部分。
originaldata.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執(zhí)行“工具”—“分配項目邏輯庫”—輸入8個字符以內(nèi)的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節(jié)的文件路徑保持一致)作為邏輯庫放數(shù)據(jù)的地方。
? 把左側(cè)下方的邏輯庫mylib下面的original數(shù)據(jù)集拖入右側(cè)的大窗口中。即可看到數(shù)據(jù)集作為一個對象出現(xiàn)在右側(cè)窗口中。如果想查看這個數(shù)據(jù)集里面的內(nèi)容,雙擊過程流中original數(shù)據(jù)集的圖標 ,即可查看里面的數(shù)據(jù)。
? 在original窗口,點擊查詢生成器。把t1整個拉入右側(cè)數(shù)據(jù)框,見下圖。
圖查詢生成器窗口
? 單擊“過濾數(shù)據(jù)“框,將“訂單狀態(tài)”拖至過濾原始數(shù)據(jù)框中,在彈出的“生成基本過濾器”窗口中運算符選擇“等于”,選擇“獲取值”,單擊“交易成功”,點擊“下一步”按鈕;
? 點擊“完成”按鈕;
? 點擊“選項”
? 輸出名稱改為mylib.success,標簽改為success
? 點擊“運行”按鈕。
篩選后的數(shù)據(jù)量為95596,原數(shù)據(jù)量為120757,所以,交易成功的訂單量為95596,交易不成功訂單量為25161。交易失敗的查詢過程和成功的查詢過程相近,這里不再累述。
將去掉交易關(guān)閉數(shù)據(jù)之后的記錄存為數(shù)據(jù)集success.sas7bdat(95596條觀測)。將關(guān)閉交易的數(shù)據(jù)保存在closedata.sas7bdat(25161條觀測)中。
將該知識點中產(chǎn)生的數(shù)據(jù)集success.sas7bdat,closedata.sas7bdat保存起來,以為后續(xù)使用。
篩選后的數(shù)據(jù)量為95596,原數(shù)據(jù)量為120757,所以,交易成功的訂單量為95596,交易不成功訂單量為25161。
數(shù)據(jù)整理
在數(shù)據(jù)分析過程中有些數(shù)據(jù)不適合進行后續(xù)分析,須要先將其剔除,或者將滿足條件的數(shù)據(jù)篩選出來。
通過生成新變量的方式刪掉補郵費或差價的訂單。
數(shù)據(jù)篩選
SasEG
對數(shù)據(jù)進行篩選,刪掉補郵費或差價的訂單。
success.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執(zhí)行“工具”—“分配項目邏輯庫”—輸入8個字符以內(nèi)的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節(jié)的文件路徑保持一致)作為邏輯庫放數(shù)據(jù)的地方。
? 把左側(cè)下方的邏輯庫mylib下面的success數(shù)據(jù)集拖入右側(cè)的大窗口中。即可看到數(shù)據(jù)集作為一個對象出現(xiàn)在右側(cè)窗口中。如果想查看這個數(shù)據(jù)集里面的內(nèi)容,雙擊過程流中success數(shù)據(jù)集的圖標 ,即可查看里面的數(shù)據(jù)。
通過觀察我們發(fā)現(xiàn)寶貝標題里面沒有出現(xiàn)商品編碼(即沒有出現(xiàn)符號“-”)的單子都屬于純粹的郵費/運費/差價,需要刪掉。
? 在success數(shù)據(jù)集窗口中,點擊查詢生成器,將success數(shù)據(jù)集里面的變量全部拉入數(shù)據(jù)框。
? 點擊過濾數(shù)據(jù)選項卡,點擊新建過濾器,選擇高級過濾器,在輸入過濾器窗口中輸入表達式:(find(t1.'寶貝標題'n,“- "))<>0,點擊下一步,點擊完成。
? 點擊對數(shù)據(jù)排序選項卡,讓數(shù)據(jù)按照實際支付金額進行升序排序。
? 點擊運行。將輸出名稱改為mylib.shaixuan1,標簽改為shaixuan1
? 輸入結(jié)果見圖
圖9 查詢器結(jié)果
將篩選后的觀測值存為數(shù)據(jù)集shaixuan1.sas7bdat。篩選后的數(shù)據(jù)量為94665,原數(shù)據(jù)success量為95596,所以,郵費或者差價訂單大概931單。
將該知識點中產(chǎn)生的數(shù)據(jù)集shaixuan1.sas7bdat保存起來,以為后續(xù)使用。
將篩選后的觀測值存為數(shù)據(jù)集shaixuan1.sas7bdat。篩選后的數(shù)據(jù)量為94665,原數(shù)據(jù)success量為95596,所以,郵費或者差價訂單大概931單。
數(shù)據(jù)整理
在數(shù)據(jù)分析過程中有些數(shù)據(jù)不適合進行后續(xù)分析,須要先將其剔除,或者將滿足條件的數(shù)據(jù)篩選出來。
篩選出實際支付金額大于5的訂單。
數(shù)據(jù)篩選
SasEG
對數(shù)據(jù)進行篩選,篩選出實際支付金額大于5的訂單。
Shaixuan1.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執(zhí)行“工具”—“分配項目邏輯庫”—輸入8個字符以內(nèi)的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節(jié)的文件路徑保持一致)作為邏輯庫放數(shù)據(jù)的地方。
? 把左側(cè)下方的邏輯庫mylib下面的shaixuan1數(shù)據(jù)集拖入右側(cè)的大窗口中。即可看到數(shù)據(jù)集作為一個對象出現(xiàn)在右側(cè)窗口中。如果想查看這個數(shù)據(jù)集里面的內(nèi)容,雙擊過程流中shaixuan1數(shù)據(jù)集的圖標 ,即可查看里面的數(shù)據(jù)。
? 在shaixuan1數(shù)據(jù)集窗口中,點擊查詢生成器,將shaixuan1數(shù)據(jù)集里面的變量全部拉入數(shù)據(jù)框。
? 單擊“過濾數(shù)據(jù)框”,將“買家實際支付金額”拖至過濾原始數(shù)據(jù)框中,在彈出的“生成基本過濾器”窗口中運算符選擇“大于”,在“值:”選項框中填寫“5”,點擊“下一步”按鈕;點擊“完成”按鈕;
? 點擊“選項”按鈕。將輸出結(jié)果保存為mylib.shaixuan2,將標簽改為shaixuan2。點擊“確定”按鈕。
將篩選后的觀測值存為數(shù)據(jù)集shaixuan2.sas7bdat。篩選后的數(shù)據(jù)量為94590,原數(shù)據(jù)shaixuan1量為94665,所以,買家實際支付金額小于5的訂單量為75。
將該知識點中產(chǎn)生的數(shù)據(jù)集shaixuan2.sas7bdat保存起來,以為后續(xù)使用。
篩選后的數(shù)據(jù)量為94590,原數(shù)據(jù)shaixuan1量為94665,所以,買家實際支付金額小于5的訂單量為75。
數(shù)據(jù)整理
在數(shù)據(jù)分析過程中有些數(shù)據(jù)不適合進行后續(xù)分析,須要先將其剔除,或者將滿足條件的數(shù)據(jù)篩選出來。
篩選非退款類訂單。
數(shù)據(jù)篩選
SasEG
對數(shù)據(jù)進行篩選,篩選非退款類訂單。
Shaixuan2.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執(zhí)行“工具”—“分配項目邏輯庫”—輸入8個字符以內(nèi)的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節(jié)的文件路徑保持一致)作為邏輯庫放數(shù)據(jù)的地方。
? 把左側(cè)下方的邏輯庫mylib下面的shaixuan2數(shù)據(jù)集拖入右側(cè)的大窗口中。即可看到數(shù)據(jù)集作為一個對象出現(xiàn)在右側(cè)窗口中。如果想查看這個數(shù)據(jù)集里面的內(nèi)容,雙擊過程流中shaixuan2數(shù)據(jù)集的圖標 ,即可查看里面的數(shù)據(jù)。
? 在shaixuan2數(shù)據(jù)集窗口中,點擊查詢生成器,將shaixuan2數(shù)據(jù)集里面的變量全部拉入數(shù)據(jù)框。
? 單擊“過濾數(shù)據(jù)“框,將“買家實際支付金額”拖至過濾原始數(shù)據(jù)框中,在彈出的“生成基本過濾器”窗口中運算符選擇“不等于”,在“值:”下拉菜單中選擇“列”中的“買家應付郵費”,點擊“下一步”按鈕;
? 點擊“完成”按鈕;
? 點擊“選項”按鈕。將輸出結(jié)果保存為mylib.shaixuan3,將標簽改為shaixuan3。點擊“確定”按鈕。
? 點擊“運行”按鈕。
將篩選后的觀測值存為數(shù)據(jù)集shaixuan3.sas7bdat,篩選后的數(shù)據(jù)量為92934,原數(shù)據(jù)shaixuan2量為94590,所以,退款類訂單量為1656。
將該知識點中產(chǎn)生的數(shù)據(jù)集shaixuan3.sas7bdat保存起來,以為后續(xù)使用。
將篩選后的觀測值存為數(shù)據(jù)集shaixuan3.sas7bdat,篩選后的數(shù)據(jù)量為92934,原數(shù)據(jù)shaixuan2量為94590,所以,退款類訂單量為1656。。
數(shù)據(jù)整理
在數(shù)據(jù)分析過程中有些數(shù)據(jù)不適合進行后續(xù)分析,須要先將其剔除,或者將滿足條件的數(shù)據(jù)篩選出來。
刪除購買頻率大于25的買家的訂單。
變量`計算 數(shù)據(jù)篩選
SasEG
對數(shù)據(jù)進行篩選,刪除購買頻率大于25的買家的訂單。
Shaixuan3.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執(zhí)行“工具”—“分配項目邏輯庫”—輸入8個字符以內(nèi)的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節(jié)的文件路徑保持一致)作為邏輯庫放數(shù)據(jù)的地方。
? 把左側(cè)下方的邏輯庫mylib下面的shaixuan3數(shù)據(jù)集拖入右側(cè)的大窗口中。即可看到數(shù)據(jù)集作為一個對象出現(xiàn)在右側(cè)窗口中。如果想查看這個數(shù)據(jù)集里面的內(nèi)容,雙擊過程流中shaixuan3數(shù)據(jù)集的圖標 ,即可查看里面的數(shù)據(jù)。
? 在shaixuan3數(shù)據(jù)集窗口中,點擊查詢生成器,將shaixuan3數(shù)據(jù)集里面的變量全部拉入數(shù)據(jù)框。
? 單擊“添加新的計算列”,在步驟一中選擇“匯總列”,點擊“下一步”按鈕;選擇“買家會員名”變量,點擊“下一步”按鈕; “匯總”選項選擇“COUNT”,將“標簽”設置為“購買頻率”,點擊“下一步”按鈕;
? 在“查詢生成器”頁面中不勾選“匯總組”中的“自動選擇組”,點擊“編輯組”,將“買家會員名”拉入“分組依據(jù)”中,點擊“確定”按鈕;
? 勾選復選框“僅選擇非重復行”。這是為了過濾掉重復記錄的單子
? 單擊“過濾數(shù)據(jù)”選項框,在“過濾匯總數(shù)據(jù)”那里,點擊“新建過濾器”,選擇“基本過濾器”,“過濾條件”的第一個選項框選擇“_Calculation”變量,第二個選項框選擇“小于”,第三個選項框中直接輸入“25”,取消“值的兩側(cè)應加引號”,點擊“完成”按鈕;
? 點擊“選項”按鈕。將輸出結(jié)果保存為mylib.finaldata,將標簽改為finaldata。點擊“確定”按鈕。
? 點擊“運行”按鈕。
將篩選后的觀測值存為數(shù)據(jù)集shaixuan4.sas7bdat,篩選后的數(shù)據(jù)量為89662,原數(shù)據(jù)shaixuan3量為92934,所以,些訂單中有3272條訂單被判定為刷銷量訂單。
將該知識點中產(chǎn)生的數(shù)據(jù)集shaixuan4.sas7bdat保存起來,以為后續(xù)使用。
將篩選后的觀測值存為數(shù)據(jù)集shaixuan4.sas7bdat,篩選后的數(shù)據(jù)量為89662,原數(shù)據(jù)shaixuan3量為92934,所以,些訂單中有3272條訂單被判定為刷銷量訂單。
數(shù)據(jù)分析
對數(shù)據(jù)進行建模之前通常對數(shù)據(jù)進行一個基本描述,比如分類變量看下頻數(shù)分布,我們這里對性別進行頻數(shù)分析。
對變量進行頻數(shù)分布分析。
頻數(shù)統(tǒng)計
SasEG
對分類變量進行頻數(shù)統(tǒng)計。
member.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執(zhí)行“工具”—“分配項目邏輯庫”—輸入8個字符以內(nèi)的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節(jié)的文件路徑保持一致)作為邏輯庫放數(shù)據(jù)的地方。
? 把左側(cè)下方的邏輯庫mylib下面的finaldata數(shù)據(jù)集拖入右側(cè)的大窗口中??梢钥吹綌?shù)據(jù)集作為一個對象出現(xiàn)在右側(cè)窗口中。如果想查看這個數(shù)據(jù)集里面的內(nèi)容,雙擊過程流中finaldata數(shù)據(jù)集的圖標 ,即可查看里面的數(shù)據(jù)。
? 在finaldata數(shù)據(jù)表下打開“查詢生成器”,把左邊的變量全部拖入右側(cè),點擊“計算列”,在第一步選擇類型中點選“高級表達式”;
? 在第二步“生成高級表達式”中用“收貨地址”生成地區(qū)名,輸入“SUBSTR(t1.col13, 1, (FIND(t1.col13," ")-1))”,可點選公式和變量名進行選擇,點擊“下一步”;
? 在第三步“修改其他選項”中將“標識符和列名”全部設為“province”,點擊“下一步”按鈕;
? 點擊“完成”按鈕;
? 點擊“查詢生成器”下,繼續(xù)點擊“計算列”,在第一步選擇類型中點選“高級表達式”;
? 在第二步“生成高級表達式”中用“收貨地址”生成城市名,輸入“SUBSTR(t1.col13,FIND(t1.col13," ")+1)”,可點選公式和變量名進行選擇,點擊“下一步”按鈕;
? 在第三步“修改其他選項”中將“標識符和列名”全部設為“city”,點擊“下一步”按鈕;
? 點擊“完成”按鈕;
? 上述兩個變量計算好后,點擊“選項”,將輸出名稱改為mylib.address,把標簽改為address。點擊“運行”按鈕。結(jié)果見圖12。
圖12 查詢器生成結(jié)果
? 在address數(shù)據(jù)集窗口,執(zhí)行“描述”“單因子頻數(shù)”。在“數(shù)據(jù)”選項下,把“province”拖入“分析變量”,在“統(tǒng)計量”選項下,缺失值的“顯示頻數(shù)”和“包含在計算中”前面打勾。點擊“運行”按鈕,輸出結(jié)果見圖12.7。
圖12.7單因子頻數(shù)結(jié)果
結(jié)果分析:可以看到北京的頻數(shù)是最高的。
將該知識點過程中產(chǎn)生的address數(shù)據(jù)集進行保存,以方便后續(xù)的使用。
對于分類變量,可以通過單因子頻數(shù)的方式對其進行描述,也可以通過餅形圖對其進行描述。
數(shù)據(jù)分析
去掉交易關(guān)閉訂單篩選后的數(shù)據(jù)量為95596,原數(shù)據(jù)量為120757,所以,交易成功的訂單量為95596,交易不成功訂單量為25161,交易不成功的訂單量占總訂單量的20.8%。
2013年這家店交易不成功的訂單比重在合理范圍之內(nèi),但在之后需要進一步分析交易關(guān)閉的原因,下一年的銷售中需注意減少交易關(guān)閉的情況。
分析交易關(guān)閉的情況,分析原因,以便客戶回訪
一般淘寶交易關(guān)閉有兩種情況:
1) 買家只是拍下商品,但是未付款,后續(xù)由賣家或者系統(tǒng)關(guān)閉了交易。
2) 買家申請退款成功,錢款已經(jīng)退回買家支付寶賬戶,交易關(guān)閉。
可以做匯總表對這兩種情況分別占的比例進行分析,由于第一種情況,買家未付款,在表中體現(xiàn)為“訂單付款時間”為空;第二種情況,欠款已退回,在表中體現(xiàn)為“訂單付款時間”存在?;静襟E如下:
生成交易關(guān)閉原因變量。
變量計算
SasEG
對變量進行計算。
對交易失敗的訂單進行歸類,買家未付款定義為0類。欠款已退回定義為1類。計算新列col16_code,重新編碼訂單付款時間。編碼邏輯為:訂單付款時間等于.時,返回0,訂單付款時間不等于.時,返回1。
closedata.sas7dbat
? 啟動sas eg
? ?新建項目邏輯庫。執(zhí)行“工具”—“分配項目邏輯庫”—輸入8個字符以內(nèi)的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節(jié)的文件路徑保持一致)作為邏輯庫放數(shù)據(jù)的地方。
把左側(cè)下方的邏輯庫mylib下面的closedata數(shù)據(jù)集拖入右側(cè)的大窗口中??梢钥吹綌?shù)據(jù)集作為一個對象出現(xiàn)在右側(cè)窗口中。如果想查看這個數(shù)據(jù)集里面的內(nèi)容,雙擊過程流中closedata數(shù)據(jù)集的圖標 ,即可查看里面的數(shù)據(jù)。
? 在數(shù)據(jù)表closedata下打開“查詢生成器”,“選擇數(shù)據(jù)”部分選擇全部數(shù)據(jù)。
? 點擊“選項”,將輸出名稱改為mylib.closedata1,把標簽改為closedata1。
? 點擊左上角的“計算列”,彈出“計算列”窗口,點擊“新建”:新建計算列。
? 在第一步“選擇類型”中點選“重新碼列”;
? 在第二步“選擇列”中選擇“訂單付款時間”,點擊“下一步”按鈕;
? 在第三步“指定替換”中“添加”替換,選擇 “替換條件”窗口,訂單付款時間等于.時,使用此值(W)輸入0,勾選“該值的兩側(cè)應加引號(Q)”,點擊“確定”按鈕。按照同樣的方法添加訂單付款時間不等于.時,使用值1的條件,點擊“確定”按鈕。
? 列類型設為“字符”,添加完成后點擊“下一步”;
? 在第四步“修改其他選項”中將“標識符和列名”全部設為“col16_code”,“輸出格式”設置為“無”,點擊“下一步”按鈕;
? 點擊“完成”按鈕,關(guān)閉計算列窗口,點擊“運行”按鈕。
圖15 創(chuàng)建輔助列col16_code
? 在closedata1數(shù)據(jù)集窗口,執(zhí)行“描述”“單因子頻數(shù)”。在“數(shù)據(jù)”選項下,把“col16_code”拖入“分析變量”,在“統(tǒng)計量”選項下,缺失值的“顯示頻數(shù)”和“包含在計算中”前面打勾。點擊“運行”按鈕,輸出結(jié)果見圖12.7。
圖12.7單因子頻數(shù)結(jié)果
從表中可以看出,交易關(guān)閉的訂單中有85.76%的買家只是拍下商品,但是未付款,后續(xù)由賣家或者系統(tǒng)關(guān)閉了交易,而有14.24%的買家申請退款成功,錢款已經(jīng)退回買家支付寶賬戶,交易關(guān)閉。
結(jié)合上一部分的描述分析,可以得出,交易關(guān)閉訂單占總訂單的20.8%,這其中有85.76%的買家只是拍下商品,但是未付款,14.24%的買家申請退款。也就是說,總訂單中有17.83%(20.8% * 85.76% = 17.83%)的客戶想要購買,卻最終沒有付錢;2.96%(20.8% * 14.24% = 17.83%)的客戶購買以后選擇退貨。參考同行業(yè)指標,退貨率比較正常,后續(xù)銷售過程中應重點關(guān)注有購買欲望卻最終沒有購買的訂單,采取相應的銷售策略。
把該知識點的操作產(chǎn)生新的數(shù)據(jù)集closedata1.sas7bdat保存到路徑下,以備后續(xù)使用。
有的時候我們先要計算出分類變量來然后再進行頻數(shù)分布分析。交易關(guān)閉的訂單中有85.76%的買家只是拍下商品,但是未付款,后續(xù)由賣家或者系統(tǒng)關(guān)閉了交易,而有14.24%的買家申請退款成功,錢款已經(jīng)退回買家支付寶賬戶,交易關(guān)閉。
結(jié)合上一部分的描述分析,可以得出,交易關(guān)閉訂單占總訂單的20.8%,這其中有85.76%的買家只是拍下商品,但是未付款,14.24%的買家申請退款。也就是說,總訂單中有17.83%(20.8% * 85.76% = 17.83%)的客戶想要購買,卻最終沒有付錢;2.96%(20.8% * 14.24% = 17.83%)的客戶購買以后選擇退貨。參考同行業(yè)指標,退貨率比較正常,后續(xù)銷售過程中應重點關(guān)注有購買欲望卻最終沒有購買的訂單,采取相應的銷售策略。
數(shù)據(jù)分析
客戶畫像(UserProfile)即給用戶打上標簽,用一種樸素、簡潔的方法來描述用戶信息。客戶畫像可以完美地抽象出一個用戶的信息全貌,為進一步精準、快速地分析用戶行為習慣、消費習慣等重要商業(yè)信息,提供了足夠的數(shù)據(jù)基礎。
RFM模型是Bult and Wansbeek于1995年提出來的,認為客戶行為三要素 Recency (R)、Frequency (F) 與 Monetary (M)構(gòu)成了客戶購買潛力價值的核心組成部分。該模型經(jīng)常應用于 CRM 框架下的客戶行為分析。
用聚類分析對客戶進行畫像。
聚類分析 FRM sas編程
SasEG
對個案進行聚類分析。
finaldata.sas7bdat
? 啟動sas eg
? ?新建項目邏輯庫。執(zhí)行“工具”—“分配項目邏輯庫”—輸入8個字符以內(nèi)的英文名稱(比如mylib),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節(jié)的文件路徑保持一致)作為邏輯庫放數(shù)據(jù)的地方。
把左側(cè)下方的邏輯庫mylib下面的finaldata數(shù)據(jù)集拖入右側(cè)的大窗口中??梢钥吹綌?shù)據(jù)集作為一個對象出現(xiàn)在右側(cè)窗口中。如果想查看這個數(shù)據(jù)集里面的內(nèi)容,雙擊過程流中finaldata數(shù)據(jù)集的圖標 ,即可查看里面的數(shù)據(jù)。
? 在數(shù)據(jù)表finaldata下打開“查詢生成器”,“選擇數(shù)據(jù)”部分選擇全部數(shù)據(jù)。
? 點擊“選項”,將輸出名稱改為mylib.rfmp,把標簽改為rfmp。
在查詢生成器中計算所有訂單距離2013年最后一天的訂單付款天數(shù)
操作步驟:
? 在findaldata數(shù)據(jù)表下打開“查詢生成器”,點擊“計算列”,在第一步“選擇類型”中點選“高級表達式”;
? 在第二步“生成高級表達式”中用觀測窗口結(jié)束時間減去入會時間,輸入“max(DATEPART(t1.col16))-DATEPART(t1.col16)”,可點選公式和變量名進行選擇,點擊“下一步”按鈕;(計算下載數(shù)據(jù)的日期(可以用數(shù)據(jù)中的訂單最新日期,)和所有訂單時間間隔,設置為變量recently)
? 在第三步“修改其他選項”中將“標識符和列名”全部設為“Recently”, 修改格式數(shù)值為BESTX3.,點擊“下一步”按鈕;
? 點擊“完成”按鈕;
? 匯總組部分取消“自動選擇組”的勾選。見圖18。
? 點擊“運行”按鈕。
圖18 查詢生成器設定窗口。
分別計算RFM
操作步驟:
? 在rfmp數(shù)據(jù)集窗口下,點擊查詢生成器,將該查詢輸出結(jié)果設定為mylib.rfm1。將clo3(買家支付寶賬號)、Recently、col9(買家實際支付金額)、col1拖至“選擇數(shù)據(jù)”中,在數(shù)據(jù)框第三列的匯總欄中,分別單擊Recently、col1、col9(買家實際支付金額)三個變量的下拉菜單,選擇“MIN”、 “COUNT”、“SUM”。取消“自動選擇組”的勾選,點擊“編輯組”,選擇t1.col3。勾選“僅選擇非重復行”如下圖所示,
? 單擊“運行”按鈕。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10