
MYSQL、 Sas EG、 TOAD、 SAS EM
數(shù)據(jù)導(dǎo)入 txt導(dǎo)入mysql 數(shù)據(jù)導(dǎo)出 mysql導(dǎo)出為txt txt導(dǎo)入SasEG SAS數(shù)據(jù)格式修改 頻數(shù)統(tǒng)計 相關(guān)分析 相關(guān)系數(shù) 相關(guān)系數(shù)矩陣 RFM模型 聚類分析 關(guān)聯(lián)規(guī)則 數(shù)據(jù)挖掘 頻數(shù)統(tǒng)計
根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布第36次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2015年6月,我國網(wǎng)民規(guī)模達6.68億,互聯(lián)網(wǎng)普及率為48.8%。我國互聯(lián)網(wǎng)的高速發(fā)展普及為互聯(lián)網(wǎng)企業(yè)帶來了巨大的發(fā)展機遇。
相對于傳統(tǒng)的工業(yè)領(lǐng)域,互聯(lián)網(wǎng)領(lǐng)域的入門門檻較低,這一特點有利于更多的企業(yè)加入互聯(lián)網(wǎng)浪潮,以便為人民生活提供更好的服務(wù),但也正是互聯(lián)網(wǎng)企業(yè)的服務(wù)模式易于拷貝的原因,導(dǎo)致了同質(zhì)化競爭激烈的互聯(lián)網(wǎng)企業(yè)發(fā)展格局。
為了解決這一問題,通過對網(wǎng)站用戶行為進行數(shù)據(jù)分析,有利于互聯(lián)網(wǎng)企業(yè)準(zhǔn)確把握網(wǎng)站發(fā)展的實際情況以及網(wǎng)站用戶心理需求和心理習(xí)慣,從而更有效地利用企業(yè)資源,以便在激烈的同質(zhì)化競爭中找到屬于自己的服務(wù)特點,獲得比較優(yōu)勢,最終贏得競爭。
此案例所用數(shù)據(jù)集來自于一個互聯(lián)網(wǎng)企業(yè),屬于論壇性質(zhì)。共有三個數(shù)據(jù)集。member.txt、tiezi.txt 、bankui.txt分別是會員個人信息表(包括會員的一些屬性:出生日期,專長,關(guān)注領(lǐng)域等)、瀏覽帖子信息表(四個字段,第一個是會員id,第二個是會員瀏覽時間,第三個是會員瀏覽帖子的鏈接代碼,第四個變量為瀏覽的為該帖子的第幾頁),瀏覽板塊信息表(三個字段,第一個是會員id,第二個是會員瀏覽時間,第三個是會員瀏覽板塊的鏈接代碼)。數(shù)據(jù)缺陷無法提供板塊和帖子的對應(yīng)情況。其中member.txt數(shù)據(jù)集中共包含106745條記錄,bankuai.txt數(shù)據(jù)集中共包含765015條記錄,tiezi.txt數(shù)據(jù)集中共包含3832002條記錄。
各知識點介紹如下:
第1個知識點介紹的是如何借助于第三方數(shù)據(jù)庫管理軟件toad把三個txt數(shù)據(jù)文件導(dǎo)入到MYSQL數(shù)據(jù)庫中。
第2個知識點介紹的是如何借助于第三方數(shù)據(jù)庫管理軟件toad把三個txt數(shù)據(jù)數(shù)從MySQL數(shù)據(jù)庫forum中導(dǎo)出為三個txt文件,將導(dǎo)出的三個txt文件保存為member.txt,tiezi.txt,bankuai.txt,然后在這個基礎(chǔ)之上對本章后面的小節(jié)進行操作。
第3個知識點是將三個txt文件導(dǎo)入到SAS-EG中,保存為sas格式的數(shù)據(jù)集放在建立的邏輯庫test中,并且對日期時間變量進行輸出格式的修改,使其顯示為正確的日期時間格式。三個sas數(shù)據(jù)文件分別為member.sas4bdat,bankuai.sas7bdat,tiezi.sas7bdat。
第4個知識點是對論壇數(shù)據(jù)進行一些描述性分析,在tiezi.sas7bdat基礎(chǔ)之上尋找到最火的帖子。
第5個知識點是對論壇數(shù)據(jù)進行一些描述性分析,是在member.sas7bdat基礎(chǔ)之上對論壇用戶的男女比例進行描述性分析。
第6個知識點是在tiezi.sas7bdat基礎(chǔ)之上通過生成查詢生成器的方式計算每個人瀏覽的帖子總數(shù),并且進行用戶名字的去重。然后將查詢結(jié)果和member.sas7bdat數(shù)據(jù)集進行橫向合并,從而將用戶年齡和瀏覽貼子數(shù)放在了一個表中。然后進行兩個變量的相關(guān)性分析。
第7個知識點是在tiezi.sas7bdat數(shù)據(jù)集的基礎(chǔ)之上進行進一步的計算,然后用RFM模型對客戶進行畫像分析,從而找到最有價值的客戶。
第8個知識點在bankuai.sas7bdat數(shù)據(jù)集的基礎(chǔ)之上用sasEM模塊對數(shù)據(jù)進行板塊的關(guān)聯(lián)規(guī)則分析,從而可以發(fā)現(xiàn)一些推薦規(guī)則。
第9個知識點是在member.sas7bdat基礎(chǔ)之上用SasEM模塊的文本挖掘部分對關(guān)注領(lǐng)域字段進行關(guān)鍵詞頻數(shù)分析,從而找到關(guān)注度最高的關(guān)鍵詞。
? 安裝Toad for MySQL編輯器,成功設(shè)置權(quán)限;
? 在邏輯庫下選擇forum數(shù)據(jù)庫,界面如下圖所示;
? 單擊工具欄中的“Tools”選項,執(zhí)行“Import”,“Import Wizard”命令,如圖4.21,彈出數(shù)據(jù)導(dǎo)入向?qū)Т翱冢缦聢D所示,點擊Next。
導(dǎo)入數(shù)據(jù)
? 點擊“Next”,如下圖,繼續(xù)進行;
導(dǎo)入數(shù)據(jù)
? 點擊“Add File”,選擇文件所在位置添加文件,如下圖;
導(dǎo)入數(shù)據(jù)
? 選擇“Comma”(即以逗號為分隔符),選擇“Column names as head”(即將原文件中的第一行作為列名)及Empty files are n(即將缺失的數(shù)據(jù)也插入新表中),點擊“Next”繼續(xù)進行,如下圖;
導(dǎo)入數(shù)據(jù)
? 再次點擊“Next”繼續(xù)進行,在數(shù)據(jù)導(dǎo)入向?qū)Т翱诘?/span>Select Target步驟中,選擇“A single new table”(即新建一個表),在Schema下拉列表中選擇創(chuàng)建的數(shù)據(jù)庫forum,在“Table name”中輸入新表的名稱“member”,根據(jù)事先對數(shù)據(jù)的大致了解,將field6、field7、lingyu的數(shù)值類型改為VARCHAR(200),將zhuanchang的數(shù)值類型改為VARCHAR(500),同時選中memberid,將光標(biāo)定位在memberid前面,點擊“Set Primary Key”,即將memberid設(shè)置為主鍵,如下圖所示,點擊Next按鈕。
圖 導(dǎo)入數(shù)據(jù)
? 再次點擊Next,F(xiàn)inish按鈕,等待一段時間后會出現(xiàn)如下圖的窗口,可以看到讀取數(shù)據(jù)行數(shù)為106745行,導(dǎo)入數(shù)據(jù)行數(shù)也為106745行,因此數(shù)據(jù)全部導(dǎo)入。
圖數(shù)據(jù)導(dǎo)入結(jié)果匯總
? 點擊OK,在Viewer Table forum.member窗口下點擊Data選項,數(shù)據(jù)如下圖,可以看到中文字符也完全顯示出來。
圖 數(shù)據(jù)導(dǎo)入成功
在MySQL命令窗口下,執(zhí)行下列語句同樣可實現(xiàn)上述操作:
create table forum.member
(
gender int(11),
birthyearm int(11),
constellation varchar(255),
zodiac varchar(255),
resideprovince varchar(255),
field6 varchar(255),
field7 varchar(255),
lingyu varchar(255),
zhuanchang varchar(255),
readad int(11),
viptype int(11),
memberid int(20),
count int(11),
PRIMARY KEY(memberid)
)engine=innodb charset=utf8;
上述代碼將新建一個名為forum.membe的新表,包含13個字段及其屬性,定義memberid為主鍵,engine=innodb為指定數(shù)據(jù)引擎,charset=utf8為編碼格式,int表示數(shù)據(jù)格式為整型,varchar表示數(shù)據(jù)為可變字符型。
? 重復(fù)上述操作步驟同樣可以將bankuai.txt和tiezi.txt導(dǎo)入至數(shù)據(jù)庫。
其中tiezi.txt在讀入時,采用默認設(shè)置讀入,發(fā)現(xiàn)并未讀取全部記錄,原因是time的字段類型為int不合適,time字段的一些取值超過了int類型所涵蓋的范圍,需要在導(dǎo)入時將該字段類型改為bigint。這樣就可以將全部記錄導(dǎo)入。由于tiezi的數(shù)據(jù)量(行數(shù))非常龐大,我們將processing row count改為10000以加快讀取速度。如下圖所示。最終在圖4.30中顯示讀取數(shù)據(jù)為3832002條,導(dǎo)入條數(shù)也為3832002條。
圖 導(dǎo)入數(shù)據(jù)
圖數(shù)據(jù)導(dǎo)入結(jié)果匯總
這個知識點操作結(jié)束之后,在你的電腦的mysql的forum數(shù)據(jù)庫中將會存在三張表。
數(shù)據(jù)庫管理員的其中一個工作就是將各種形式的數(shù)據(jù)錄入或者導(dǎo)入到mysql數(shù)據(jù)庫中,注意toad和mysql的版本要相互配合。
知識點素材(包括數(shù)據(jù)):一個mysql數(shù)據(jù)庫forum,并且該數(shù)據(jù)庫下有三張表member、tiezi、bankuai。
? 打開論壇的數(shù)據(jù)庫forum1,打開tables,可以看到有三個表分別是member、tiezi、bankuai。Member中記錄的是用戶的id和個人信息。tiezi里面記錄的是會員瀏覽帖子的記錄。Bankuai里面記錄的是會員瀏覽板塊的記錄。
打開其中的一個表。比如member,然后在右側(cè)數(shù)據(jù)瀏覽窗口中點擊“export”,選擇導(dǎo)出的形式,我們選擇“導(dǎo)出所有記錄”,然后選擇“txt文件”,點擊“Next”,選擇保存路徑,然后點擊“Next”,點擊“Next”,然后勾選“include column titles”,繼續(xù)點擊“Next”,然后點擊“start”。等進度條完成之后,數(shù)據(jù)就成功導(dǎo)出了。點擊“close”即可。我們依據(jù)同樣的方法把三個表都導(dǎo)出為txt格式,分別為member.txt 、tiezi.txt 、bankuai.txt。
將上面導(dǎo)出的數(shù)據(jù)存為member.txt 、tiezi.txt 、bankuai.txt,以備后續(xù)使用。
通常從數(shù)據(jù)庫中導(dǎo)出數(shù)據(jù)可以保存為好幾種文本文件和excel文件,你可以根據(jù)需要進行選擇,如果數(shù)據(jù)量較大的話建議保存為txt文件。
? 打開excel文件,查看數(shù)據(jù)是否符合SAS要求的格式;
? 啟動sas eg
? 點擊“工具”,“分配項目邏輯庫”,可以新建一個邏輯庫,邏輯庫命名為test,注意指定合適的文件夾路徑作為邏輯庫放數(shù)據(jù)的地方。
? 執(zhí)行“文件”,“導(dǎo)入數(shù)據(jù)”,找到member.txt文件,點擊“打開”按鈕,指定test邏輯庫,打開窗口左下角的服務(wù)器列表——本地——邏輯庫可以看到邏輯庫test已經(jīng)生成。如果沒有發(fā)現(xiàn)這個邏輯庫就刷新一下便可以看到了。導(dǎo)入數(shù)據(jù)時指定文本編碼為默認編碼,即GB2312。導(dǎo)入完成之后在邏輯庫test及保存路徑下便生成bankuai.sas7bdat,tiezi.sas7bdat及member.sas7dbat三個數(shù)據(jù)文件。若在邏輯庫下沒有顯示所導(dǎo)入的數(shù)據(jù),刷新一下即可。
我們看一下tiezi數(shù)據(jù)集里面的數(shù)據(jù),結(jié)果見下圖。
圖 tiezi數(shù)據(jù)窗口
從上圖可以看到,time字段顯示的格式是數(shù)值格式,如何將其變?yōu)闀r間格式。
將tiezi數(shù)據(jù)拖動右側(cè)雙口后雙擊time字段的任意觀測值,這時會彈出一個“數(shù)據(jù)具有保護,是否切換至更新模式”的對話框,注意:所做的更改將直接應(yīng)用于數(shù)據(jù)。在此選擇“yes”。這樣數(shù)據(jù)就變成可編輯模式了。選中需要編輯的變量列,點擊右鍵選擇“屬性”,在“常規(guī)選項卡”里,把組改為日期格式。在“輸出格式”選項卡里,類別選擇“日期/時間”。輸出格式選擇DATETIMEw.d,總寬度設(shè)定為20。從下圖中可以看到修改后的樣式。修改完樣式之后將數(shù)據(jù)集保存。同樣,數(shù)據(jù)集bankuai里面的time字段也進行同樣的設(shè)置并保存。
圖 tiezi數(shù)據(jù)窗口
將上面生成的sas數(shù)據(jù)文件保存在文件夾中存為bankuai.sas7bdat,tiezi.sas7bdat及member.sas7dbat,以備后續(xù)使用。
想把txt格式數(shù)據(jù)導(dǎo)入到saseg中,先要將txt數(shù)據(jù)格式整理成比較標(biāo)準(zhǔn)的格式才不容易出錯,如果txt文件是從數(shù)據(jù)庫中導(dǎo)出的通常格式比較正常。
? 啟動sas eg
? ?新建項目邏輯庫。執(zhí)行“工具”—“分配項目邏輯庫”—輸入8個字符以內(nèi)的英文名稱(比如test),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節(jié)的文件路徑保持一致)作為邏輯庫放數(shù)據(jù)的地方。
? 把左側(cè)下方的邏輯庫test下面的tiezi數(shù)據(jù)集拖入右側(cè)的大窗口中。即可看到帖子數(shù)據(jù)集作為一個對象出現(xiàn)在右側(cè)窗口中。如果想查看這個數(shù)據(jù)集里面的內(nèi)容,雙擊過程流中TIEZI數(shù)據(jù)集的圖標(biāo) ,即可查看里面的數(shù)據(jù)。
? 在tiezi窗口,點擊查詢生成器。把t1下面的tid變量拉入右側(cè)數(shù)據(jù)框,見下圖。
圖 查詢生成器窗口
? 點擊”添加新的計算列”,進入“1/4選擇類型”頁界面,勾選”匯總列”,點擊下一步進入“2/4選擇列”頁面;在“2/4選擇列”頁面,選擇 “選擇數(shù)據(jù)列”下面的tid變量。點擊下一步,進入“3/4修改其他選項”頁面;在“3/4修改其他選項”頁面,將“標(biāo)識符”和“列名”均改為total_number,“匯總”項選擇count,其他項保持默認。點擊下一步進入“4/4屬性匯總”頁面;在“4/4屬性匯總”頁面點擊“完成”回到“選擇數(shù)據(jù)”選項卡頁面,見下圖。
圖 查詢生成器窗口
? 點擊“對數(shù)據(jù)進行排序”進入“對數(shù)據(jù)進行排序”選項卡頁面。將左側(cè)“計算列”下面的total_number變量拉入數(shù)據(jù)框,排序方向選擇降序,見下圖。
圖 查詢生成器窗口
? 然后點擊運行,見下圖。
圖查詢生成結(jié)果
從上圖中就可以看到,最受關(guān)注的帖子的代碼是397905,被瀏覽的次數(shù)為36754次。
該知識點可以不用對數(shù)據(jù)集進行保存。
如果你是論壇工作人員,根據(jù)這個帖子代碼,你就能知道對應(yīng)的帖子鏈接。原來這個帖子是關(guān)于增加論壇幣方法的介紹,難怪有這么多人都要看。
? 啟動sas eg
? ?新建項目邏輯庫。執(zhí)行“工具”—“分配項目邏輯庫”—輸入8個字符以內(nèi)的英文名稱(比如test),點擊“下一步”按鈕;
? 注意指定合適的文件夾路徑(和上面一節(jié)的文件路徑保持一致)作為邏輯庫放數(shù)據(jù)的地方。
? 把左側(cè)下方的邏輯庫test下面的member數(shù)據(jù)集拖入右側(cè)的大窗口中??梢钥吹綌?shù)據(jù)集作為一個對象出現(xiàn)在右側(cè)窗口中。如果想查看這個數(shù)據(jù)集里面的內(nèi)容,雙擊過程流中member數(shù)據(jù)集的圖標(biāo) ,即可查看里面的數(shù)據(jù)。
? 執(zhí)行“描述”“單因子頻數(shù)”。在“數(shù)據(jù)”選項下,把“gender”拖入“分析變量”,在“統(tǒng)計量”選項下,缺失值的“顯示頻數(shù)”和“包含在計算中”前面打勾。點擊“運行”按鈕,輸出結(jié)果見下圖。
圖單因子頻數(shù)結(jié)果
結(jié)果分析:可以看到絕大多數(shù)人并沒有對性別進行填寫,填寫性別的人當(dāng)中男生占了大多數(shù),大概是女生的3倍。由于沒有填寫信息的人對分析沒有意義,故需要計算填寫性別的人當(dāng)中男女的比例,然后繪制餅形圖。
? 回到member數(shù)據(jù)集窗口,執(zhí)行選擇“圖形”,“餅圖”,雙擊“簡單餅圖”即可得到結(jié)果,點開“數(shù)據(jù)”選項卡,將gender拉入右側(cè)要繪圖的列。然后點擊運行。
圖性別分布餅圖
操作結(jié)果:
該知識點可以不用對數(shù)據(jù)集進行保存。
對于分類變量,可以通過單因子頻數(shù)的方式對其進行描述,也可以通過餅形圖對其進行描述。
知識點素材(包括數(shù)據(jù)):tiezi.sas7bdat member.sas7bdat
啟動SAS EG,在SAS EG中執(zhí)行“文件”,“新建項目”。 點擊“工具”,“分配項目邏輯庫”,可以新建一個邏輯庫,邏輯庫命名為test,注意指定合適的文件夾路徑(和上面一節(jié)的文件路徑保持一致)作為邏輯庫放數(shù)據(jù)的地方。
? 把左側(cè)下方的邏輯庫test下面的tiezi數(shù)據(jù)集拖入右側(cè)的大窗口中。即可看到帖子數(shù)據(jù)集作為一個對象出現(xiàn)在右側(cè)窗口中。打開tiezi數(shù)據(jù)集,點擊“查詢生成器”。將“查詢名稱”改為計算每個人的瀏覽帖子數(shù),輸出名稱為test.tiezishu。點擊“選項”,在彈出的窗口的“結(jié)果”中,將輸出數(shù)據(jù)集的標(biāo)簽改為tiezishu。然后點擊確定返回“選擇數(shù)據(jù)”選項卡頁面。將memberid字段選入“選擇數(shù)據(jù)”框里。設(shè)定之后見下圖。
圖查詢生成器窗口
? 點擊”添加新的計算列”,進入“1/4選擇類型”頁界面,勾選”匯總列”,點擊下一步進入“2/4選擇列”頁面;在“2/4選擇列”頁面,選擇 “選擇數(shù)據(jù)列”下面的memberid變量。點擊下一步,進入“3/4修改其他選項”頁面;在“3/4修改其他選項”頁面,將“標(biāo)識符”和“列名”均改為tiezishu,“匯總”項選擇count,其他項保持默認。點擊下一步進入“4/4屬性匯總”頁面;在“4/4屬性匯總”頁面點擊“完成”回到“選擇數(shù)據(jù)”選項卡頁面。
? 在“選擇數(shù)據(jù)”選項卡頁面。勾選“僅選擇非重復(fù)行”,匯總組選項下取消自動選擇組的勾選,設(shè)定組為t1.memberid。見下圖。
圖查詢生成器窗口
? 點擊“對數(shù)據(jù)進行排序”選項卡。把tiezishu拉入右側(cè)窗口,排序方向選擇降序。
圖 查詢生成器窗口
? 點擊運行按鈕。輸出結(jié)果見下圖。
圖 查詢生成結(jié)果
? 把member數(shù)據(jù)集拉入右側(cè)的過程流里面。雙擊Member數(shù)據(jù)集將其打開,點擊“查詢生成器“,點擊“添加表”,選擇tiezishu數(shù)據(jù)集,點擊“打開”。
? 點擊“連接表”,可以看到兩個表有共同的Memberid可以連接起來,然后點擊“關(guān)閉”。將tiezishu數(shù)據(jù)集里面的memberid、tiezishu選入“選擇數(shù)據(jù)框”,把member數(shù)據(jù)集里面的birthyear數(shù)據(jù)選入“選擇數(shù)據(jù)框”。
? 將查詢名稱改為“將年齡和帖子數(shù)放在一個表中”,輸出名稱為test.q1。點擊選項,將輸出數(shù)據(jù)集的標(biāo)簽改為q1。
? 計算年齡:點擊”添加新的計算列”,進入“1/4選擇類型”頁界面,勾選”高級表達式”,點擊下一步進入“2/4生成高級表達式”頁面;在“2/4生成高級表達式”頁面,在輸入表達式框中寫入公式:2015-t1.birthyear,點擊下一步,進入“3/4修改其他選項”頁面;在“3/4修改其他選項”頁面,將“標(biāo)識符”和“列名”均改為age,“匯總”項選擇None,其他項保持默認。點擊下一步進入“4/4屬性匯總”頁面;在“4/4屬性匯總”頁面點擊“完成”回到“選擇數(shù)據(jù)”選項卡頁面。見下圖。
圖 查詢生成器窗口
? 點擊“過濾數(shù)據(jù)”,進入“過濾數(shù)據(jù)”選項卡頁面。由于birthyear變量大量缺失,以0表示的,因此在分析數(shù)據(jù)之前要對這部分數(shù)據(jù)進行過濾,將birthyear拉入過濾數(shù)據(jù)里面,單擊“過濾”,運算符選擇不等于,值寫0,點擊“確定”按鈕。見下圖。
圖 查詢生成器窗口
? 然后點擊“運行”。查詢結(jié)果就出來了,我們在這個查詢結(jié)果中可以進行分析,來分析瀏覽帖子數(shù)和年齡的關(guān)系。查詢結(jié)果見下圖。
圖 查詢生成結(jié)果
? 在q1窗口中做散點圖:執(zhí)行“圖形”,“散點圖”,“二維散點圖”,橫軸為age,縱軸為tiezishu。結(jié)果見下圖。
圖 散點圖
結(jié)果分析:從散點圖中可以看到有很多異常值,縱軸上的異常值都是真實值,之所以異常,是因為管理員的帖子瀏覽量性對于普通會員來講非常多,因此分析的時候我們應(yīng)該去掉,我們定義大于6000的為管理員。年齡軸上的異常值主要是因為注冊的時候是隨意填寫導(dǎo)致的結(jié)果。分析時把年齡為16以下或者80以上的過濾掉。
? 我們回到過程流頁面,雙擊打開數(shù)據(jù)q1對象,點擊“查詢生成器”。將查詢名稱改為對年齡和帖子數(shù)進行再過濾,輸出名稱改為test.q2。點擊選項,將輸出數(shù)據(jù)集的標(biāo)簽改為q2。在選擇數(shù)據(jù)選項卡下面,將tiezishu和age拉入數(shù)據(jù)框。見下圖。
圖 查詢生成器窗口
? 點擊過濾數(shù)據(jù)選項卡。點擊“新建過濾器”,選擇基本過濾器,點擊“下一步”按鈕,選擇tiezishu,點擊“下一步”,運算符選擇介于,起始值寫 200,結(jié)束值寫 6000,點擊“下一步”,點擊“完成”。點擊“新建過濾器”,選擇“基本過濾器”,點擊“下一步”,選擇age,點擊“下一步”按鈕,運算符選擇“介于”,不要誤選為在范圍內(nèi),起始值寫 16,結(jié)束值寫 80,點擊“下一步”。點擊完成。見下圖。
圖 查詢生成器窗口
? 點擊“運行”按鈕。輸出結(jié)果見下圖。
圖 查詢生成結(jié)果
? 在q2的窗口中中畫age和tiezishu的散點圖,操作不再贅述。散點圖結(jié)果見下圖。
圖 散點圖
結(jié)果分析:從散點圖中可以看到兩者沒有明顯的正線性相關(guān)或者負線性相關(guān)的關(guān)系,但是仍然可以看到一些結(jié)論,瀏覽帖子比較多的人的年齡主要是20-40之間。40以上瀏覽帖子的數(shù)目基本在1500以內(nèi)。
? 在q2數(shù)據(jù)窗口中,點擊“分析”,“多元”“相關(guān)分析”,把tiezishu和age拉入“分析變量”,然后點擊“運行”按鈕。結(jié)果見下圖。
圖 相關(guān)分析結(jié)果
結(jié)果分析:從散點圖上雖然看不出什么,相關(guān)系數(shù)矩陣中兩者的相關(guān)系數(shù)也比較小,但是在10%顯著性水平下是顯著正相關(guān)的。
? 為了避免每次重新打開sasEG后,都要把建立邏輯庫,打開數(shù)據(jù)等操作重新做一遍,我們可以把關(guān)電腦前在sas EG中進行的操作保存,保存為一個項目:點擊“文件”—“保存項目”,為帖子瀏覽數(shù)與年齡關(guān)系分析命名,比如項目12.4,點擊“保存”即可。這樣在你的電腦上就會生成一個文件項目帖子瀏覽數(shù)與年齡關(guān)系分析.egp。為了避免死機,最好經(jīng)常執(zhí)行一些保存操作,“文件”—“保存項目帖子瀏覽數(shù)與年齡關(guān)系分析”。下次用到該項目時重新打開即可。
? 該項目的整體過程流圖見下圖。
圖 EG項目流程圖
把該知識點的操作產(chǎn)生新的數(shù)據(jù)集q1.sas7dbat,q2.sas7bdat,tiezishu.sas7bdat保存到路徑下,以備后續(xù)使用。
相關(guān)系數(shù)大小的判別標(biāo)準(zhǔn)在不同行業(yè)中是不同的,這里計算的相關(guān)系數(shù)僅僅是兩兩相關(guān)系數(shù),不考慮其他變量。
RFM模型是Bult and Wansbeek于1995年提出來的,認為客戶行為三要素 Recency (R)、Frequency (F) 與 Monetary (M)構(gòu)成了客戶購買潛力價值的核心組成部分。該模型經(jīng)常應(yīng)用于 CRM 框架下的客戶行為分析。
? 啟動sas eg
? ?新建項目邏輯庫。執(zhí)行“工具”—“分配項目邏輯庫”—輸入8個字符以內(nèi)的英文名稱(比如test),點擊“下一步”按鈕;
? 在電腦中選擇一個文件夾,將其路徑作為邏輯庫的路徑(保證該路徑下面有tiezi.sas7bdat這個文件),單擊“下一步”按鈕;
? 把左側(cè)下方的邏輯庫test下面的tiezi數(shù)據(jù)集拖入右側(cè)的大窗口中。即可看到帖子數(shù)據(jù)集作為一個對象出現(xiàn)在右側(cè)窗口中。打開tiezi數(shù)據(jù)集,點擊“查詢生成器”。
? 在tiezi中計算一列日期變量date,該變量是從time變量里面提取,格式為年月日。打開tiezi數(shù)據(jù)集,生成查詢器aa1,生成變量date,這個變量等于datepart(time)。計算每個人登陸論壇當(dāng)天瀏覽的帖子量生成size變量。具體步驟如下:將查詢名稱改為aa1,將輸出名稱改為“test.aa1 ”(即將輸出的數(shù)據(jù)保存在邏輯庫test中),把左邊的t1表里面的memberid變量拉入右邊。如下圖所示。
圖 查詢生成器窗口
? 點擊“添加新的計算列”,“高級表達式”,點擊“下一步”。在“輸入表達式框”中輸入表達式datepart(t1.time)。點擊下一步。設(shè)定列名和標(biāo)識符均為date,更改變量格式為DATE7.。點擊下一步。點擊完成回到選擇數(shù)據(jù)選項卡頁面。見下圖。
圖 查詢生成器窗口
? 點擊“計算列”,“新建”,“匯總列”,點擊“下一步”,隨意選擇一個變量,比如time,然后點擊“下一步”,變量名為size,匯總部分選擇“count”,點擊“下一步”,點擊“完成”。點擊完成回到選擇數(shù)據(jù)選項卡頁面。勾選“僅選擇非重復(fù)行”,匯總組選項下取消自動選擇組的勾選,設(shè)定組為memberid date。見下圖。
圖 查詢生成器窗口
? 生成一個過濾器,將date等于3653的行去掉,因為此觀測值屬于異常值。見下圖。
圖 查詢生成器窗口
? 打開“對數(shù)據(jù)排序”選項卡,把memberid和date選入,兩個均為升序。見下圖。
圖 查詢生成器窗口
? 然后點擊“運行”按鈕。 輸出結(jié)果見下圖。
圖 查詢生成結(jié)果
這樣數(shù)據(jù)集aa1中每個人每天就只有一條記錄了。
u 計算y1
新建一個程序文件,程序文件的名字定為“生成y1”。內(nèi)容如下:
? 生成新變量。根據(jù)第一個關(guān)鍵詞分組,生成變量x1,組內(nèi)取值為1,2,3….。需要建立一個程序運行下面的語句。輸出數(shù)據(jù)集aa2到邏輯庫test里面。
圖 程序
程序中by的意思是對數(shù)據(jù)根據(jù)memberiid和date兩個變量進行升序排序。
輸出結(jié)果如下圖所示
圖 數(shù)據(jù)集aa2輸出結(jié)果1
定義數(shù)據(jù)為面板數(shù)據(jù),橫截面為memberid,時間為lag_date??蛻魹g覽帖子時距離上一次瀏覽帖子的間隔天數(shù)y1,即date的一階差分。
圖 程序
輸出結(jié)果如下圖所示:
圖 數(shù)據(jù)集aa2輸出結(jié)果2
u 計算y2
新建一個程序文件,程序文件的名字定為“生成y2”。內(nèi)容如下:
計算會員瀏覽帖子時論壇的累積登陸天數(shù)y2,先生成一個變量,為count,取值為1。然后求這個變量的時間累計值就是y2。然后把數(shù)據(jù)集保存為aa3放在邏輯庫test下面。
圖 程序
圖 數(shù)據(jù)集aa3窗口
u 計算y3
新建一個程序文件,程序文件的名字定為“生成y3”。內(nèi)容如下:計算會員瀏覽帖子時論壇的累積瀏覽帖子數(shù)y3,就是變量size的累計值。
圖 程序
圖 數(shù)據(jù)集aa4窗口
u 數(shù)據(jù)進一步過濾
? 點開數(shù)據(jù)集aa4,點擊“查詢生成器”,查詢生成器名字為aa5,輸出的數(shù)據(jù)集名字為aa5。將數(shù)據(jù)集aa4里面的變量全部拉入數(shù)據(jù)框。
? 點擊“生成新列”maxdate,選擇“匯總列”,選擇“最大值”,點擊“完成”,回到主界面設(shè)定分組變量為Memberid。見下圖。
圖 查詢生成器窗口
? 建立過濾器,設(shè)定過濾器為maxdate=date。這個目的是每個用戶僅留最新的瀏覽日期,這樣做是為了利于提升聚類的效果。不適合將一個人的多天瀏覽放在一起聚
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03