
建模那點事兒—實戰(zhàn)篇
有過建模經(jīng)驗的人自然懂,沒有經(jīng)驗的各位也不要著急,這次我以一個真實模型為例,給大家詳細(xì)講述建模的各個步驟。
照例,先上流程圖:
大家可以看到,這個圖是由我之前文章中的兩張圖拼合而來,而我今天講的這個真實模型,將把圖中所有的流程都走一遍,保證一個步驟都不漏。
話說這個項目跟我加入百度有直接關(guān)系……
2013年的最后一天,我結(jié)束了在三亞的假期,準(zhǔn)備坐飛機(jī)回家,這時候接到一個知乎私信,問我對百度的一個數(shù)據(jù)科學(xué)家(其實就是數(shù)據(jù)分析師啦)職位是否感興趣,我立刻回信,定了元旦假期以后去面試。兩輪面試過后,面試官——也是我加入百度后的直屬Leader——打電話給我,說他們對我的經(jīng)歷很滿意,但是需要我給他們一份能體現(xiàn)建模能力的報告。
按說這也不是一件難事,但我翻了翻電腦后發(fā)現(xiàn)一個問題:我從上家公司離職時,為了裝13,一份跟建模相關(guān)的報告文件都沒帶……最后雙方商定,我有一個星期時間來做一份報告,這份報告決定了我是否能加入百度。
那么,是時候展示我的技術(shù)了!我的回合,抽卡!
看看報告的要求:
數(shù)據(jù)最好是通過抓取得來,需要用到至少一種(除描述統(tǒng)計以外)的建模技術(shù),最好有數(shù)據(jù)可視化的展示
看來是道開放題,那么自然要選擇一個我比較熟悉的領(lǐng)域,因此我選擇了……《二手主機(jī)游戲交易論壇用戶行為分析》
為啥選這個呢?你們看了我那么多的Mario圖,自然知道我會選主機(jī)游戲領(lǐng)域,但為什么是二手?這要說到我待在國企的最后半年,那時候我一個月忙三天,剩下基本沒事干,因此泡在論壇上倒賣了一段時間的二手游戲……
咳咳……總之,目標(biāo)就確定了:分析某二手主機(jī)游戲交易論壇上的帖子,從中得出其用戶行為的描述,為用戶進(jìn)行分類,輸出洞察報告。
簡單來說,就是用python寫了個定向爬蟲,抓了某個著名游戲論壇的二手區(qū)所有的發(fā)帖信息,包括帖子內(nèi)容、發(fā)帖人信息等,基本上就是長這個樣子:
(打碼方式比較簡單粗暴,請湊合看吧……)
這個模型中的數(shù)據(jù)清洗,主要是洗掉帖子中的無效信息,包括以下兩類:
1、論壇由于其特殊性,很多人成交后會把帖子改成《已出》等標(biāo)題,這一類數(shù)據(jù)需要刪除:
2、有一部分人用直接貼圖的方式放求購信息,這部分體現(xiàn)為只抓到圖片鏈接,需要刪除。
數(shù)據(jù)清洗結(jié)束了么?其實并沒有,后邊會再進(jìn)行一輪清洗……不過到時再說。
用上面的那些帖子數(shù)據(jù)其實是跑不出啥結(jié)果的,我們需要把數(shù)據(jù)整理成可以進(jìn)一步分析的格式。
首先,我們給每條帖子打標(biāo)簽,標(biāo)簽分為三類:行為類型(買 OR 賣 OR 換),目標(biāo)廠商(微軟 OR 索尼 OR 任天堂),目標(biāo)對象(主機(jī) OR 游戲軟件)。打標(biāo)簽?zāi)J绞恰狈详P(guān)鍵詞—打相應(yīng)標(biāo)簽“的方法,關(guān)鍵詞表樣例如下:
(主機(jī)掌機(jī)那個標(biāo)簽后來我在實際操作時沒有使用)
打完標(biāo)簽之后,會發(fā)現(xiàn)有很多帖子沒有打上標(biāo)簽,原因有兩種:一是關(guān)鍵詞沒有涵蓋所有的產(chǎn)品表述(比如三公主這種昵稱),二是有一部分人發(fā)的帖子跟買賣游戲無關(guān)……
這讓人怎么玩……第二次數(shù)據(jù)清洗開始,把這部分帖子也洗掉吧。
其次,我們用發(fā)帖用戶作為視角,輸出一份用戶的統(tǒng)計表格,里邊包含每個用戶的發(fā)帖數(shù)、求購次數(shù)、出售次數(shù)、交換次數(shù)、每一類主機(jī)/游戲的行為次數(shù)等等,作為后續(xù)搭建用戶分析模型之用。表格大概長這個樣子:
之后這個表的列數(shù)會越來越多,因為數(shù)據(jù)重構(gòu)的工作都在此表中進(jìn)行。
整理之后,我們準(zhǔn)備進(jìn)行描述統(tǒng)計。
描述統(tǒng)計在這個項目中的意義在于,描述這一社區(qū)的二手游戲及主機(jī)市場的基本情況,為后續(xù)用戶模型的建立提供基礎(chǔ)信息。
具體如何進(jìn)行統(tǒng)計就不說了,直接放成品圖,分別是從各主機(jī)市場份額、用戶相互轉(zhuǎn)化情況、地域分布情況進(jìn)行的洞察。
因為我要研究的是這些用戶與二手交易相關(guān)的行為,因此初步選擇變量為發(fā)帖數(shù)量、微軟主機(jī)擁有臺數(shù)、索尼主機(jī)擁有臺數(shù)、任天堂主機(jī)擁有臺數(shù)。
算法上面,我們的目標(biāo)是將用戶分群,因此選擇聚類,方法選擇最簡單的K-means算法。
K-means算法除了輸入變量以外,還需要設(shè)定聚類數(shù),我們先拍腦袋聚個五類吧!
(別笑,實際操作中很多初始參數(shù)都是靠拍腦袋得來的,要通過結(jié)果來逐步優(yōu)化)
看看結(jié)果:
第一類別的用戶數(shù)跟總體已經(jīng)很接近了,完全沒有區(qū)分度啊!
這一節(jié)你看標(biāo)題都這么長……
既然我們用原始值來聚類的結(jié)果不太好,那么我把原始值重構(gòu)成若干檔次,比如發(fā)帖1-10的轉(zhuǎn)換為1,10-50的轉(zhuǎn)換為2,依次類推,再聚一次看看結(jié)果。
哦哦!看上去有那么點意思了!不過有一類的數(shù)量還是有一點少,我們聚成四類試試:
哦哦,完美! 我們運氣不錯,一次變量重構(gòu)就輸出了一個看上去還可以的模型結(jié)果,接下來去測試一下吧。
測試過程中,很重要的一步是要看模型的可解釋性,如果可解釋性較差,那么打回重做……
接下來,我們看看每一類的統(tǒng)計數(shù)據(jù):
這個表出來以后,基本上可以對我們聚類結(jié)果中的每一類人群進(jìn)行解讀了。結(jié)果測試通過!
這個模型不用回朔到系統(tǒng)中,因為僅僅是一個我們用來研究的模型而已。因此,輸出規(guī)則和模型加載兩步可以跳過,直接進(jìn)入報告撰寫。
聚類模型的結(jié)果可歸結(jié)為下圖:
眼熟不?在我的第二篇專欄文章第一份數(shù)據(jù)報告的誕生 – 一個數(shù)據(jù)分析師的自我修養(yǎng) – 知乎專欄 中,我用這張圖來說明了洞察結(jié)論的重要性,現(xiàn)在你們應(yīng)該知道這張圖是如何得來的了。
撰寫報告的另外一部分,在描述統(tǒng)計-洞察結(jié)論的過程中已經(jīng)提到了,把兩部分放在一次,加上背景、研究方法等內(nèi)容,就是完整的報告啦!
最后附送幾張各類用戶發(fā)帖內(nèi)容中的關(guān)鍵詞詞云圖:
那么,這篇文章就到此結(jié)束了,最后的最后,公布一下我做這份報告用到的工具:
大家可以看到,要當(dāng)一個數(shù)據(jù)分析師,要用到很多類別的工具,多學(xué)一點總是沒有壞處的,在此與大家共勉。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03