
作者 | CDA數(shù)據(jù)分析師
前言
用戶畫像又稱用戶角色,作為一種勾畫目標用戶、聯(lián)系用戶訴求與設(shè)計方向的有效工具,用戶畫像在各領(lǐng)域得到了廣泛的應(yīng)用。用戶畫像最初是在電商領(lǐng)域得到應(yīng)用的,在大數(shù)據(jù)時代背景下,用戶信息充斥在網(wǎng)絡(luò)中,將用戶的每個具體信息抽象成標簽,利用這些標簽將用戶形象具體化,從而為用戶提供有針對性的服務(wù)。
用戶畫像是一種目標用戶的人物原型,它不僅可以快速了解用戶的基本信息并快速歸類,并且可以進一步精準地分析用戶行為習(xí)慣和態(tài)度偏好。用戶畫像雖然是用戶的虛擬代表,但必須基于的是真實用戶和真實數(shù)據(jù)。
嘗試去做一個用戶畫像,往往是基于以下情景:
從用戶畫像的使用情境也可以看出,用戶畫像適用于各個產(chǎn)品周期:從潛在用戶挖掘到新用戶引流,再到老用戶的培養(yǎng)與流失用戶的回流,用戶畫像都有用武之地。
采用定性的方法(如,深度訪談、焦點小組)或定量的方法(如,定量問卷、行為日志數(shù)據(jù))都能夠完成用戶畫像的構(gòu)建,不同的方法各有優(yōu)缺點:
但是,不論是選擇定性還是定量的方法,都首先需要對用戶類型有一個基本“量”的了解,否則在選用樣本時就會產(chǎn)生偏差。那么如何通過定量的方法(聚類)構(gòu)建用戶畫像呢?
選擇那些指標?
用戶指標的選擇,可以是封閉性的,也可以是開放性的。在封閉的指標中,用戶群的類型是固定的,所有用戶類型構(gòu)成了全部的用戶整體,比如輕度用戶、重度用戶;男性用戶,女性用戶。但是這種劃分方式維度可能過于單一,無法體現(xiàn)用戶群的復(fù)雜性,并且不利于指標體系的補充改進和迭代,因此在研究中我們更傾向于采用開放性的分類方式,可以根據(jù)不同應(yīng)用場景變更或者拓展指標。
開放式的指標體系包括用戶人口屬性、行為操作屬性、態(tài)度偏好屬性、用戶價值屬性等,用戶的行為和態(tài)度是不斷變化的。
其中,注意一點,封閉式指標中的人口屬性指標是相對穩(wěn)定的靜態(tài)數(shù)據(jù)。通常,從我們的經(jīng)驗和掌握到的用戶信息,我們對用戶的年齡結(jié)構(gòu)、性別比例都已經(jīng)明確,如果在聚類中人口屬性指標對聚類干擾較大(共線性較強),或在模型中作為因子影響過高,可以在聚類時重點關(guān)注用戶的行為操作和態(tài)度偏好等指標,聚類成功之后再比較每一種用戶類型的人口學(xué)背景信息等。
如何獲得和篩選數(shù)據(jù)?
在確定指標后,我們需要確定指標的來源。有些數(shù)據(jù)是后臺行為日志可以記錄到的,有些是需要用問卷調(diào)查的。一般而言,行為層面的指標可以用后臺日志,更加準確。而態(tài)度層面的則要用問卷來獲取。兩種數(shù)據(jù)渠道各有優(yōu)缺點:
理論上,所有的數(shù)據(jù)都可以通過問卷獲得。但是,為了最優(yōu)化研究效果,我們采取了問卷+行為日志結(jié)合的方式。在發(fā)問卷的同時,抓取了用戶的設(shè)備號和ID,以匹配后臺數(shù)據(jù)。
在保證問卷效度的前提下,問卷設(shè)計還需要注意結(jié)合用戶特征,以提高填答率以及數(shù)據(jù)準確率。比如,針對二次元用戶,在用戶群年齡結(jié)構(gòu)偏小的前提下問卷不能太長,不能出現(xiàn)深奧的專業(yè)術(shù)語;同時問卷的語句表達以及頁面風(fēng)格也要相應(yīng)調(diào)整,使其沒有距離感。同時,注意篩除多次填答和注冊的馬甲賬號問卷。此外還要注意新用戶的占比,需要評估填答問卷中新注冊用戶的比例是否與投放期新用戶正常增量一致。用戶畫像是否需要包含新用戶取決于項目目的,也可以和產(chǎn)品方討論后決定。
把用戶分成幾種類型?
聚類分析是探索性的研究,他根據(jù)指標或者變量之間的距離判斷親疏關(guān)系,將相似性的聚為一類,因此會出現(xiàn)多個可能的解,并不會給出一個最優(yōu)的解,最終選擇哪一種方案是取決于研究者的分析判斷。
把用戶分的類型越少,顆粒度就越粗,每種類型之間的特征就不會很分明;用戶類型越多,顆粒度也就越細,但復(fù)雜的類型劃分也會給產(chǎn)品定位和運營推廣帶來負擔(dān)。因此,細化顆粒度不僅需要定量的聚類來調(diào)整,還需要結(jié)合產(chǎn)品經(jīng)驗來驗證。同時,因為采用的是開放性的指標體系,我們不可能像區(qū)分“男性用戶、女性用戶”那樣清楚地知道用戶類型的數(shù)量,因此,在用數(shù)據(jù)進行用戶畫像時,最關(guān)鍵的一步就是確定把用戶分成幾種類型。
我們將數(shù)據(jù)導(dǎo)入spss嘗試進行聚類分析。如果變量數(shù)據(jù)形式不統(tǒng)一(選擇的指標有定序、有定類),則需要首先對數(shù)據(jù)進行標準化;其次,兩個強相關(guān)的變量和其他變量一起進行聚類會加大因子的權(quán)重,使聚類效果不理想,所以我們還要使用因子分析對選擇的指標提取公共因子,對因子共線性判斷,因子分析是選擇合適變量進行聚類的前提,如果因子之間共線性強,則提取公因子進行聚類,若共線性不強,則直接聚類。
如何選擇合適的聚類方法?
在確定因子之后需要選擇合適的聚類方法。不同方法適用的情況不同,常用的是K均值聚類以及層次聚類。
K均值聚類也稱快速聚類,內(nèi)存少,復(fù)雜程度低,快速高效,適用大數(shù)據(jù)量。但是需要提前明確分類數(shù)目,并對均值進行定義。只能對樣本聚類,不能對變量聚類,樣本的變量需是連續(xù)性變量。
層次聚類可以對變量聚類,也可以對樣本聚類,可以是連續(xù)變量也可以是分類變量。能提供多種計算距離的方法,但是計算復(fù)雜度高,適用小數(shù)據(jù)量,我們需要結(jié)合項目的具體情況,包括項目周期、數(shù)據(jù)形式、數(shù)據(jù)量、聚類特征等等來確定聚類方法。
最后通過嘗試不同的聚類數(shù)、距離算法和分類方法,我們可以根據(jù)以下幾點來確定分類的數(shù)量:
聚類效果好壞的評估可以從聚類中心之間的距離、組件與組內(nèi)的方差以及群組數(shù)量之間的比例是否符合產(chǎn)品特征、比例是否協(xié)調(diào)以及劃分的類型對產(chǎn)品是否有意義等方面去評估。
5、把數(shù)據(jù)還原成用戶
在已經(jīng)得知了分類結(jié)果并且分析得出了每一類用戶在各項指標上的特征之后,構(gòu)建用戶畫像的工作也就好比在一副骨架上填充血肉。一方面,我們可以直接利用獲取的數(shù)據(jù),找到具有顯著特征的信息,賦予到用戶身上。比如第一類用戶60%使用iOS系統(tǒng),而其他三類均不超過20%,我們就可以將第一類用戶抽象為一個平時使用iPhone 的人。除了問卷數(shù)據(jù)之外,想要使人物形象更加鮮明,可以對問卷本文題進行分析,或者根據(jù)產(chǎn)品經(jīng)驗、用戶反饋或已有研究進行畫像,這樣可以使用戶形象更加有血有肉。
但是,把數(shù)據(jù)還原成用戶本身用戶也需要遵循幾個原則,畫像(Persona)意味著一個令人信服的用戶角色要滿足七個條件:
通過定量化的調(diào)研可以快速對用戶建立一個精準的認識,對不同數(shù)量、不同特征的用戶進行比較統(tǒng)計分析,在后期產(chǎn)品迭代改進的過程中可以將用戶進行優(yōu)先級排序,著重關(guān)注核心的、規(guī)模大的用戶。但是,依靠數(shù)據(jù)這種偏定量的方式建立的用戶畫像依然是粗線條的,難以描述典型用戶的生活情景、使用場景,難以挖掘用戶情感傾向和行為操作背后的原因和深層次動機。因此,如果有足夠精力和時間,后續(xù)可以對每類用戶進行深入的訪談,將定量和定性的方法結(jié)合起來,建立的用戶畫像會更為精準和生動。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10