
控制在線問卷數(shù)據(jù)質(zhì)量的具體方法
在對(duì)互聯(lián)網(wǎng)產(chǎn)品進(jìn)行的用戶研究中,通過在線問卷收集數(shù)據(jù)是一個(gè)非常普遍的方式。 在線問卷,不受訪問的環(huán)境限制,回收速度很快,具有明顯的優(yōu)勢(shì)。但是由于被訪者沒有相關(guān)的指導(dǎo),在設(shè)備存在差異,回答的態(tài)度有不同等,因此數(shù)據(jù)的質(zhì)量能否得到保證, 是一個(gè)關(guān)鍵的問題。數(shù)據(jù)質(zhì)量決定了數(shù)據(jù)是否具有科學(xué)性,是否可以代表用戶,是否給出準(zhǔn)確的研究結(jié)論。因此我們要考慮對(duì)在線問卷的數(shù)據(jù)進(jìn)行質(zhì)量控制的具體的方法,保證問卷數(shù)據(jù)的質(zhì)量。
我們?yōu)槭裁磿?huì)需要進(jìn)行在線問卷數(shù)據(jù)的質(zhì)量控制?
用戶在線回答問卷的過程中,會(huì)出現(xiàn)一些問題,總結(jié)起來有以下三類:
1、會(huì)發(fā)生答題點(diǎn)擊失誤的情況
2、會(huì)有理解錯(cuò)誤導(dǎo)致錯(cuò)誤回答的情況
3、會(huì)出現(xiàn)答題不認(rèn)真敷衍的情況
前兩種情況,屬于客觀必然發(fā)生的小概率事件,不易通過技術(shù)對(duì)數(shù)據(jù)進(jìn)行質(zhì)量控制,但是出現(xiàn)的可能性小,可以忽略。而第三種情況,是用戶答題態(tài)度有偏差,是可以通過 技術(shù)實(shí)現(xiàn)質(zhì)量控制,從而把有問題的數(shù)據(jù)發(fā)現(xiàn)并剔除掉。
如何發(fā)現(xiàn)有問題的問卷數(shù)據(jù)并剔除呢?
針對(duì)答題不認(rèn)真的問卷數(shù)據(jù),我們要怎么才能發(fā)現(xiàn)呢?可以通過以下三個(gè)層面。
1. 地雷題
我們第一種方法,也是最常用的方法,是通過在問卷中設(shè)置地雷題,并通過地雷題 的數(shù)據(jù)來檢驗(yàn)問卷數(shù)據(jù)的準(zhǔn)確性。那么,什么是地雷題?
地雷題是問卷設(shè)計(jì)中驗(yàn)證用戶回答態(tài)度認(rèn)真與否而設(shè)計(jì)的題目。這類題目往往是 2 個(gè),對(duì)應(yīng)出現(xiàn)的。也就是針對(duì)相同的問題以不明顯有差異的方式在問卷中提問兩次。如果被訪者回答對(duì)應(yīng)出現(xiàn)的兩道題目,給出了完全相反或者差異巨大的答案,那么可以在 一定程度上反映,這個(gè)人回答問卷的態(tài)度不夠端正,可以懷疑這個(gè)人的數(shù)據(jù)是不真實(shí)的。
例如:在某個(gè)問卷中,Q1 問題是:以下物品,請(qǐng)問您家擁有哪些?,其中有“汽車” 選項(xiàng)。Q10 問題是:請(qǐng)問您家擁有以下哪些個(gè)人資產(chǎn)?,其中也有“汽車”選項(xiàng)。Q1 與 Q10 為地雷題,如果被訪者這兩個(gè)題目在汽車這個(gè)選項(xiàng)的答案出現(xiàn)差異,認(rèn)為是不合格 的數(shù)據(jù)。
地雷題應(yīng)該如何設(shè)置?
地雷題是在問卷收集之前,就要設(shè)置好的,如果沒有設(shè)置,也就沒辦法通過其來進(jìn) 行質(zhì)控了。同時(shí)需要注意,地雷題的設(shè)置也是有技巧的,針對(duì)選擇題,兩道地雷題之間 的距離應(yīng)該盡可能大。因?yàn)楸辉L者在回答問卷的時(shí)候,不一定記得清之前問題和選擇的 答案,如果地雷題之間相隔很多題目,用戶如果態(tài)度不端正,是很容易被甄別出來的。
以下是一個(gè)實(shí)驗(yàn)的數(shù)據(jù)結(jié)果。實(shí)驗(yàn)是將相同的地雷題,放在問卷的三個(gè)不同位置, 所甄別出的不合格問卷數(shù)據(jù)的比例。我們發(fā)現(xiàn),地雷題的相距越大,被訪者回答與對(duì)應(yīng) 選項(xiàng)的矛盾比例越高。
實(shí)驗(yàn)數(shù)據(jù)一:設(shè)置在不同位置地雷題的效果
2. 答題時(shí)間
通過答題時(shí)間的長(zhǎng)短,我們可以知道很多被訪者答題的情況:
(1)總體問卷回答時(shí)長(zhǎng)
(2)單個(gè)問題回答時(shí)長(zhǎng)
(3)總體問卷/單個(gè)問題的平均回答時(shí)長(zhǎng)
(4)整體問卷/單個(gè)問卷的時(shí)長(zhǎng)離散程度
……
通過以上這些時(shí)間數(shù)據(jù),我們可以看到,一個(gè)被訪者在正常情況下,回答整個(gè)問卷或者單個(gè)問題,他需要的一個(gè)時(shí)間大概是多久。如果回答問卷的平均需要15分鐘的時(shí)間,而有的人用了1分鐘就回答完了,而有的人用了2個(gè)小時(shí),那么就很說明問題了, 回答時(shí)間過長(zhǎng)或過短的被訪者回答問卷存在一定的問題。
但是還有一種情況,就是如果平均時(shí)間是 15 分鐘,那么 3 分鐘的是否是認(rèn)真的回 答,40 分鐘是否是不認(rèn)真的回答呢?這個(gè)我們需要什么依據(jù)來判斷嗎?這就需要一個(gè)標(biāo)準(zhǔn),稍后我們來揭曉這個(gè)標(biāo)準(zhǔn)。
3. 題目選項(xiàng)個(gè)數(shù)
通過被訪者回答問卷的多選題,選擇的選項(xiàng)數(shù)量,也可以進(jìn)行問卷數(shù)據(jù)的質(zhì)量控制。 如果一被訪者回答某個(gè)問題,所選擇的選項(xiàng)明顯多于或少于所有被訪者回答這個(gè)問卷的 平均選項(xiàng)數(shù),那么就要注意了!
以下是一些問卷題目,被訪者的選擇的選項(xiàng)情況
實(shí)驗(yàn)數(shù)據(jù)二:在線問卷的不同題目選項(xiàng)個(gè)數(shù)的平均值與最大值
我們可以看到,對(duì)于吃飯,喝飲料,吃水果這種日常問題,被訪者選擇的選項(xiàng)個(gè)數(shù)明顯多于平均值或者不符合常理,就應(yīng)被認(rèn)為是不合理的。比如圖中,吃水果的題目, 有的用戶選擇了三天內(nèi)吃了 18 種水果,這樣的數(shù)據(jù)可能就有問題。
3σ 原則數(shù)據(jù)檢驗(yàn)標(biāo)準(zhǔn)
剛才我們講了答題時(shí)間,選項(xiàng)個(gè)數(shù),可以反映被訪者答題的數(shù)據(jù)質(zhì)量。那么對(duì)于這兩個(gè)因素,有沒有一個(gè)標(biāo)準(zhǔn)可以來準(zhǔn)確判斷,怎么樣的情況,我們就要剔除掉樣本數(shù)據(jù)呢?
我們要引入一個(gè)概念。即統(tǒng)計(jì)學(xué)原理的 3σ 原則。3σ 準(zhǔn)則又稱為拉依達(dá)準(zhǔn)則,它是先假設(shè)一組檢測(cè)數(shù)據(jù)只含有隨機(jī)誤差,對(duì)其進(jìn)行計(jì)算處理得到標(biāo)準(zhǔn)偏差,按一定概率確 定一個(gè)區(qū)間,認(rèn)為凡超過這個(gè)區(qū)間的誤差,就不屬于隨機(jī)誤差而是粗大誤差,含有該誤 差的數(shù)據(jù)應(yīng)予以剔除。這種判別處理原理及方法僅局限于對(duì)正態(tài)或近似正態(tài)分布的樣本 數(shù)據(jù)處理,它是以測(cè)量次數(shù)充分大為前提的。在正態(tài)分布中 σ 代表標(biāo)準(zhǔn)差,μ 代表均值。
3σ 原則為數(shù)值分布在(μ-σ,μ+σ)中的概率為 0.6826,數(shù)值分布在(μ-2σ,μ+2σ)中 的概率為 0.9544,數(shù)值分布在(μ-3σ,μ+3σ)中的概率為 0.9974,可以認(rèn)為,Y 的取值幾乎全部集中在(μ-3σ,μ+3σ)區(qū)間內(nèi),超出這個(gè)范圍的可能性僅占不到 0.3%。3σ 原則 告訴我們,標(biāo)準(zhǔn)正態(tài)分布時(shí)有 99.7%的可能數(shù)據(jù)應(yīng)該落在 μ+3σ 的范圍內(nèi)。
選項(xiàng)個(gè)數(shù)在一定程度上是比較穩(wěn)定的,即所有人選擇個(gè)數(shù)的均值是相對(duì)穩(wěn)定的??紤]到不同情況下大家行為的差異,我們需要關(guān)注所有人選擇個(gè)數(shù)的標(biāo)準(zhǔn)差來衡量其離散 程度。由于在多選題中沒有負(fù)數(shù)出現(xiàn),因而數(shù)據(jù)分布如下圖所示。數(shù)據(jù)落在 μ+3σ 范圍內(nèi)的概率均超過 99%,也就是說一個(gè)正常的數(shù)據(jù)有 99%的可能性會(huì)落在這個(gè)范圍內(nèi), 超過這個(gè)范圍的值發(fā)生的概率極小,因而一旦發(fā)生,可以認(rèn)為是奇異值,需要剔除掉。
結(jié)合上圖舉例:如果 1000 人回答吃水果的題目,平均值是 4 個(gè),標(biāo)準(zhǔn)差是 4,那么這道題目選項(xiàng)個(gè)數(shù)的合理范圍的最小值是 0(4-3*4=-8,水果個(gè)數(shù)不能為負(fù)數(shù),取 0) 個(gè),最大值是 16(4+3*4)個(gè),超過 16 個(gè)的問卷數(shù)據(jù)應(yīng)被視為無效,而無效的被訪者 不會(huì)超過 3 人。
同樣的方法,也可以驗(yàn)證被訪者答題時(shí)間是否合理。
今天我們講了如何通過地不同的方式和方法,對(duì)在線問卷數(shù)據(jù)進(jìn)行質(zhì)量控制。希望 今天的內(nèi)容對(duì)大家在問卷數(shù)據(jù)處理有一定的幫助,未來我們會(huì)進(jìn)一步完善相關(guān)方法,并 及時(shí)和大家探討!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10