
為什么大數(shù)據(jù)技術(shù)并不一定總能解決問題
在如今這個“酒香也怕巷子深”的時代,企業(yè)技術(shù)領(lǐng)域總是充斥著無數(shù)宣傳及炒作。具體到當下,可能很多朋友都會把“大數(shù)據(jù)”技術(shù)看作是蘊藏著自身企業(yè)所需答案的寶庫。然而 ,其并不總能踐行如此美好的承諾——至少可能與傳統(tǒng)所差別。
首先,讓我們談?wù)劦降资裁唇凶鞔髷?shù)據(jù)。事實上根據(jù)IDC的調(diào)查報告顯示,那些通常被稱為大數(shù)據(jù)的信息——包括由企業(yè)資源規(guī)劃(簡稱ERP)、客戶關(guān)系管理(簡稱CRM)以及其它商務(wù)系統(tǒng)(包括目前企業(yè)常用的分析工具)等量化并捕捉到的海量數(shù)據(jù)——事實上只占企業(yè)平均數(shù)據(jù)總量的10%左右。
而其余部分則可以稱作“非結(jié)構(gòu)化”或者說“質(zhì)化”數(shù)據(jù),而這部分數(shù)據(jù)在內(nèi)容上相當混亂。這類信息可能來自客戶調(diào)查、響應(yīng)記錄、在線論壇、社交媒體、文件、視頻、新聞報道、指向服務(wù)中心的通話以及由銷售團隊收集到的趨勢性論據(jù)等等。這類內(nèi)容通常以文本而非數(shù)字的形式存在,這就意味著其很難被“量化”,或者說轉(zhuǎn)化成數(shù)值形式。
這就產(chǎn)生了新的問題。雖然大部分分析工具都能夠?qū)崿F(xiàn)信息量化——換言之,也就是數(shù)字處理——但非結(jié)構(gòu)化數(shù)據(jù)當中通常包含大量背景信息,這意味著企業(yè)需要找到適合的理解角度才能讓這些信息產(chǎn)生價值。
“數(shù)據(jù)帶來的問題往往要比結(jié)論更多,而我們總是需要就定性數(shù)據(jù)趨勢背后的‘為什么’作出一番證明。”Forrester調(diào)查公司分析師Anjali Lai指出。“如果在架空背景之下進行數(shù)據(jù)分析,那我們往往無法把握事情的全貌。而定性數(shù)據(jù)則能夠提供這一必要的背景視角?!?/span>
想象一下,大家所在的公司希望理解為什么在線銷售額度一直無法達到預期。要解決這個問題,大家可以斥資購置昂貴的營銷分析工具,從而獲得用戶在各頁面上的平均瀏覽時間或者用戶取消購物車內(nèi)容的比例等基于行為的重要數(shù)據(jù)。不過即使擁有大量此類數(shù)據(jù),我們?nèi)匀晃幢啬軌蛟凇盀槭裁础边@道方程題中得出正確的答案。
“大家可能很清楚,自己的網(wǎng)站每天擁有一萬名訪問者——這就是定性數(shù)據(jù),”YouEye公司首席產(chǎn)品官Collin Sebastian指出,這是一家專門針對定性數(shù)據(jù)設(shè)計軟件與服務(wù)產(chǎn)品的企業(yè)?!岸ㄐ詳?shù)據(jù)能夠告訴我們,其中有四千名訪客對于特定產(chǎn)品類型很感興趣,他們希望了解什么、哪些內(nèi)容屬于意外情況,他們又會選擇哪些產(chǎn)品作為替代選項等?!?/span>
定性數(shù)據(jù)的重要意義絕不僅限于確定數(shù)據(jù)點之間的關(guān)聯(lián)性,例如告訴我們哪些訪客在網(wǎng)站上停留的時間更長、購物的意愿更強烈。除此之外,定性數(shù)據(jù)還可以識別出因果關(guān)系,從而回答那些難以捉摸的“為什么”問題。訪客為什么會在我們的網(wǎng)站上耗費更長時間——這到底是因為網(wǎng)站內(nèi)容足夠精彩,還是單純因為我們設(shè)計的購物過程太過繁瑣?
“當前,每位CMO需要管理的信息儀表板平均達14套之多,”Sebastian表示?!斑@就是最為典型的分析癱瘓案例:我擁有1000萬個數(shù)據(jù)點,從17種不同的角度對我的問題作出審視——但我還是不具備能夠真正理解其涵義的必要背景信息?!?/span>
從歷史角度講,對定性數(shù)據(jù)的分析往往需要以手動方式進行——也就是屬于人力密集型工作?!拔覀兏静豢赡軉渭冊谑占綌?shù)據(jù)之后向文件數(shù)據(jù)庫提交查詢,并指望著其返回一項可視化結(jié)果,”Booz Allen Hamilton公司首席數(shù)據(jù)科學家Kirk Borne解釋道。
定性數(shù)據(jù)分析的結(jié)果一般會被限制在特定范圍當中,但這種狀況目前已經(jīng)開始扭轉(zhuǎn)。除了市面上開始出現(xiàn)更多專門針對定性工具設(shè)計的工具及軟件包之外,我們還擁有了“越來越多理想的定性數(shù)據(jù)向量化數(shù)據(jù)轉(zhuǎn)換的途徑,并能夠借此讓定性分析在定性數(shù)據(jù)當中充分發(fā)揮潛能,”Borne指出。
YouEye是一款利用視頻與音頻記錄用戶同客戶網(wǎng)站內(nèi)容、廣告或其它素材交互流程的在線工具。一般來講,每次調(diào)查所選取的用戶數(shù)量會在50位到300位之間,具體取決于客戶要求。視頻利用人工編碼、自然語言處理及機器學習等機制進行轉(zhuǎn)錄與編碼。在處理接近尾聲時,客戶能夠得到一份包含強調(diào)部分的調(diào)查結(jié)果。
舉例來說,如果客戶是一家咖啡供應(yīng)商,“我們會通過產(chǎn)品互動情況匯總出一套包含強調(diào)部分的調(diào)查報告,其中突出體現(xiàn)了每一次客戶提到其它競爭對手的情況,”Sebastian表示?!斑@樣大家就能立即對客戶流失狀況作出因果分析——而這顯然并不是定性數(shù)據(jù)能夠?qū)崿F(xiàn)的效果?!?/span>
QSR International是另一家利用定制化軟件專門處理定性數(shù)據(jù)的企業(yè),其NVivo產(chǎn)品已經(jīng)為Gallup所采用。除了廣為人知的全國民調(diào)服務(wù)之外,Gallup也以咨詢方的身份幫助企業(yè)了解客戶關(guān)系當中的情感狀況,而這自然會涉及到大量定性數(shù)據(jù)。
“一部分關(guān)鍵性研究問題需要單獨通過定性方式處理,其中包括客戶為什么會主動疏離或者對供應(yīng)商的服務(wù)表現(xiàn)出冷漠態(tài)度,乃至其在體驗客戶服務(wù)過程當中表現(xiàn)出的動機與思維過程,”Gallup研究與策略顧問Ilana Ron-Levey指出?!爱斘覀兣c企業(yè)建立合作關(guān)系之后,定性數(shù)據(jù)能夠幫助我們了解到特定觀點的廣泛性,同時也是我們了解其背后特定規(guī)律及分布含義的關(guān)鍵所在,”她解釋道。
Gallup方面還利用一系列技術(shù)手段評估客戶心態(tài)。舉例來說,在最近一個B2B項目當中,Gallup方面就面對面采訪了100多位高級客戶,并以客戶參與度為核心 收集到了大量定性與量化數(shù)據(jù),Ron-Levey表示。該團隊還利用NVivo以及微軟Excel手動編碼的方式對定性數(shù)據(jù)進行分析。
有了這些分析結(jié)果,Gallup利用定性響應(yīng)以統(tǒng)計方式解釋了影響客戶參與度的諸多因素。其利用定性數(shù)據(jù)描述了這些因素如果驅(qū)動客戶的所見內(nèi)容及感受。以此為基礎(chǔ),“我們收集到了多種能夠切實提高不同類型客戶參與度的執(zhí)行策略,”她表示。
在軟件當中處理定性數(shù)據(jù)通常需要為其賦予數(shù)值形式,例如為特定定性響應(yīng)或者評論分配一個數(shù)值等級或者分值。比如在情緒分析當中,研究人員通常會利用一個正值或者負值來表示定性數(shù)據(jù),而后再分配另一個數(shù)值來描述這種情緒的具體強度,Born指出。
文本分析包括以定性方式——例如議題模型及熱圖——對文本信息的內(nèi)容進行總結(jié),而自然語言與語義處理技術(shù)則能夠從語音當中提取出真實含義——包括書面與口頭兩類。
將定性數(shù)據(jù)轉(zhuǎn)化成量化形式可能會涉及到一些主觀決策?!斑@是一大挑戰(zhàn),但其中同時也充滿了機遇,”Borne指出?!罢Z言當中包含著大量微妙且復雜的內(nèi)容,我們可以將其提取出來進行深度理解,從而更加準確地把握其含義?!?/span>
QSR的NVivo產(chǎn)品中已經(jīng)采用了一系列算法,能夠通過常用詞匯或者句型對數(shù)據(jù)進行分析。有了大量可視化工具,我們能夠更加輕松地解讀數(shù)據(jù)內(nèi)容——包括關(guān)鍵字云與樹狀圖。
“這讓我們能夠以強大且可靠的可視化角度獲取觀點及其深層原因,”QSR公司CEO John Owen表示。
定性數(shù)據(jù)收集工作往往相當費時,需要研究人員擁有高超的技巧并建立起和諧的關(guān)系,從而降低對受訪者意見的理解偏差,效力于Gallup的Ron-Levey指出。
“作為一項長期被低估甚至忽視的重要技能,定性數(shù)據(jù)研究人員需要擁有移情能力,”Forrester公司的Lai表示贊同?!岸壳暗臓顩r是,定性研究人員往往單純依靠編程而非深入考量背景信息或者潛臺詞的方式進行數(shù)據(jù)分析?!?/span>
處理數(shù)據(jù)并確保研究模型切實生效同樣不是件簡單的事。大家可能需要從無到有對一整套量化數(shù)據(jù)集進行規(guī)范化處理,但這項任務(wù)在面對定性數(shù)據(jù)時會變得非常艱難,Borne指出。
“標準統(tǒng)計測試往往會對假設(shè)甲與假設(shè)乙進行比對,但對于同時包含多種理解方式的定性數(shù)據(jù)來說,這樣的直接假設(shè)根本無法生效,”他進一步解釋稱。
而從分析的角度出發(fā),理解方式在推廣過程中往往會超出樣本數(shù)據(jù)集的涵蓋范圍,Ron-Levey提醒道。
不過值得肯定的是,妥善打理定性數(shù)據(jù)確實能夠帶來令人欣慰的回報。
“在大數(shù)據(jù)時代之下,我們開始不斷探索數(shù)字背后所隱藏的真正意義,”Ron-Levey表示。“通過這種方式了解人們的感受、動機以及觀點將幫助企業(yè)建立起創(chuàng)新成果與新的運營戰(zhàn)略,從而吸引到更多客戶的關(guān)注?!?/span>
Forrester公司的Lai亦表示,“定性與量化觀點可以說是客戶情緒認知工作中的‘陰與陽’兩面,只有將二者結(jié)合起來,才能真正得到與消費者行為相關(guān)的完整結(jié)論。”
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10