
DT時代,如何進(jìn)行大規(guī)模信息分析
有時候,在進(jìn)行案頭分析的時候,你會獲得很多的數(shù)據(jù),來自于各個論壇,博客,朋友圈,這些數(shù)據(jù)并沒有經(jīng)過系統(tǒng)的整理,只是簡單地放在了一起,在論壇中,很多能夠反映用戶痛點的內(nèi)容分散地存在于吐槽的帖子中,其中有些問題被一再地重復(fù),沒有經(jīng)過整理。
這時候問題并不是在于缺乏信息,而是在于信息太多了。你知道有用的信息就在這里面,但是你卻沒有辦法從中把有用的信息提取出來。
在案頭研究階段,大規(guī)模的信息分析有時候是一個有利的武器,因為當(dāng)信息過多的時候,如果不通過計算機處理,那每個人只能看到信息中的一部分內(nèi)容,沒辦法把所有的信息都匯總在一起,呈現(xiàn)出信息的全局。 大規(guī)模信息分析能夠幫助需求研究者轉(zhuǎn)變視野,實現(xiàn)對案頭研究資料的鳥瞰,從更高的角度去理解案頭資料。我有一個師弟,當(dāng)年的畢業(yè)論文是研究國家政策對創(chuàng)新的態(tài)度,他的其中一個研究方法就是搜集了歷年國家政策文件,統(tǒng)計每一年文件中“創(chuàng)新”兩個字的出現(xiàn)次數(shù),并通過 圖表表現(xiàn)出這種頻次變化,從而展現(xiàn)出了一種新的觀察問題的維度。
你可能會覺得,大規(guī)模信息分析需要采用大數(shù)據(jù)分析技術(shù)。如果你有一個強大的技術(shù)合作團隊,的確可以使用一些大數(shù)據(jù)分析技術(shù),但是在絕大多數(shù)情況下,需求洞察其實并不需要特別強大的技術(shù)能力。
如果一點技術(shù)能力也沒有,的確很難處理這些信息,但對計算機來說,這點信息并不算什么,對人腦來說,除非你有一些簡化法則,否則這些信息足以讓你頭昏腦漲。為了處理這些信息,你可能需要學(xué)一些簡單的腳本語言,掌握一些基本的分析方法。
學(xué)習(xí)腳本語言,例如 Python,主要目的是為了能夠幫助編寫一些爬蟲程序,通過網(wǎng)絡(luò)定向爬取一些信息,然后運用這些信息進(jìn)行進(jìn)一步的深入分析。你不需要有特別高深的理論和實踐水平,只要你知道一些基本的方法,網(wǎng)上其實有大量的教程和源代碼示例,你只需要拿來稍作修改,基本上就能滿足需求。
關(guān)于分析方法,如果你或者你的公司專門是從事為企業(yè)提供基于數(shù)據(jù)分析的服務(wù),為了提高數(shù)據(jù)分析的價值,你可能需要用到很高深的人工智能、機器學(xué)習(xí)等等,可能需要掌握復(fù)雜的數(shù)學(xué)知識,但在研究用戶的痛點過程中,則沒有這么苛刻,不需要你具備編制出類似于 Google 開發(fā)的阿爾法狗這種能夠與世界冠軍下圍棋的分析程序。數(shù)學(xué)基礎(chǔ)好的確對分析很有幫助,但是并不是絕對的。事實上在作者實際工作中,分析方法主要還是使用中學(xué)數(shù)學(xué)所講授的那些內(nèi)容為主,比如多維交叉分析、漏斗分析或者留存率分析,這些分析方法中學(xué)生就能理解。分析中有時候也會用一些大學(xué)時學(xué)的數(shù)學(xué),不過用得比較少,基本上是一些數(shù)理統(tǒng)計方面的內(nèi)容。
大規(guī)模數(shù)據(jù)分析的難點并不在于技術(shù)的實現(xiàn),無論 IT技術(shù)還是分析技術(shù),這種分析方法的難點在于方案的構(gòu)思:
首先,你需要建立一個信息分析的框架模型,根據(jù)模型幫助你洞察 用戶需求。
其次,你需要知道為了能夠運行這個信息分析模型,你需要找到哪些數(shù)據(jù)。
第三,你需要知道如何找到這些數(shù)據(jù),并能夠按照要求整理好這些數(shù)據(jù)。
我曾經(jīng)做過一個項目是評價各個App的市場需求,其核心就是想知道在某段時間內(nèi)用戶對哪些 App 比較喜歡,哪些App會有爆發(fā)式需求的可能。
大家都會考慮采用應(yīng)用市場的下載排名來進(jìn)行分析,不過由于各個應(yīng)用市場都有推廣及刷榜的影響,可信度都會打折扣。所以,我設(shè)計了一套簡單的模型,對各大應(yīng)用市場的數(shù)據(jù)進(jìn)行加權(quán)處理,降低刷榜的影響——萬一有哪個 App 在所有應(yīng)用市場都刷榜呢,不過首先我覺得一般的 App 沒有這么大的手筆,另外如果這個 App 真的這么刷榜,的確說明這個 App 可能有爆發(fā)的潛質(zhì),用錢堆出來的爆發(fā)的潛質(zhì)。
除了應(yīng)用市場的數(shù)據(jù)加權(quán),我還把 App 的名稱作為關(guān)鍵詞,引入到 友盟、微博指數(shù)、百度指數(shù)進(jìn)行分析,體現(xiàn) App 在媒體公關(guān)等軟推廣上的營銷推廣價值。
最后,為了獲得以上數(shù)據(jù),我請了一個朋友。他花了一天時間幫我開發(fā)了一個爬蟲程序,每周都能夠從各大平臺按照要求把我所需要的數(shù)據(jù)從平臺上爬取下來,并進(jìn)行整理。這種自動化的方案讓整個項目的工作量成倍減少,從而使我有更多的精力聚焦在分析上,而不是聚焦在數(shù)據(jù)搜集和整理上。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07