
大數(shù)據(jù)從業(yè)者是怎么談大數(shù)據(jù)分析的
我談?wù)剬?/span>大數(shù)據(jù)分析的理解,這要從什么是大數(shù)據(jù)講起。
因為從事這一方向,經(jīng)常會有人問我什么是大數(shù)據(jù)?我一直都回答不好。在最近的幾個月,我對這一概念思考的更多一些,結(jié)合看過的一些書籍(如《大數(shù)據(jù)時代》、《數(shù)學(xué)之美》第二版等)和實際的經(jīng)歷,算是有了一些認識,今天我就從大數(shù)據(jù)的概念開始講起,試圖給大家講清楚什么是大數(shù)據(jù)分析。
首先,我來談?wù)勎覍Υ髷?shù)據(jù)的理解,分為大數(shù)據(jù)概念和大數(shù)據(jù)思維。
我把大數(shù)據(jù)的概念總結(jié)為四個字:大、全、細、時。
我們先來看一組數(shù)據(jù):
百度每天采集的用戶行為數(shù)據(jù)有1.5PB以上
全國各地級市今天的蘋果價格數(shù)據(jù)有2MB
1998年Google抓取的互聯(lián)網(wǎng)頁面共有47GB(壓縮后)
一臺風力發(fā)電機每天產(chǎn)生的振動數(shù)據(jù)有50GB
百度每天的行為數(shù)據(jù)1.5個PB夠大吧?我們毫無懷疑這是大數(shù)據(jù)。但全國各個地級市今天的蘋果價格只有2MB大小,是典型的小數(shù)據(jù)吧?但如果我們基于這個數(shù)據(jù),做一個蘋果分銷的智能調(diào)度系統(tǒng),這就是個牛逼的大數(shù)據(jù)應(yīng)用了。Google在剛成立的時候,佩奇和布林下載了整個互聯(lián)網(wǎng)的頁面,在壓縮后也就47GB大小,現(xiàn)在一個U盤都能裝的下,但Google搜索顯然是個大數(shù)據(jù)的應(yīng)用。如果再來看一臺風機每天的振動數(shù)據(jù)可能都有50GB,但這個數(shù)據(jù)只是針對這一臺風機的,并不能從覆蓋面上,起到多大的作用,這我認為不能叫大數(shù)據(jù)。
這里就是在強調(diào)大,是Big不是Large,我們強調(diào)的是抽象意義的大。
我們再來看關(guān)于美國大選的三次事件:
2012年Nate Silver通過互聯(lián)網(wǎng)采集社交、新聞數(shù)據(jù),預(yù)測大選結(jié)果
《文學(xué)文摘》所收集的問卷有240萬,絕對是夠大的,但為什么預(yù)測錯誤了呢?當時《文學(xué)文摘》是通過電話調(diào)查的,能夠裝電話的就是一類富人,這類人本身就有不同的政治傾向,調(diào)查的結(jié)果本身就是偏的。而蓋洛普只收集了5萬人的意見,但是他采用按照社會人群按照比例抽樣,然后匯集總體結(jié)果,反而預(yù)測正確了。因為這次預(yù)測,蓋洛普一炮而紅,現(xiàn)在成了一個著名的調(diào)研公司。當然,后來蓋洛普也有預(yù)測失敗的時候。到了2012年,一個名不見經(jīng)傳的人物Nate Silver通過采集網(wǎng)上的社交、新聞數(shù)據(jù),這是他預(yù)測的情況和真實的情況:
兩者是驚人的接近的。
從這點我是想強調(diào)要全量而不是抽樣,大數(shù)據(jù)時代有了更好的數(shù)據(jù)采集手段,讓獲取全量數(shù)據(jù)成為可能。
在2013年9月,百度知道發(fā)布了一份《中國十大吃貨省市排行榜》,在關(guān)于“××能吃嗎?”的問題中,寧夏網(wǎng)友最關(guān)心“螃蟹能吃嗎?”內(nèi)蒙古、新疆和西藏的人最關(guān)心“蘑菇能吃嗎?”浙江、廣東、福建、四川等地網(wǎng)友問得最多的是“××蟲能吃嗎?”而江蘇以及上海、北京等地則最愛問“××的皮能不能吃?”。下圖是全國各地關(guān)心的食物:
用戶在問什么能吃嗎的時候,并不會說“我來自寧夏,我想知道螃蟹能吃嗎”,而是會問“螃蟹能吃嗎”,但是服務(wù)器采集到了用戶的IP地址,而通過IP地址就能知道他所在的省份。這就是數(shù)據(jù)多維度的威力,如果沒有IP這個維度,這個分析就不好辦了。而現(xiàn)有的采集手段,能夠讓我們從多個維度獲取數(shù)據(jù),再進行后續(xù)分析的時候,就能對這些維度加以利用,就是“細”。
我們現(xiàn)在對CPI已經(jīng)不再陌生,是居民消費價格指數(shù)(consumer price index)的簡稱。我們努力工作,起碼要跑過CPI。
那你有了解過CPI是怎么統(tǒng)計的嗎?這里包括兩個階段,一個是收集商品價格數(shù)據(jù),一個是分析并發(fā)布數(shù)據(jù)。我從百度百科上了解到,中國CPI采樣500多個市縣,采價調(diào)查點6.3萬個,近4000名采價員,次月中旬發(fā)布報告。我還曾找國家統(tǒng)計局的朋友確認了這個事情。
而在美國有一家創(chuàng)業(yè)公司叫Premise Data。它通過眾包方式,25000個采價員(學(xué)生、收銀員、司機等),使用手機APP采集數(shù)據(jù),每條6~40美分,比美國政府數(shù)據(jù)提前4~6周發(fā)布。
這就是“時”,強調(diào)實時收集數(shù)據(jù)和實時分析數(shù)據(jù)。當然,在CPI的例子中,我們可以讓價格上報更智能一些,不需要人工的方式。
從上面的大、全、細、時四個字,我們就可以對大數(shù)據(jù)的概念有個較為清晰的認識。這四點主要強調(diào)的數(shù)據(jù)的獲取和規(guī)模上,和以往傳統(tǒng)數(shù)據(jù)時代的差異。有了這個基礎(chǔ),我們還要看怎么對大數(shù)據(jù)加以利用。這里就要看看大數(shù)據(jù)思維。我們也來看兩個例子。
85前應(yīng)該都用過智能ABC,一種古老的輸入法,打起來特別慢。到了2002年左右,出了一個叫紫光的輸入法,當時我就震驚了。真的輸入很快,仿佛你的按鍵還沒按下去,字就已經(jīng)跳出來了。但漸漸的發(fā)現(xiàn)紫光拼音有個問題是許多新的詞匯它沒有。后來有了搜狗輸入法,直接基于搜索的用戶搜索記錄,去抽取新的詞庫,準實時的更新用戶本地的詞庫數(shù)據(jù),因為有了大量的輸入數(shù)據(jù),就能直接識別出最可能的組合。
我們以前都用紙質(zhì)的地圖,每年還要買新的,舊的地址可能會過時,看著地圖你絕對不知道哪里堵車。但有了百度地圖就不一樣了,我們上面搜索的地址都是及時更新的,雖然偶爾也會有被帶到溝里的情況,但畢竟是少數(shù)??梢詫崟r的看到路面堵車情況,并且可以規(guī)劃防擁堵路線。
我們想想這種做事方式和以前有和不同?
我們發(fā)現(xiàn)不是在拍腦袋做決定了,不是通過因果關(guān)系或者規(guī)則來決定該怎么辦了,而是直接通過數(shù)據(jù)要答案。我們獲取的數(shù)據(jù)越全面,越能消除更多的不確定性。也就是用數(shù)據(jù)說話,數(shù)據(jù)驅(qū)動。
在百度文化的29條中,我第二認可的一條就是“用數(shù)據(jù)說話”,數(shù)據(jù)有時候也會欺騙人,但大部分時候它還是客觀冷靜的,不帶有感情色彩。據(jù)說在硅谷用數(shù)據(jù)說話都是一種很自然的工作習慣,但你放眼望去你周圍,你會發(fā)現(xiàn)許多沒有數(shù)據(jù)的例子,拍腦袋的,拼嗓門的,拼關(guān)系的,拼職位的,這一點都不科學(xué)。
那我們再來看看互聯(lián)網(wǎng)領(lǐng)域的數(shù)據(jù)驅(qū)動。許多公司的情況是這樣的:
不管是運營、產(chǎn)品、市場、老板,都通過數(shù)據(jù)工程師老王獲取數(shù)據(jù),老王忙的痛不欲生。但數(shù)據(jù)需求方都對數(shù)據(jù)獲取的速度很不滿意,有的等不及,還是決定拍腦袋了。這樣極大的阻礙的迭代的速度。
還有的公司情況是這樣的:
對老板來說,有個儀表盤還不錯,終于知道公司的總體運營情況了,可以基于總體情況做決策了。但如果發(fā)現(xiàn)某天的銷售額下跌了20%,肯定是要安排下面的人追查的。對于實際干活的運營、產(chǎn)品同學(xué)來說,光看一個宏觀的指標是不夠的,解決不了問題,還要想辦法對數(shù)據(jù)進行多維度的分析,細粒度的下鉆,這是儀表盤解決不了的。
那么理想的數(shù)據(jù)驅(qū)動應(yīng)該是什么樣子的?應(yīng)該是人人都能夠自助式的數(shù)據(jù)分析,每個業(yè)務(wù)人員和數(shù)據(jù)之間,有一個強大的工具,而不是苦逼的老王?;蛘咧皇悄芸吹綌?shù)據(jù)的冰山一角。在數(shù)據(jù)源頭上,又可以獲取到全面的數(shù)據(jù)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機器學(xué)習訓(xùn)練中的異常診斷與解決方案 在機器學(xué)習模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11