
大數(shù)據(jù),小數(shù)據(jù),哪道才是你的菜
美國(guó)著名科技?xì)v史學(xué)家梅爾文?克蘭茲伯格(Melvin Kranzberg),曾提出過(guò)大名鼎鼎的科技六定律,其中第三條定律是這樣的[1]:“技術(shù)是總是配“套”而來(lái)的,但這個(gè)“套”有大有小(Technology comes in packages, big and small)”。
這個(gè)定律用在當(dāng)下,是非常應(yīng)景的。因?yàn)椋覀冋饺胍粋€(gè)“大數(shù)據(jù)(big data)”時(shí)代,但對(duì)于以往的“小數(shù)據(jù)(small data)”,我們能做到“事了拂衣去,深藏身與名”嗎?答案顯然不是。目前,大數(shù)據(jù)的前途似乎“星光燦爛”,但小數(shù)據(jù)的價(jià)值依然“風(fēng)采無(wú)限”??颂m茲伯格的第三定律是告訴我們,新技術(shù)和老技術(shù)的自我革新演變,是交織在一起的。大數(shù)據(jù)和小數(shù)據(jù),他們“配套而來(lái)”,共同勾畫(huà)數(shù)據(jù)技術(shù)(Data Technology,DT)時(shí)代的未來(lái)。
對(duì)大數(shù)據(jù)的“溢美之詞”,已被舍恩伯格教授、涂子沛先生等先行者及其追隨者夸得泛濫成災(zāi)。但正如您所知,任何事情都有兩面性。在眾人都贊大數(shù)據(jù)很好的時(shí)候,我們也需說(shuō)道說(shuō)道大數(shù)據(jù)可能面臨的陷阱,只是為了讓大數(shù)據(jù)能走得更穩(wěn)。當(dāng)在大數(shù)據(jù)的光暈下,漸行漸遠(yuǎn)漸無(wú)小數(shù)據(jù)時(shí),我們也聊聊小數(shù)據(jù)之美,為的是“大小并行,不可偏廢”。大有大的好,小有小的妙,如同一桌菜,哪道才是你的愛(ài)?思量三番再下筷。
下文部分就是供讀者“思量”的材料,主要分為4個(gè)部分:(1)哪個(gè)V才是大數(shù)據(jù)最重要的特征?在這一部分里,我們聊聊大數(shù)據(jù)的4V特征中,哪個(gè)V才是大數(shù)據(jù)最貼切的特征,這是整個(gè)文章的行文基礎(chǔ)。(2)大數(shù)據(jù)的力量與陷阱。在這一部分,我們聊聊大數(shù)據(jù)整體的力量之美及可能面臨的3個(gè)陷阱。(3)今日王謝堂前燕,暫未飛入百姓家,在這一部分,我們要說(shuō)明,大數(shù)據(jù)雖然很火,但我們用數(shù)據(jù)發(fā)聲,用事實(shí)說(shuō)話,大數(shù)據(jù)真的沒(méi)有那么普及,小數(shù)據(jù)目前還是主流。(4)你若安好,便是晴天。在這一部分,我們說(shuō)說(shuō)的小數(shù)據(jù)之美,如果用“n=all”來(lái)代表大數(shù)據(jù),那么就可以用“n=me”來(lái)說(shuō)明小數(shù)據(jù)(這里n表示數(shù)據(jù)大?。?,我們將會(huì)看到,小數(shù)據(jù)更是關(guān)系到我們的切身利益。
1.哪個(gè)V才是大數(shù)據(jù)最重要的特征?
在談及大數(shù)據(jù)時(shí),人們通常用4V來(lái)描述其特征,即4個(gè)以V為首字母的英文:Volume(大量)、Variety(多樣)、Velocity(速快)及Value(價(jià)值)。如果 “閑來(lái)無(wú)事”,我們非要對(duì)這4個(gè)V在“兵器譜”上排排名,哪個(gè)才是大數(shù)據(jù)的貼切的特征呢?下面我們簡(jiǎn)要地說(shuō)道說(shuō)道,力圖說(shuō)出點(diǎn)新意,分析的結(jié)果或許會(huì)出乎您的意料之外。
1.1 “大”有不同——Volume(大量)
首先我們來(lái)說(shuō)說(shuō)大數(shù)據(jù)的第一個(gè)V——Volume(大量)。雖然數(shù)據(jù)規(guī)模巨大且持續(xù)保持高速增長(zhǎng),通常作為大數(shù)據(jù)的第一個(gè)特征。但事實(shí)上,早在20年前,在當(dāng)時(shí)的IT環(huán)境下,天文、氣象、高能物理、基因工程等領(lǐng)域的科研數(shù)據(jù)量,已是這些領(lǐng)域無(wú)法承受的“體積”之痛,當(dāng)時(shí)實(shí)時(shí)計(jì)算的難度不比現(xiàn)在小,因?yàn)槟菚r(shí)的存儲(chǔ)計(jì)算能力差,亦沒(méi)有成熟的云計(jì)算架構(gòu)和充分的計(jì)算資源。
況且,“大”本身就是一個(gè)相對(duì)的概念,數(shù)據(jù)的大與小,通常都打著很強(qiáng)的時(shí)代烙印。為了說(shuō)明這個(gè)觀點(diǎn),讓我們先回顧一下比爾?蓋茨的經(jīng)典“錯(cuò)誤”預(yù)測(cè)。
早在1981年,作為當(dāng)時(shí)的IT精英,比爾?蓋茨曾預(yù)測(cè)說(shuō),“640KB的內(nèi)存對(duì)每個(gè)人都應(yīng)該足夠了(640KB ought to be enough for anybody)”。但30多年后的今天,很多人都會(huì)笑話蓋茨,這么聰明的人,怎么會(huì)預(yù)測(cè)地如此不靠譜,現(xiàn)在隨便一個(gè)智能手機(jī)(或筆記本電腦)的內(nèi)存的大小都是4GB、8GB的。
但是,需要注意的事實(shí)是,在1981年,當(dāng)時(shí)的個(gè)人計(jì)算機(jī)(PC)是基于英特爾CPU 8088芯片的,這種CPU是基于8/16位(bit)混合構(gòu)架的處理器,因此,640KB已經(jīng)是這類CPU所能支持的尋址空間的理論極限(64KB)的 10倍[2],換句話說(shuō),640K在當(dāng)時(shí)是非常非常地龐大了!再回到現(xiàn)在,當(dāng)前PC機(jī)的CPU基本都是64bit的,其理論支持的尋址空間是2^64,而現(xiàn)在的4G內(nèi)存,僅僅是理論極限的(2^32)/(2^64)= 1/(2^32)而!。
在這里,講這個(gè)小故事的原因在于,衡量數(shù)據(jù)大小,不能脫離時(shí)代背景,不能脫離行業(yè)特征。此外,大數(shù)據(jù)布道者舍恩伯格教授在其著作《大數(shù)據(jù)時(shí)代》中指出[3],大數(shù)據(jù)在某種程度上,可理解為“全數(shù)據(jù)(即n=all)”。有時(shí),一個(gè)所謂的“全”數(shù)據(jù)庫(kù),并不需要有以TB/PB計(jì)的數(shù)據(jù)。在有些案例中,某個(gè)“全”數(shù)據(jù)庫(kù)大小,可能還不如一張普通的僅有幾個(gè)兆字節(jié)(MB)數(shù)碼照片大,但相對(duì)于以前的“部分”數(shù)據(jù),這個(gè)只有幾個(gè)兆字節(jié)(MB)大小的“全”數(shù)據(jù),就是大數(shù)據(jù)。故此,大數(shù)據(jù)之“大”,取義為相對(duì)意義,而非絕對(duì)意義。
這樣看來(lái),互聯(lián)網(wǎng)巨頭的PB級(jí)數(shù)據(jù),可算是大數(shù)據(jù),幾個(gè)MB的全數(shù)據(jù)也可算是大數(shù)據(jù),如此一來(lái),大數(shù)據(jù)之“大”——“大”有不同,可大可小,如此不“靠譜”,反而不能算作大數(shù)據(jù)最貼切的特征。
1.2 數(shù)據(jù)共征——“Velocity(快速)”與“Value(價(jià)值)”
英特爾中國(guó)研究院院長(zhǎng)吳甘沙先生曾指出,大數(shù)據(jù)的特征“Velocity(快速)”,猶如“天下武功,唯快不破”一樣,要講究個(gè)“快”字。為什么要“快”?因?yàn)闀r(shí)間就是金錢。如果說(shuō)價(jià)值是分子,那么時(shí)間就是分母,分母越小,單位價(jià)值就越大。面臨同樣大的數(shù)據(jù)“礦山”,“挖礦”效率是競(jìng)爭(zhēng)優(yōu)勢(shì)。
不過(guò),青年學(xué)者周濤教授卻認(rèn)為[4],1秒鐘算出來(lái)根本就不是大數(shù)據(jù)的特征,因?yàn)椤八愕迷娇煸胶谩?,是人類自打有?jì)算這件事情以來(lái),就沒(méi)有變化過(guò),而現(xiàn)在,卻把它作為一個(gè)新時(shí)代的主要特征,完全是無(wú)稽之談。筆者也更傾向于這個(gè)說(shuō)法,把一個(gè)計(jì)算上的“通識(shí)”要求,算作一個(gè)新生事物的特征,確實(shí)欠妥。
類似不妥的還有大數(shù)據(jù)的另外一個(gè)特征——Value(價(jià)值)。事實(shí)上,“數(shù)據(jù)即價(jià)值”的價(jià)值觀古來(lái)有之。例如,在《孫子兵法?始計(jì)篇》中,早就有這樣的論斷“多算勝,少算不勝,而況于無(wú)算乎?”此處 “算”,乃算籌也,也就是計(jì)數(shù)用的籌碼,它講得就是,如何利用數(shù)字,來(lái)估計(jì)各種因素,從而做出決策。
在馬陵之戰(zhàn)中,孫臏通過(guò)編造“齊軍入魏地為十萬(wàn)灶,明日為五萬(wàn)灶,又明日為三萬(wàn)灶(史記·孫子吳起列傳)”的數(shù)據(jù),利用龐涓的數(shù)據(jù)分析習(xí)慣,反其道而用之,對(duì)龐涓實(shí)施誘殺。
話說(shuō)還有一個(gè)關(guān)于林彪將軍的段子(真假不可考),在遼沈戰(zhàn)役中,林大將軍通過(guò)分析繳獲的短槍與長(zhǎng)槍比例、繳獲和擊毀小車與大車比例,以及俘虜和擊斃的軍官與士兵的比例“異常”,因此得出結(jié)論,敵人的指揮所就在附近!果不其然,通過(guò)追擊從胡家窩棚逃走的那部分?jǐn)橙?,活捉?guó)民黨主帥新六軍軍長(zhǎng)廖耀湘。
在戰(zhàn)場(chǎng)上,大數(shù)據(jù)的價(jià)值——就是輔助決策來(lái)獲勝。還有一點(diǎn)值得注意的是,在上面的案例中,戰(zhàn)場(chǎng)上的數(shù)據(jù),神機(jī)妙算的軍師們,都能“掐指一算”——這顯然屬于十足的小數(shù)據(jù)!但網(wǎng)上卻流傳有很多諸如“林彪也玩大數(shù)據(jù)”、“跟著林彪學(xué)習(xí)大數(shù)據(jù)”等類似的文章,這就純屬扯淡了。如果凡是有點(diǎn)數(shù)據(jù)分析思維的案例,都?xì)w屬于大數(shù)據(jù)的話,那大數(shù)據(jù)的案例,古往今來(lái),可真是數(shù)不勝數(shù)了
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11