
大數(shù)據(jù)三問:大數(shù)據(jù)“熱”的冷思考
大數(shù)據(jù)概念的形成和發(fā)酵,在當(dāng)今社會引發(fā)了人們無限的遐想和期待,也受到普遍的歡迎和推崇,甚至有人不斷編造出關(guān)于大數(shù)據(jù)無所不能的種種現(xiàn)代神話。這種令不少人癲狂、著迷的東西是否真的“法力無邊”,我們不妨試發(fā)三問。
大數(shù)據(jù)的特點在“大”,是否越大越好?
回答是不一定。
人類對世界的認(rèn)識,首先是感知信息。但問題在于,人類許多方面的感知能力卻不如普通動物,比如人的嗅覺不如狗,聽覺不如貓,視覺不如鷹等等。
難道高級動物竟然比不上低等動物?顯然不是。奧秘在于人類相對普通動物而言,長處在思維。思維之花乃是生物進(jìn)化的杰作,人類憑借思維之利器,便可以通過科學(xué)技術(shù)手段,根據(jù)需要延長自身的器官,最后實現(xiàn)各方面能力都遠(yuǎn)在一般動物之上。在此過程中,關(guān)鍵是計算機(jī)技術(shù)的發(fā)展,得以替代人的部分邏輯思維,能夠進(jìn)行大規(guī)模數(shù)據(jù)的快速處理,從而使得我們在面對大數(shù)據(jù)時,不至于心懷畏懼。
20世紀(jì)以來科技領(lǐng)域看起來碩果累累,但真正具有顛覆性意義的發(fā)現(xiàn)卻如鳳毛麟角,甚至不及19世紀(jì)。問題何在?數(shù)字化的數(shù)據(jù)固然有利于從中發(fā)現(xiàn)規(guī)律,但這類數(shù)據(jù)在整個大數(shù)據(jù)庫中所占份額極小,何況還有一個魚龍混雜問題。至于那些尚未數(shù)字化的數(shù)據(jù),尤其是那些似是而非、眾說紛紜的數(shù)據(jù),顯然并非越多越好。
事實上,就人類認(rèn)識而言,也有減材加工與增材加工兩種方式。毛澤東在《實踐論》中所說的去粗取精、去偽存真、由此及彼、由表及里的認(rèn)識過程,其實就是講的真理性認(rèn)識有增有減的過程。當(dāng)年第谷觀察天象,所做工作就是增加數(shù)據(jù);而開普勒總結(jié)天體運行規(guī)律,所做工作則屬刪繁就簡。如果說數(shù)據(jù)的增加意味著真理性認(rèn)識的增加,那么數(shù)據(jù)的減少則意味著真理性認(rèn)識的深化和升華,何嘗不值得我們同樣為之喝彩?
大數(shù)據(jù) 的亮點在“數(shù)”,是否萬物皆數(shù)?
回答是不可能。
數(shù)字的發(fā)明,是人類抽象思維能力發(fā)展的產(chǎn)物。而發(fā)現(xiàn)數(shù)字之間的某些關(guān)聯(lián),曾經(jīng)更使人類欣喜若狂,畢達(dá)哥拉斯甚至據(jù)此作出了“萬物皆數(shù)”的斷言。大數(shù)據(jù)之所以吸引人們眼球,噱頭就在“數(shù)”上,似乎一切化歸于數(shù),就可萬事大吉,適合數(shù)字化生存的時代要求了。
應(yīng)該看到,世界在演化的進(jìn)程中,特別是生命體和人類社會誕生后,正負(fù)二分的表征法就變得越來越不適用了,無論是模擬仿真技術(shù)的興起,還是復(fù)雜化方法的運用,都說明這種建立在非此即彼的認(rèn)識論基礎(chǔ)上的進(jìn)位法,其實是形而上學(xué)思維方式在信息時代的反映。
由此可見,所謂的數(shù)據(jù)其實有兩類,一類是可以實現(xiàn)數(shù)字化的數(shù)據(jù),人類可以輕而易舉地將它的處理任務(wù)付之電腦,進(jìn)而從中發(fā)現(xiàn)規(guī)律、把握規(guī)律。而另一類不可數(shù)字化或者說很難實現(xiàn)數(shù)字化的數(shù)據(jù),則還是必須依靠人腦的判斷與解讀。1948年美國的“驢象”之爭中,蓋洛普的配額抽樣方法以及其他民意調(diào)查機(jī)構(gòu)之所以遭遇“滑鐵盧慘敗”,就是因為過于迷信數(shù)據(jù),而這種建立在數(shù)字基礎(chǔ)上的所謂“科學(xué)”方法,其實經(jīng)實踐檢驗后被發(fā)現(xiàn)并不科學(xué)。過去這些年來,定量評估在世界各地盛行,人們動輒以各式各類指標(biāo)體系肢解復(fù)雜事物和系統(tǒng),最后鬧出許多笑話,正說明現(xiàn)代的數(shù)字崇拜照樣是此路不通。
大數(shù)據(jù)的基點在“據(jù)”,是否據(jù)實逼真?
回答是不見得。
信息技術(shù)的推廣應(yīng)用同樣是一把雙刃劍,它在為人們提供無限便利的同時,也為數(shù)據(jù)造假及其傳播洞開了方便之門。據(jù)《環(huán)球科學(xué)》2014年12月載文,生物科技風(fēng)投資本家有一個經(jīng)驗法則:一半公開發(fā)表的科研成果都無法復(fù)制,這還是最樂觀的估計。2012年,生物科技公司安進(jìn)發(fā)現(xiàn),在關(guān)于癌癥研究的53項重大成果中,只有6項可被復(fù)制。稍早前,拜耳制藥公司的一個團(tuán)隊重新開展了67篇有重要影響的論文所做過的實驗,最終成功的卻只有四分之一。本世紀(jì)最初10年,應(yīng)用于臨床的研究專利大約有8萬份被撤銷,因為它們都是錯誤的。
面對如此龐大的虛假數(shù)據(jù),你還會相信大數(shù)據(jù)即未來石油的神話嗎?美國科學(xué)計量學(xué)家普賴斯曾在上世紀(jì)50年代就得出科學(xué)知識呈指數(shù)增長的結(jié)論,其依據(jù)是各國期刊文獻(xiàn)的數(shù)量增長。此后,有關(guān)知識爆炸的說法甚囂塵上?,F(xiàn)在回頭看,普賴斯的判斷未免草率,因為期刊文獻(xiàn)數(shù)量與人類知識量顯然是不能畫等號的,否則就會得出撤銷某些期刊就是限制知識增長的荒唐結(jié)論。
總之,科學(xué)的發(fā)展在深刻改變?nèi)祟惿a(chǎn)生活方式的同時,也制造了許多令人目不暇接的神話。當(dāng)泥沙俱下且呈雪崩式的大數(shù)據(jù)襲來時,我們更應(yīng)保持一個清醒的頭腦,用中國的古訓(xùn)來說,就是要防止以目廢心。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11