
大數(shù)據(jù)“熱”的冷思考 防止以目廢心
大數(shù)據(jù)概念的形成和發(fā)酵,在當今社會引發(fā)了人們無限的遐想和期待,也受到普遍的歡迎和推崇,甚至有人不斷編造出關(guān)于大數(shù)據(jù)無所不能的種種現(xiàn)代神話。這種令不少人癲狂、著迷的東西是否真的“法力無邊”,我們不妨試發(fā)三問。
一問:大數(shù)據(jù)的特點在“大”,是否越大越好?
回答是不一定。
人類對世界的認識,首先是感知信息。但問題在于,人類許多方面的感知能力卻不如普通動物,比如人的嗅覺不如狗,聽覺不如貓,視覺不如鷹等等。
難道高級動物竟然比不上低等動物?顯然不是。奧秘在于人類相對普通動物而言,長處在思維。思維之花乃是生物進化的杰作,人類憑借思維之利器,便可以通過科學(xué)技術(shù)手段,根據(jù)需要延長自身的器官,最后實現(xiàn)各方面能力都遠在一般動物之上。在此過程中,關(guān)鍵是計算機技術(shù)的發(fā)展,得以替代人的部分邏輯思維,能夠進行大規(guī)模數(shù)據(jù)的快速處理,從而使得我們在面對大數(shù)據(jù)時,不至于心懷畏懼。
20世紀以來科技領(lǐng)域看起來碩果累累,但真正具有顛覆性意義的發(fā)現(xiàn)卻如鳳毛麟角,甚至不及19世紀。問題何在?數(shù)字化的數(shù)據(jù)固然有利于從中發(fā)現(xiàn)規(guī)律,但這類數(shù)據(jù)在整個大數(shù)據(jù)庫中所占份額極小,何況還有一個魚龍混雜問題。至于那些尚未數(shù)字化的數(shù)據(jù),尤其是那些似是而非、眾說紛紜的數(shù)據(jù),顯然并非越多越好。
事實上,就人類認識而言,也有減材加工與增材加工兩種方式。毛澤東在《實踐論》中所說的去粗取精、去偽存真、由此及彼、由表及里的認識過程,其實就是講的真理性認識有增有減的過程。當年第谷觀察天象,所做工作就是增加數(shù)據(jù);而開普勒總結(jié)天體運行規(guī)律,所做工作則屬刪繁就簡。如果說數(shù)據(jù)的增加意味著真理性認識的增加,那么數(shù)據(jù)的減少則意味著真理性認識的深化和升華,何嘗不值得我們同樣為之喝彩?
二問:大數(shù)據(jù)的亮點在“數(shù)”,是否萬物皆數(shù)?
回答是不可能。
數(shù)字的發(fā)明,是人類抽象思維能力發(fā)展的產(chǎn)物。而發(fā)現(xiàn)數(shù)字之間的某些關(guān)聯(lián),曾經(jīng)更使人類欣喜若狂,畢達哥拉斯甚至據(jù)此作出了“萬物皆數(shù)”的斷言。大數(shù)據(jù)之所以吸引人們眼球,噱頭就在“數(shù)”上,似乎一切化歸于數(shù),就可萬事大吉,適合數(shù)字化生存的時代要求了。
應(yīng)該看到,世界在演化的進程中,特別是生命體和人類社會誕生后,正負二分的表征法就變得越來越不適用了,無論是模擬仿真技術(shù)的興起,還是復(fù)雜化方法的運用,都說明這種建立在非此即彼的認識論基礎(chǔ)上的進位法,其實是形而上學(xué)思維方式在信息時代的反映。
由此可見,所謂的數(shù)據(jù)其實有兩類,一類是可以實現(xiàn)數(shù)字化的數(shù)據(jù),人類可以輕而易舉地將它的處理任務(wù)付之電腦,進而從中發(fā)現(xiàn)規(guī)律、把握規(guī)律。而另一類不可數(shù)字化或者說很難實現(xiàn)數(shù)字化的數(shù)據(jù),則還是必須依靠人腦的判斷與解讀。1948年美國的“驢象”之爭中,蓋洛普的配額抽樣方法以及其他民意調(diào)查機構(gòu)之所以遭遇“滑鐵盧慘敗”,就是因為過于迷信數(shù)據(jù),而這種建立在數(shù)字基礎(chǔ)上的所謂“科學(xué)”方法,其實經(jīng)實踐檢驗后被發(fā)現(xiàn)并不科學(xué)。過去這些年來,定量評估在世界各地盛行,人們動輒以各式各類指標體系肢解復(fù)雜事物和系統(tǒng),最后鬧出許多笑話,正說明現(xiàn)代的數(shù)字崇拜照樣是此路不通。
三問:大數(shù)據(jù)的基點在“據(jù)”,是否據(jù)實逼真?
回答是不見得。
信息技術(shù)的推廣應(yīng)用同樣是一把雙刃劍,它在為人們提供無限便利的同時,也為數(shù)據(jù)造假及其傳播洞開了方便之門。據(jù)《環(huán)球科學(xué)》2014年12月載文,生物科技風(fēng)投資本家有一個經(jīng)驗法則:一半公開發(fā)表的科研成果都無法復(fù)制,這還是最樂觀的估計。2012年,生物科技公司安進發(fā)現(xiàn),在關(guān)于癌癥研究的53項重大成果中,只有6項可被復(fù)制。稍早前,拜耳制藥公司的一個團隊重新開展了67篇有重要影響的論文所做過的實驗,最終成功的卻只有四分之一。本世紀最初10年,應(yīng)用于臨床的研究專利大約有8萬份被撤銷,因為它們都是錯誤的。
面對如此龐大的虛假數(shù)據(jù),你還會相信大數(shù)據(jù)即未來石油的神話嗎?美國科學(xué)計量學(xué)家普賴斯曾在上世紀50年代就得出科學(xué)知識呈指數(shù)增長的結(jié)論,其依據(jù)是各國期刊文獻的數(shù)量增長。此后,有關(guān)知識爆炸的說法甚囂塵上?,F(xiàn)在回頭看,普賴斯的判斷未免草率,因為期刊文獻數(shù)量與人類知識量顯然是不能畫等號的,否則就會得出撤銷某些期刊就是限制知識增長的荒唐結(jié)論。
總之,科學(xué)的發(fā)展在深刻改變?nèi)祟惿a(chǎn)生活方式的同時,也制造了許多令人目不暇接的神話。當泥沙俱下且呈雪崩式的大數(shù)據(jù)襲來時,我們更應(yīng)保持一個清醒的頭腦,用中國的古訓(xùn)來說,就是要防止以目廢心。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08