
大數(shù)據(jù)三問:大數(shù)據(jù)“熱”的冷思考
大數(shù)據(jù)概念的形成和發(fā)酵,在當(dāng)今社會(huì)引發(fā)了人們無限的遐想和期待,也受到普遍的歡迎和推崇,甚至有人不斷編造出關(guān)于大數(shù)據(jù)無所不能的種種現(xiàn)代神話。這種令不少人癲狂、著迷的東西是否真的“法力無邊”,我們不妨試發(fā)三問。
大數(shù)據(jù)的特點(diǎn)在“大”,是否越大越好?
回答是不一定。
人類對(duì)世界的認(rèn)識(shí),首先是感知信息。但問題在于,人類許多方面的感知能力卻不如普通動(dòng)物,比如人的嗅覺不如狗,聽覺不如貓,視覺不如鷹等等。
難道高級(jí)動(dòng)物竟然比不上低等動(dòng)物?顯然不是。奧秘在于人類相對(duì)普通動(dòng)物而言,長(zhǎng)處在思維。思維之花乃是生物進(jìn)化的杰作,人類憑借思維之利器,便可以通過科學(xué)技術(shù)手段,根據(jù)需要延長(zhǎng)自身的器官,最后實(shí)現(xiàn)各方面能力都遠(yuǎn)在一般動(dòng)物之上。在此過程中,關(guān)鍵是計(jì)算機(jī)技術(shù)的發(fā)展,得以替代人的部分邏輯思維,能夠進(jìn)行大規(guī)模數(shù)據(jù)的快速處理,從而使得我們?cè)诿鎸?duì)大數(shù)據(jù)時(shí),不至于心懷畏懼。
20世紀(jì)以來科技領(lǐng)域看起來碩果累累,但真正具有顛覆性意義的發(fā)現(xiàn)卻如鳳毛麟角,甚至不及19世紀(jì)。問題何在?數(shù)字化的數(shù)據(jù)固然有利于從中發(fā)現(xiàn)規(guī)律,但這類數(shù)據(jù)在整個(gè)大數(shù)據(jù)庫中所占份額極小,何況還有一個(gè)魚龍混雜問題。至于那些尚未數(shù)字化的數(shù)據(jù),尤其是那些似是而非、眾說紛紜的數(shù)據(jù),顯然并非越多越好。
事實(shí)上,就人類認(rèn)識(shí)而言,也有減材加工與增材加工兩種方式。毛澤東在《實(shí)踐論》中所說的去粗取精、去偽存真、由此及彼、由表及里的認(rèn)識(shí)過程,其實(shí)就是講的真理性認(rèn)識(shí)有增有減的過程。當(dāng)年第谷觀察天象,所做工作就是增加數(shù)據(jù);而開普勒總結(jié)天體運(yùn)行規(guī)律,所做工作則屬刪繁就簡(jiǎn)。如果說數(shù)據(jù)的增加意味著真理性認(rèn)識(shí)的增加,那么數(shù)據(jù)的減少則意味著真理性認(rèn)識(shí)的深化和升華,何嘗不值得我們同樣為之喝彩?
大數(shù)據(jù) 的亮點(diǎn)在“數(shù)”,是否萬物皆數(shù)?
回答是不可能。
數(shù)字的發(fā)明,是人類抽象思維能力發(fā)展的產(chǎn)物。而發(fā)現(xiàn)數(shù)字之間的某些關(guān)聯(lián),曾經(jīng)更使人類欣喜若狂,畢達(dá)哥拉斯甚至據(jù)此作出了“萬物皆數(shù)”的斷言。大數(shù)據(jù)之所以吸引人們眼球,噱頭就在“數(shù)”上,似乎一切化歸于數(shù),就可萬事大吉,適合數(shù)字化生存的時(shí)代要求了。
應(yīng)該看到,世界在演化的進(jìn)程中,特別是生命體和人類社會(huì)誕生后,正負(fù)二分的表征法就變得越來越不適用了,無論是模擬仿真技術(shù)的興起,還是復(fù)雜化方法的運(yùn)用,都說明這種建立在非此即彼的認(rèn)識(shí)論基礎(chǔ)上的進(jìn)位法,其實(shí)是形而上學(xué)思維方式在信息時(shí)代的反映。
由此可見,所謂的數(shù)據(jù)其實(shí)有兩類,一類是可以實(shí)現(xiàn)數(shù)字化的數(shù)據(jù),人類可以輕而易舉地將它的處理任務(wù)付之電腦,進(jìn)而從中發(fā)現(xiàn)規(guī)律、把握規(guī)律。而另一類不可數(shù)字化或者說很難實(shí)現(xiàn)數(shù)字化的數(shù)據(jù),則還是必須依靠人腦的判斷與解讀。1948年美國(guó)的“驢象”之爭(zhēng)中,蓋洛普的配額抽樣方法以及其他民意調(diào)查機(jī)構(gòu)之所以遭遇“滑鐵盧慘敗”,就是因?yàn)檫^于迷信數(shù)據(jù),而這種建立在數(shù)字基礎(chǔ)上的所謂“科學(xué)”方法,其實(shí)經(jīng)實(shí)踐檢驗(yàn)后被發(fā)現(xiàn)并不科學(xué)。過去這些年來,定量評(píng)估在世界各地盛行,人們動(dòng)輒以各式各類指標(biāo)體系肢解復(fù)雜事物和系統(tǒng),最后鬧出許多笑話,正說明現(xiàn)代的數(shù)字崇拜照樣是此路不通。
大數(shù)據(jù)的基點(diǎn)在“據(jù)”,是否據(jù)實(shí)逼真?
回答是不見得。
信息技術(shù)的推廣應(yīng)用同樣是一把雙刃劍,它在為人們提供無限便利的同時(shí),也為數(shù)據(jù)造假及其傳播洞開了方便之門。據(jù)《環(huán)球科學(xué)》2014年12月載文,生物科技風(fēng)投資本家有一個(gè)經(jīng)驗(yàn)法則:一半公開發(fā)表的科研成果都無法復(fù)制,這還是最樂觀的估計(jì)。2012年,生物科技公司安進(jìn)發(fā)現(xiàn),在關(guān)于癌癥研究的53項(xiàng)重大成果中,只有6項(xiàng)可被復(fù)制。稍早前,拜耳制藥公司的一個(gè)團(tuán)隊(duì)重新開展了67篇有重要影響的論文所做過的實(shí)驗(yàn),最終成功的卻只有四分之一。本世紀(jì)最初10年,應(yīng)用于臨床的研究專利大約有8萬份被撤銷,因?yàn)樗鼈兌际清e(cuò)誤的。
面對(duì)如此龐大的虛假數(shù)據(jù),你還會(huì)相信大數(shù)據(jù)即未來石油的神話嗎?美國(guó)科學(xué)計(jì)量學(xué)家普賴斯曾在上世紀(jì)50年代就得出科學(xué)知識(shí)呈指數(shù)增長(zhǎng)的結(jié)論,其依據(jù)是各國(guó)期刊文獻(xiàn)的數(shù)量增長(zhǎng)。此后,有關(guān)知識(shí)爆炸的說法甚囂塵上?,F(xiàn)在回頭看,普賴斯的判斷未免草率,因?yàn)槠诳墨I(xiàn)數(shù)量與人類知識(shí)量顯然是不能畫等號(hào)的,否則就會(huì)得出撤銷某些期刊就是限制知識(shí)增長(zhǎng)的荒唐結(jié)論。
總之,科學(xué)的發(fā)展在深刻改變?nèi)祟惿a(chǎn)生活方式的同時(shí),也制造了許多令人目不暇接的神話。當(dāng)泥沙俱下且呈雪崩式的大數(shù)據(jù)襲來時(shí),我們更應(yīng)保持一個(gè)清醒的頭腦,用中國(guó)的古訓(xùn)來說,就是要防止以目廢心。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03