
大數(shù)據(jù)將把人類帶進怎樣的新世界
近20年來,大數(shù)據(jù)浪潮一波波向世人撲面而來。有人形容,大數(shù)據(jù)就像一片無邊無際的大海,海面一浪高過一浪,而浪潮之下深不見底。
大數(shù)據(jù)的核心口號是量化世界,量化世界為創(chuàng)構(gòu)世界奠定了基礎(chǔ)。在大數(shù)據(jù)的基礎(chǔ)上,物數(shù)據(jù)化和數(shù)據(jù)物化構(gòu)成循環(huán)。這是因為,物數(shù)據(jù)化事實上就是物信息化,數(shù)據(jù)物化實質(zhì)上就是信息物化。隨著現(xiàn)代信息技術(shù)的發(fā)展,創(chuàng)構(gòu)活動及其產(chǎn)物與人的存在方式越來越密切地聯(lián)系在一起。
這里涉及一個新的重要概念:信息。在控制論創(chuàng)始人維納看來,“信息就是信息,既不是物質(zhì)也不是能量”。這個定義看上去像是同義反復(fù),卻富有深意。比如,物能復(fù)制成本呈正比增加,而信息復(fù)制的邊際成本遞減;物能越分享越少,而信息越共享越多。信息的這些重要性質(zhì),在作為樣本數(shù)據(jù)的小數(shù)據(jù)時,顯示不出重要性;而在大數(shù)據(jù)基礎(chǔ)上,則變得非同尋常。在大數(shù)據(jù)的基礎(chǔ)上,信息會對人類的文明發(fā)展產(chǎn)生極為重要的影響。
面對大數(shù)據(jù)打開的這扇大門,我們不能不深入思考:這將是怎樣的一扇門,又會把我們帶進一個怎樣的新世界?
■面對一張拍好的平面照片,再要換個角度去觀察已不太可能。大數(shù)據(jù)則幾乎保留了全緯度。面對大數(shù)據(jù),我們可以從不同的角度進行考察。作為樣本數(shù)據(jù),小數(shù)據(jù)是“殘缺”的。就像尼采說抽象的概念是“干枯的標本”,樣本數(shù)據(jù)和抽象概念的共同特點都是已經(jīng)“失活”了。而大數(shù)據(jù)意味著活數(shù)據(jù)(動態(tài)數(shù)據(jù))、全數(shù)據(jù)
■對于大數(shù)據(jù)來說,信息是活的,是隨著時間而流動的。高速的數(shù)據(jù)流更能在時間上與現(xiàn)實過程同步,因而跟人類的生存密切聯(lián)系在一起。不僅如此,只有高速流動的數(shù)據(jù),才能提供無限的可能性。以往受速率限制,人們獲得的數(shù)據(jù)和所要反映的內(nèi)容往往脫節(jié),而數(shù)據(jù)流的高速率使我們把握對象的手段越來越完善
■有人提出,大數(shù)據(jù)的價值密度低,數(shù)據(jù)挖掘相當(dāng)于“沙里淘金”。其實,對于同一個結(jié)構(gòu)開放的大數(shù)據(jù),一些人可能視其為一堆垃圾,毫無意義;而在另一些人看來則會是一座寶庫,價值連城。大數(shù)據(jù)的價值和意義,很大程度上取決于人們的理解,取決于人們的眼光。歸根結(jié)底,取決于對人的需要及其發(fā)展的理解和把握
■信息文明的發(fā)展,是一個在大數(shù)據(jù)基礎(chǔ)上的公共信息對稱化過程。這就要求,為推動信息文明的發(fā)展,必須在公共領(lǐng)域盡可能消除信息不對稱。同時,為保持信息文明發(fā)展的動力,必須盡可能保護創(chuàng)新專利。這很可能是時代發(fā)展的必然趨勢。對此,人類社會應(yīng)當(dāng)提前進行思考,即如何避免新的社會不公平的出現(xiàn)
關(guān)于大數(shù)據(jù)的具體特征,可以用4個“V”來描述
在技術(shù)定義上,大數(shù)據(jù)最主要的一個著眼點是規(guī)模大。但是,大數(shù)據(jù)的關(guān)鍵性質(zhì)不主要是規(guī)模大,而是完全不同于作為樣本數(shù)據(jù)的小數(shù)據(jù)。通常,樣本數(shù)據(jù)的獲取總是會先設(shè)定明確甚至單一的目的。這種取樣,一方面可以更好地實現(xiàn)采樣前預(yù)設(shè)的目標,另一方面也抹去了其他的可能性。
大數(shù)據(jù)的另一個重要性質(zhì)是維度全。通常,我們拍照會選取一個角度。角度一取,數(shù)據(jù)就固定了。面對一張拍好的平面照片,再要換個角度去觀察已不太可能。大數(shù)據(jù)則幾乎保留了全緯度。面對大數(shù)據(jù),我們可以從不同的角度進行考察。作為樣本數(shù)據(jù),小數(shù)據(jù)是“殘缺”的。就像尼采說抽象的概念是“干枯的標本”,樣本數(shù)據(jù)和抽象概念的共同特點都是已經(jīng)“失活”了。而大數(shù)據(jù)意味著活數(shù)據(jù)(動態(tài)數(shù)據(jù))、全數(shù)據(jù)。
關(guān)于大數(shù)據(jù)的特征,最早是用3個V來概括的。幾年前,人們認為“3V”不足以描述大數(shù)據(jù)的特征,又提出了“4V”的描述,即volume、variety、velocity和value。
“volume”一般理解為大量。大數(shù)據(jù)首先意味著數(shù)據(jù)量巨大。小數(shù)據(jù)時代主要由人工創(chuàng)建數(shù)據(jù),大數(shù)據(jù)時代則由機器、網(wǎng)絡(luò)和人類相互作用生成。大量是大數(shù)據(jù)的基本特征,但往往被誤以為大數(shù)據(jù)就是大。事實上,這個特征所表達的是大數(shù)據(jù)規(guī)模的整全性。大數(shù)據(jù)的“大”不是純粹量的概念,關(guān)鍵是全,是一個質(zhì)的概念。
“variety”一般理解為多樣。這包括大數(shù)據(jù)來源的多樣性和類型的多樣性,也包括數(shù)據(jù)結(jié)構(gòu)的多樣性。由于數(shù)據(jù)結(jié)構(gòu)的多樣性和復(fù)雜性,大數(shù)據(jù)的這一特征還意味著數(shù)據(jù)結(jié)構(gòu)的開放性。舉例來說,大自然可以滿足人類的生存需要,但我們面對大自然時的作為很有限。而大數(shù)據(jù)不一樣,在以人類需要為出發(fā)點的大數(shù)據(jù)挖掘中,人類可以在這一個無限空間中進行滿足自己需要的創(chuàng)構(gòu)。
“velocity”一般理解為高速。它不僅僅是指技術(shù)設(shè)備的數(shù)據(jù)處理速度,更重要的是指實時數(shù)據(jù)流。樣本數(shù)據(jù)在取樣后就是凍結(jié)的,而大數(shù)據(jù)可以實時獲取所需信息。對于大數(shù)據(jù)來說,信息是活的,是隨著時間而流動的。正因為如此,對于實時數(shù)據(jù)流來說,速率就特別重要。高速的數(shù)據(jù)流更能在時間上與現(xiàn)實過程同步,因而跟人類的生存更密切地聯(lián)系在一起。不僅如此,只有高速流動的數(shù)據(jù),才能提供無限的可能性。以往受速率限制,人們獲得的數(shù)據(jù)和所要反映的內(nèi)容往往是脫節(jié)的,而數(shù)據(jù)流的高速率使我們把握對象的手段越來越完善。
“value”用以描述大數(shù)據(jù)的價值。大數(shù)據(jù)價值特征的重要性不言自明,但大數(shù)據(jù)也十分復(fù)雜。據(jù)此有人提出,大數(shù)據(jù)的價值密度低,數(shù)據(jù)挖掘相當(dāng)于“沙里淘金”。其實,對于同一個結(jié)構(gòu)開放的大數(shù)據(jù),一些人可能視其為一堆垃圾,毫無意義;而在另一些人看來則會是一座寶庫,價值連城。大數(shù)據(jù)的價值和意義,很大程度上取決于人們的理解,取決于人們的眼光。歸根結(jié)底,取決于對人的需要及其發(fā)展的理解和把握。
顯然,這是一個典型的哲學(xué)課題。隨著大數(shù)據(jù)的發(fā)展,不僅哲學(xué)等各學(xué)科會越來越相互融合,而且將迎來哲學(xué)與科學(xué)、社會和生活一體化發(fā)展的時代。
沃爾瑪?shù)膬蓚€案例,開啟大數(shù)據(jù)應(yīng)用廣闊前景
大數(shù)據(jù)究竟是垃圾還是寶庫,涉及的是大數(shù)據(jù)的應(yīng)用問題。換句話說,既然大家都認為大數(shù)據(jù)是個好東西,是個有用的東西,那它到底該怎么使用呢?
就目前而言,大數(shù)據(jù)應(yīng)用仍然是一個重要而前沿的話題。其中,大數(shù)據(jù)中的相關(guān)關(guān)系和因果關(guān)系,是大數(shù)據(jù)應(yīng)用和分析研究中的重要問題。大數(shù)據(jù)凸顯了相關(guān)關(guān)系的巨大魅力,同時也構(gòu)成了對傳統(tǒng)因果觀念的沖擊。
跨國零售企業(yè)沃爾瑪“啤酒和尿布”的故事,就是人們津津樂道的大數(shù)據(jù)應(yīng)用的一個經(jīng)典案例。沃爾瑪在大數(shù)據(jù)基礎(chǔ)上,用“購物籃方法”分析消費者購物行為時發(fā)現(xiàn),一些男性顧客在購買嬰兒尿布時,常常會同時買幾瓶啤酒。原來,美國家庭生了小孩,一般是母親在家照顧孩子、父親外出采購。而年輕父親在購買尿布時,常常會順便給自己買上幾瓶啤酒,既解乏又喜慶。由此,沃爾瑪推出啤酒和尿布擺在一起的促銷方式,吸引了更多有這種需要的顧客前來購物,尿布和啤酒的銷量都得到大幅增加。
大數(shù)據(jù)相關(guān)關(guān)系在類似行業(yè)的成功應(yīng)用,使一些人提出還要不要深究因果關(guān)系的問題。一些極端的觀點甚至認為,大數(shù)據(jù)是關(guān)于“是什么”而不是“為什么”的;大數(shù)據(jù)會自己說話,因而只要相關(guān)關(guān)系不要因果關(guān)系。這種觀點顯然是興奮于大數(shù)據(jù)令人驚嘆的實用性。但理性來看,大數(shù)據(jù)不僅把握相關(guān)關(guān)系,而且把握作為其根基的因果關(guān)系。
“蛋撻和手電筒”就是一個典型的例子。與“啤酒和尿布”案例一樣,沃爾瑪?shù)拇髷?shù)據(jù)表明,很多人在買手電筒的同時還會購買蛋撻。因而,根據(jù)這一消費相關(guān)性,沃爾瑪決定在貨架上把這兩種產(chǎn)品擺放在一起。但是,如果知道其背后的因果關(guān)系,相關(guān)銷售效果顯然會更好。有人發(fā)現(xiàn),人們同時購買手電筒和蛋撻的因果關(guān)系涉及北美颶風(fēng)。原來,颶風(fēng)來臨前人們既需要準備手電筒,又需要準備食物。不過,北美颶風(fēng)是季節(jié)性風(fēng)暴,如果只知道相關(guān)關(guān)系而不知道因果關(guān)系,就可能一直把手電筒和蛋撻這兩類不同商品放在同一貨架上。而知道背后的因果關(guān)系后,就可以在颶風(fēng)來臨前把蛋撻和手電筒放在一起,而且還可專設(shè)颶風(fēng)用品區(qū)域。這樣一來,銷量顯然會大為增加。
可見,只要相關(guān)關(guān)系、不要因果關(guān)系的觀點,很容易駁倒。其實,真正關(guān)鍵的問題不在于是相關(guān)關(guān)系還是因果關(guān)系哪個更加重要,而在于怎么理解相關(guān)性和因果性之間的關(guān)系。
一般來說,傳統(tǒng)因果觀僅反映日常生活和經(jīng)典物理學(xué)中因果關(guān)系的表觀現(xiàn)象。這樣的因果模型,不僅不能理解大數(shù)據(jù)的相關(guān)關(guān)系,而且不能建立起大數(shù)據(jù)相關(guān)關(guān)系和因果關(guān)系的關(guān)聯(lián)。只有把原因看作因素相互作用的過程,把結(jié)果看作因素相互作用過程的效應(yīng),才能擴展對因果關(guān)系的理解,從而適用于大數(shù)據(jù)相關(guān)關(guān)系和因果關(guān)系問題的認識。由此建立起來的新因果模型具有內(nèi)容豐富的結(jié)構(gòu),呈現(xiàn)出因果模型的過去時態(tài)、進行時態(tài)和未來時態(tài)。它不僅有利于人們理解凝固的因果關(guān)系,而且在人們面前敞開了創(chuàng)構(gòu)未來的廣闊空間。顯然,這種新的因果關(guān)系與現(xiàn)實社會更加接近。
人類將更多與信息打交道,而不是傳統(tǒng)的物能
如果把以往的文明形態(tài)都看作物能文明的話,那人類社會發(fā)展到大數(shù)據(jù)時代所迎來的,則是一種不同于物能文明的信息文明。作為一種與物能文明相平行的文明形態(tài),信息文明是一種基于信息本性的共享文明。在大數(shù)據(jù)的基礎(chǔ)上,信息的共享本性可以充分展開。
而且,信息文明的發(fā)展,是一個在大數(shù)據(jù)基礎(chǔ)上的公共信息對稱化過程。這就要求,為推動信息文明的發(fā)展,必須在公共領(lǐng)域盡可能消除信息不對稱。同時,為保持信息文明發(fā)展的動力,必須盡可能保護創(chuàng)新專利。
作為一種人類文明,信息文明是一種基于信息機制的役物文明。在信息文明時代,人類通過信息控制物能,進而使物質(zhì)通過結(jié)構(gòu)的調(diào)整,由一種對人類不那么有價值的材料變成價值更大的材料,從一種不太能滿足人的需要的形態(tài)變成一種更能滿足人的需要的形態(tài),使能量從難以利用的形態(tài)變成更容易獲得和利用的形態(tài)。由此,人類活動更多是直接與信息打交道,而不是傳統(tǒng)的與物能打交道。
作為人類文明發(fā)展的更高階段,信息文明還是一種基于信息創(chuàng)構(gòu)的人性文明。不僅對物能的控制達到全社會甚至全人類實現(xiàn)“物為人役”的水平,使人類活動從以描述認識為主進入到以創(chuàng)構(gòu)認識為主,而且也意味著全面解放創(chuàng)造力,即人性獲得越來越高水平的解放。
大數(shù)據(jù)打開了信息文明大門,也將釋放一系列新的重要問題。這些重大的問題,既涉及個人生活,也涉及社會發(fā)展。
一是信息生態(tài)問題。由于人越來越以信息方式存在,信息生態(tài)理所當(dāng)然成為一個越來越重要的基礎(chǔ)性問題。對人類來說,自然生態(tài)或者說物能生態(tài)具有切身性,而信息生態(tài)不僅具有切身性還更具“切心性”,更切近人的心靈。因此,在自然生態(tài)的基礎(chǔ)上,信息生態(tài)將日益為人所密切關(guān)注,成為信息文明時代關(guān)乎人類發(fā)展的問題。
二是人的存在意義問題。沒有物能就沒有信息的存在,物能存在是基礎(chǔ)。但在信息文明時代,如果一個人仍然主要以物能方式存在,仍然以基于物能的感官享受作為生活意義的主要來源,仍然主要滯留于物能存在方式,那很可能將成為無意義的人群。
在信息文明時代,人類的活動主要是信息活動。只有主要以信息方式存在,并且以創(chuàng)構(gòu)活動作為自己主要活動方式的人,才能進入意義生產(chǎn)的領(lǐng)域。在這個意義上,信息文明的確意味著一種分化:相對無意義的人群和生產(chǎn)意義的人群。這很可能是信息文明時代發(fā)展的必然趨勢。對此,人類社會應(yīng)當(dāng)提前進行思考,即如何避免新的社會不公平的出現(xiàn)。
三是國家的發(fā)展問題。從人類社會發(fā)展史可以看到這樣一個重要事實:一個大國的真正崛起,通常要引領(lǐng)一種新的文明。信息文明時代的到來,必定伴隨著大國的新崛起,不管是現(xiàn)實的還是潛在的大國。在21世紀,中國要和平發(fā)展、成為真正的世界大國,有必要在引領(lǐng)信息文明上發(fā)力。
總之,如果不能夠引領(lǐng)信息文明發(fā)展,一個國家就不可能真正實現(xiàn)大國崛起。在這個過程中,國家的興衰與個人的生存發(fā)展不僅聯(lián)系在一起,而且構(gòu)成相互依存、協(xié)同發(fā)展的循環(huán)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03