
大數(shù)據(jù)何以成為“主義”
數(shù)據(jù)者,有廣義與狹義之分。狹義的數(shù)據(jù),就是數(shù)字或數(shù)值,如1、2、3、4、5??;廣義的數(shù)據(jù),則可概括為人類觀察、實(shí)驗(yàn)、計(jì)算等的記錄。
作為這些記錄的符號,或數(shù)字,或文字,或圖像,或音視頻,從上古時(shí)代的結(jié)繩記事、楔形文字、甲骨文,到古代乃至現(xiàn)代以竹簡、布帛、羊皮、紙張等為載體的圖文,直至現(xiàn)在以比特為單位的電子信息,可謂無所不包。
也許,正是由于互聯(lián)網(wǎng)技術(shù)工程師們習(xí)慣于把以電子信息方式存在的內(nèi)容統(tǒng)稱為“數(shù)據(jù)”,于是,“數(shù)據(jù)”一詞便由狹義的“數(shù)字”或“數(shù)值”演變?yōu)橹饕赶蛲ㄓ玫膹V義“數(shù)據(jù)”。
隨著計(jì)算機(jī)、互聯(lián)網(wǎng)、現(xiàn)代通信以及相關(guān)軟硬件技術(shù)的飛速發(fā)展,大數(shù)據(jù)和云計(jì)算,如同一枚硬幣不可分離的兩面,成為我們這個(gè)時(shí)代的高頻詞。
大數(shù)據(jù)之大,不僅大在巨量或海量——由人們熟知的千字節(jié)(KB)、兆(MB)、千兆(GB)和太字節(jié)(TB),躍升為專業(yè)人士才了解的拍字節(jié) (PB)、艾字節(jié)(EB)、澤字節(jié)(ZB),乃至堯字節(jié)(YB)。 (1KB=1024B,1MB=1024KB,1GB=1024MB,1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB,1YB=1024ZB)。
其中,不變的是基本單位B,即比特或字節(jié),而從K到Y(jié),則是成千倍的遞增,以致有人據(jù)此宣稱,目前的數(shù)據(jù)計(jì)算已經(jīng)進(jìn)入“PB時(shí)代”。
大數(shù)據(jù)之大,還大在數(shù)據(jù)結(jié)構(gòu)的有容乃大——它不再需要傳統(tǒng)的數(shù)據(jù)庫表格來整齊排列,幾乎可以無所不包地記錄、存儲和計(jì)算各種規(guī)則的結(jié)構(gòu)化數(shù)據(jù)和不規(guī)則的非結(jié)構(gòu)化數(shù)據(jù),于是,便有了逐步演變?yōu)橐粋€(gè)數(shù)字化世界的可能。
如此龐大和復(fù)雜的數(shù)據(jù),遠(yuǎn)遠(yuǎn)超出傳統(tǒng)計(jì)算機(jī)的處理能力,于是,建立在互聯(lián)網(wǎng)基礎(chǔ)上的云計(jì)算技術(shù)應(yīng)運(yùn)而生,承擔(dān)起存儲、傳輸、計(jì)算和應(yīng)用大數(shù)據(jù)的重任。而正是大數(shù)據(jù)與云計(jì)算的有效互動,打開了世界觀、方法論乃至價(jià)值觀的新視野。
在本書中,作者引用專業(yè)研究機(jī)構(gòu)的統(tǒng)計(jì),揭示了大數(shù)據(jù)的規(guī)模與速度:一方面,到2014年,全世界電子化數(shù)據(jù)已增至4.4ZB,即4.4億萬億 字節(jié),如果將如此之巨的信息量存入只有7.5毫米厚的蘋果平板電腦,后者疊加起來的厚度可達(dá)地球與月球間距離的2/3;另一方面,有史以來90%的數(shù)據(jù) 量,都是在過去兩年的時(shí)間里產(chǎn)生的。
由此不難預(yù)期,一個(gè)電子化的、獨(dú)立于物質(zhì)世界的“數(shù)字世界”,正在大數(shù)據(jù)和云計(jì)算的互動中迅速構(gòu)建,它雖然不可能窮盡物質(zhì)世界全部存在,越來越逼近物質(zhì)世界本體卻是不爭的事實(shí)。
尤為值得注意的是,許許多多以往被閑置的數(shù)據(jù),由于一些精明商家的開發(fā)和利用,開始“變廢為寶”。一個(gè)耳熟能詳?shù)陌咐?,就是那個(gè)“尿片+啤酒” 的商業(yè)發(fā)現(xiàn)與行動。世界最大零售商沃爾瑪通過大數(shù)據(jù)統(tǒng)計(jì)和分析發(fā)現(xiàn),男性顧客在購買嬰兒尿片時(shí),常常會順便買上幾瓶啤酒,于是推出將啤酒和尿片捆綁銷售的 促銷方式,從而有效地提高了啤酒銷量。
凡此種種表明,如同宇宙大爆炸般飛速擴(kuò)張的“數(shù)字世界”,不僅日益成為外在的客觀物質(zhì)世界的“鏡像”,而且正在越來越多地包含對人類自身行為的追蹤和記錄,成為人類觀察和認(rèn)識自我的“鏡子”。
二者的疊加,形成一個(gè)有趣的悖論:由大數(shù)據(jù)構(gòu)筑而成的數(shù)字世界,在日趨脫離客觀物質(zhì)世界的同時(shí),又越來越接近世界的本原。因此,人們在解碼這樣一個(gè)虛擬世界的同時(shí),也在一定程度上改變著對世界的看法。
然而,就在哲學(xué)家們對數(shù)字世界的屬性還沒有來得及給出明確界定之際,為利益所驅(qū)動的商家們卻迫不及待地啟動了對這一新礦藏的發(fā)掘。
它們是如此急切:還沒來得及弄清兩個(gè)相關(guān)現(xiàn)象之間的互動機(jī)理或因果關(guān)系,便急匆匆地將其中的商機(jī)轉(zhuǎn)化為提升經(jīng)濟(jì)效益的手段;云計(jì)算技術(shù)剛剛出現(xiàn),便迅速地將統(tǒng)計(jì)分析對象由隨機(jī)采樣拓展為可獲取的全部數(shù)據(jù);為尋求“大數(shù)據(jù)的高效率”,不惜置“小數(shù)據(jù)的精確度”于不顧??
回過頭來看,正是這近乎“饑不擇食”的匆忙,竟在無意中成就了認(rèn)識數(shù)字世界的鎖鑰:不再執(zhí)著于因果關(guān)聯(lián),不再滿足于抽樣分析,不再一味地追求精 確度的提高,轉(zhuǎn)而直面模糊與混雜,關(guān)注看似不相關(guān)的相關(guān)現(xiàn)象。這一系列有別于以往的方法,為人類認(rèn)識世界、解決問題提供了傳統(tǒng)工具箱中沒有的新工具。
誠如史蒂夫.洛爾在本書中的比喻,這些大數(shù)據(jù)時(shí)代的新工具,猶如“望遠(yuǎn)鏡”和“顯微鏡”。“望遠(yuǎn)鏡”讓人們看得更遠(yuǎn),發(fā)現(xiàn)新的星系;“顯微鏡”則將比細(xì)胞更加微小的世界展示在人們面前,人們據(jù)此看到并計(jì)量之前一無所知的事物。
拋開學(xué)術(shù)和技術(shù)層面的研討,大數(shù)據(jù)及其應(yīng)用幾乎與生俱來就伴隨了喋喋不休的爭論。
其中有兩個(gè)關(guān)鍵詞,一是“開放”,一是“保護(hù)”。如果說開放就是要打破壟斷分割,推動信息與數(shù)據(jù)互聯(lián)互通;變革體制機(jī)制,實(shí)現(xiàn)數(shù)據(jù)資源共有共 享;鼓勵技術(shù)創(chuàng)新,促進(jìn)大數(shù)據(jù)資源開發(fā)利用??最大限度地拓展數(shù)字世界“公共空間”,讓大數(shù)據(jù)和云計(jì)算普惠大眾,造福人類;那么保護(hù)則意味著要在數(shù)字世界 為個(gè)人留下一方“私密領(lǐng)地”,或者為公權(quán)力畫上一道不能逾越的“紅線”——“風(fēng)可進(jìn),雨可進(jìn),國王不能進(jìn)”。
開放與保護(hù),“公共空間”與“私密領(lǐng)地”,在這里構(gòu)成既對立又統(tǒng)一的關(guān)系。對立在開放與保護(hù)“井水不犯河水”,統(tǒng)一在“公共空間”與“私密領(lǐng)地”共存于同一個(gè)數(shù)字世界,且雙方都以對方的存在為自身存在的證據(jù),正所謂沒有“公”即沒有“私”,沒有“私”亦沒有“公”。
一言以蔽之,數(shù)字世界與現(xiàn)實(shí)世界理應(yīng)奉行同樣的價(jià)值理念:該開放的一定要最大限度開放,該保護(hù)的必須嚴(yán)格加以保護(hù)。
本書向讀者展示了這樣一幅圖景:不管你自覺還是不自覺,樂意還是不樂意,大數(shù)據(jù)正以空前的速度和規(guī)模滲透到人類社會生活的方方面面,它在一定程 度上已經(jīng)和正在改變?nèi)藗冇^察、認(rèn)識、思考乃至生存與發(fā)展的方式。特別是這后一方面的變化,或許就是“大數(shù)據(jù)”之所以成為“主義”的原因。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時(shí)代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時(shí)有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08