
大數(shù)據(jù)何以成為“主義”
數(shù)據(jù)者,有廣義與狹義之分。狹義的數(shù)據(jù),就是數(shù)字或數(shù)值,如1、2、3、4、5??;廣義的數(shù)據(jù),則可概括為人類觀察、實(shí)驗(yàn)、計(jì)算等的記錄。
作為這些記錄的符號,或數(shù)字,或文字,或圖像,或音視頻,從上古時(shí)代的結(jié)繩記事、楔形文字、甲骨文,到古代乃至現(xiàn)代以竹簡、布帛、羊皮、紙張等為載體的圖文,直至現(xiàn)在以比特為單位的電子信息,可謂無所不包。
也許,正是由于互聯(lián)網(wǎng)技術(shù)工程師們習(xí)慣于把以電子信息方式存在的內(nèi)容統(tǒng)稱為“數(shù)據(jù)”,于是,“數(shù)據(jù)”一詞便由狹義的“數(shù)字”或“數(shù)值”演變?yōu)橹饕赶蛲ㄓ玫膹V義“數(shù)據(jù)”。
隨著計(jì)算機(jī)、互聯(lián)網(wǎng)、現(xiàn)代通信以及相關(guān)軟硬件技術(shù)的飛速發(fā)展,大數(shù)據(jù)和云計(jì)算,如同一枚硬幣不可分離的兩面,成為我們這個(gè)時(shí)代的高頻詞。
大數(shù)據(jù)之大,不僅大在巨量或海量——由人們熟知的千字節(jié)(KB)、兆(MB)、千兆(GB)和太字節(jié)(TB),躍升為專業(yè)人士才了解的拍字節(jié) (PB)、艾字節(jié)(EB)、澤字節(jié)(ZB),乃至堯字節(jié)(YB)。 (1KB=1024B,1MB=1024KB,1GB=1024MB,1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB,1YB=1024ZB)。
其中,不變的是基本單位B,即比特或字節(jié),而從K到Y(jié),則是成千倍的遞增,以致有人據(jù)此宣稱,目前的數(shù)據(jù)計(jì)算已經(jīng)進(jìn)入“PB時(shí)代”。
大數(shù)據(jù)之大,還大在數(shù)據(jù)結(jié)構(gòu)的有容乃大——它不再需要傳統(tǒng)的數(shù)據(jù)庫表格來整齊排列,幾乎可以無所不包地記錄、存儲和計(jì)算各種規(guī)則的結(jié)構(gòu)化數(shù)據(jù)和不規(guī)則的非結(jié)構(gòu)化數(shù)據(jù),于是,便有了逐步演變?yōu)橐粋€(gè)數(shù)字化世界的可能。
如此龐大和復(fù)雜的數(shù)據(jù),遠(yuǎn)遠(yuǎn)超出傳統(tǒng)計(jì)算機(jī)的處理能力,于是,建立在互聯(lián)網(wǎng)基礎(chǔ)上的云計(jì)算技術(shù)應(yīng)運(yùn)而生,承擔(dān)起存儲、傳輸、計(jì)算和應(yīng)用大數(shù)據(jù)的重任。而正是大數(shù)據(jù)與云計(jì)算的有效互動,打開了世界觀、方法論乃至價(jià)值觀的新視野。
在本書中,作者引用專業(yè)研究機(jī)構(gòu)的統(tǒng)計(jì),揭示了大數(shù)據(jù)的規(guī)模與速度:一方面,到2014年,全世界電子化數(shù)據(jù)已增至4.4ZB,即4.4億萬億 字節(jié),如果將如此之巨的信息量存入只有7.5毫米厚的蘋果平板電腦,后者疊加起來的厚度可達(dá)地球與月球間距離的2/3;另一方面,有史以來90%的數(shù)據(jù) 量,都是在過去兩年的時(shí)間里產(chǎn)生的。
由此不難預(yù)期,一個(gè)電子化的、獨(dú)立于物質(zhì)世界的“數(shù)字世界”,正在大數(shù)據(jù)和云計(jì)算的互動中迅速構(gòu)建,它雖然不可能窮盡物質(zhì)世界全部存在,越來越逼近物質(zhì)世界本體卻是不爭的事實(shí)。
尤為值得注意的是,許許多多以往被閑置的數(shù)據(jù),由于一些精明商家的開發(fā)和利用,開始“變廢為寶”。一個(gè)耳熟能詳?shù)陌咐?,就是那個(gè)“尿片+啤酒” 的商業(yè)發(fā)現(xiàn)與行動。世界最大零售商沃爾瑪通過大數(shù)據(jù)統(tǒng)計(jì)和分析發(fā)現(xiàn),男性顧客在購買嬰兒尿片時(shí),常常會順便買上幾瓶啤酒,于是推出將啤酒和尿片捆綁銷售的 促銷方式,從而有效地提高了啤酒銷量。
凡此種種表明,如同宇宙大爆炸般飛速擴(kuò)張的“數(shù)字世界”,不僅日益成為外在的客觀物質(zhì)世界的“鏡像”,而且正在越來越多地包含對人類自身行為的追蹤和記錄,成為人類觀察和認(rèn)識自我的“鏡子”。
二者的疊加,形成一個(gè)有趣的悖論:由大數(shù)據(jù)構(gòu)筑而成的數(shù)字世界,在日趨脫離客觀物質(zhì)世界的同時(shí),又越來越接近世界的本原。因此,人們在解碼這樣一個(gè)虛擬世界的同時(shí),也在一定程度上改變著對世界的看法。
然而,就在哲學(xué)家們對數(shù)字世界的屬性還沒有來得及給出明確界定之際,為利益所驅(qū)動的商家們卻迫不及待地啟動了對這一新礦藏的發(fā)掘。
它們是如此急切:還沒來得及弄清兩個(gè)相關(guān)現(xiàn)象之間的互動機(jī)理或因果關(guān)系,便急匆匆地將其中的商機(jī)轉(zhuǎn)化為提升經(jīng)濟(jì)效益的手段;云計(jì)算技術(shù)剛剛出現(xiàn),便迅速地將統(tǒng)計(jì)分析對象由隨機(jī)采樣拓展為可獲取的全部數(shù)據(jù);為尋求“大數(shù)據(jù)的高效率”,不惜置“小數(shù)據(jù)的精確度”于不顧??
回過頭來看,正是這近乎“饑不擇食”的匆忙,竟在無意中成就了認(rèn)識數(shù)字世界的鎖鑰:不再執(zhí)著于因果關(guān)聯(lián),不再滿足于抽樣分析,不再一味地追求精 確度的提高,轉(zhuǎn)而直面模糊與混雜,關(guān)注看似不相關(guān)的相關(guān)現(xiàn)象。這一系列有別于以往的方法,為人類認(rèn)識世界、解決問題提供了傳統(tǒng)工具箱中沒有的新工具。
誠如史蒂夫.洛爾在本書中的比喻,這些大數(shù)據(jù)時(shí)代的新工具,猶如“望遠(yuǎn)鏡”和“顯微鏡”。“望遠(yuǎn)鏡”讓人們看得更遠(yuǎn),發(fā)現(xiàn)新的星系;“顯微鏡”則將比細(xì)胞更加微小的世界展示在人們面前,人們據(jù)此看到并計(jì)量之前一無所知的事物。
拋開學(xué)術(shù)和技術(shù)層面的研討,大數(shù)據(jù)及其應(yīng)用幾乎與生俱來就伴隨了喋喋不休的爭論。
其中有兩個(gè)關(guān)鍵詞,一是“開放”,一是“保護(hù)”。如果說開放就是要打破壟斷分割,推動信息與數(shù)據(jù)互聯(lián)互通;變革體制機(jī)制,實(shí)現(xiàn)數(shù)據(jù)資源共有共 享;鼓勵技術(shù)創(chuàng)新,促進(jìn)大數(shù)據(jù)資源開發(fā)利用??最大限度地拓展數(shù)字世界“公共空間”,讓大數(shù)據(jù)和云計(jì)算普惠大眾,造福人類;那么保護(hù)則意味著要在數(shù)字世界 為個(gè)人留下一方“私密領(lǐng)地”,或者為公權(quán)力畫上一道不能逾越的“紅線”——“風(fēng)可進(jìn),雨可進(jìn),國王不能進(jìn)”。
開放與保護(hù),“公共空間”與“私密領(lǐng)地”,在這里構(gòu)成既對立又統(tǒng)一的關(guān)系。對立在開放與保護(hù)“井水不犯河水”,統(tǒng)一在“公共空間”與“私密領(lǐng)地”共存于同一個(gè)數(shù)字世界,且雙方都以對方的存在為自身存在的證據(jù),正所謂沒有“公”即沒有“私”,沒有“私”亦沒有“公”。
一言以蔽之,數(shù)字世界與現(xiàn)實(shí)世界理應(yīng)奉行同樣的價(jià)值理念:該開放的一定要最大限度開放,該保護(hù)的必須嚴(yán)格加以保護(hù)。
本書向讀者展示了這樣一幅圖景:不管你自覺還是不自覺,樂意還是不樂意,大數(shù)據(jù)正以空前的速度和規(guī)模滲透到人類社會生活的方方面面,它在一定程 度上已經(jīng)和正在改變?nèi)藗冇^察、認(rèn)識、思考乃至生存與發(fā)展的方式。特別是這后一方面的變化,或許就是“大數(shù)據(jù)”之所以成為“主義”的原因。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11