
大數(shù)據(jù)何以成為主義
數(shù)據(jù)者,有廣義與狹義之分。狹義的數(shù)據(jù),就是數(shù)字或數(shù)值,如1、2、3、4、5……廣義的數(shù)據(jù),則可概括為人類觀察、實驗、計算等的記錄。作為這些記錄的符號,或數(shù)字,或文字,或圖像,或音視頻,從上古時代的結(jié)繩記事、楔形文字、甲骨文,到古代乃至現(xiàn)代以竹簡、布帛、羊皮、紙張等為載體的圖文,直至現(xiàn)在以比特為單位的電子信息,可謂無所不包。
也許,正是由于互聯(lián)網(wǎng)技術(shù)工程師們習(xí)慣于把以電子信息方式存在的內(nèi)容統(tǒng)稱為“數(shù)據(jù)”,于是“數(shù)據(jù)”一詞便由狹義的“數(shù)字”或“數(shù)值”演變?yōu)橹饕赶蛲ㄓ玫膹V義“數(shù)據(jù)”。
隨著計算機、互聯(lián)網(wǎng)、現(xiàn)代通信以及相關(guān)軟硬件技術(shù)的飛速發(fā)展,大數(shù)據(jù)和云計算,如同一枚硬幣不可分離的兩面,成為我們這個時代的高頻詞。
大數(shù)據(jù)之大,還大在數(shù)據(jù)結(jié)構(gòu)的有容乃大——它不再需要傳統(tǒng)的數(shù)據(jù)庫表格來整齊排列,幾乎可以無所不包地記錄、存儲和計算各種規(guī)則的結(jié)構(gòu)化數(shù)據(jù)和不規(guī)則的非結(jié)構(gòu)化數(shù)據(jù),于是便有了逐步演變?yōu)橐粋€數(shù)字化世界的可能。
如此龐大和復(fù)雜的數(shù)據(jù),遠(yuǎn)遠(yuǎn)超出傳統(tǒng)計算機的處理能力,于是建立在互聯(lián)網(wǎng)基礎(chǔ)上的云計算技術(shù)應(yīng)運而生,承擔(dān)起存儲、傳輸、計算和應(yīng)用大數(shù)據(jù)的重任。而正是大數(shù)據(jù)與云計算的有效互動,打開了世界觀、方法論乃至價值觀的新視野。
在本書中,作者引用專業(yè)研究機構(gòu)的統(tǒng)計,揭示了大數(shù)據(jù)的規(guī)模與速度:一方面,到2014年,全世界電子化數(shù)據(jù)已增至4.4ZB,即44萬億億字節(jié),如果將如此之巨的信息量存入只有7.5毫米厚的蘋果平板電腦,后者疊加起來的厚度可達(dá)地球與月球間距離的三分之二;另一方面,有史以來90%的數(shù)據(jù)量,都是在過去兩年的時間里產(chǎn)生的。
由此不難預(yù)期,一個電子化的、獨立于物質(zhì)世界的“數(shù)字世界”,正在大數(shù)據(jù)和云計算的互動中迅速構(gòu)建,它雖然不可能窮盡物質(zhì)世界全部存在,越來越逼近物質(zhì)世界本體卻是不爭的事實。
尤為值得注意的是,許許多多以往被閑置的數(shù)據(jù),由于一些精明商家的開發(fā)和利用,開始“變廢為寶”。一個耳熟能詳?shù)陌咐?,就是那個“尿片+啤酒”的商業(yè)發(fā)現(xiàn)與行動。世界最大零售商沃爾瑪通過大數(shù)據(jù)統(tǒng)計和分析發(fā)現(xiàn),男性顧客在購買嬰兒尿片時,常常會順便買上幾瓶啤酒,于是推出將啤酒和尿片捆綁銷售的促銷方式,從而有效地提高了啤酒銷量。
凡此種種表明,如同宇宙大爆炸般飛速擴張的“數(shù)字世界”,不僅日益成為外在的客觀物質(zhì)世界的“鏡像”,而且正在越來越多地包含對人類自身行為的追蹤和記錄,成為人類觀察和認(rèn)識自我的“鏡子”。
拋開學(xué)術(shù)和技術(shù)層面的研討,大數(shù)據(jù)及其應(yīng)用幾乎與生俱來就伴隨了喋喋不休的爭論。其中有兩個關(guān)鍵詞,一是“開放”,一是“保護”。如果說開放就是要打破壟斷分割,推動信息與數(shù)據(jù)互聯(lián)互通;變革體制機制,實現(xiàn)數(shù)據(jù)資源共有共享;鼓勵技術(shù)創(chuàng)新,促進大數(shù)據(jù)資源開發(fā)利用……最大限度地拓展數(shù)字世界“公共空間”,讓大數(shù)據(jù)和云計算普惠大眾,造福人類;那么保護則意味著要在數(shù)字世界為個人留下一方“私密領(lǐng)地”,或者為公權(quán)力畫上一道不能逾越的“紅線”——“風(fēng)可進,雨可進,國王不能進”。
開放與保護,“公共空間”與“私密領(lǐng)地”,在這里構(gòu)成既對立又統(tǒng)一的關(guān)系。對立在開放與保護“井水不犯河水”,統(tǒng)一在“公共空間”與“私密領(lǐng)地”共存于同一個數(shù)字世界,且雙方都以對方的存在為自身存在的證據(jù),正所謂沒有“公”即沒有“私”,沒有“私”亦沒有“公”。
一言以蔽之,數(shù)字世界與現(xiàn)實世界理應(yīng)奉行同樣的價值理念:該開放的一定要最大限度開放,該保護的必須嚴(yán)格加以保護。
本書向讀者展示了這樣一幅圖景:不管你自覺還是不自覺,樂意還是不樂意,大數(shù)據(jù)正以空前的速度和規(guī)模滲透到人類社會生活的方方面面,它在一定程度上已經(jīng)并正在改變?nèi)藗冇^察、認(rèn)識、思考乃至生存與發(fā)展的方式。特別是這后一方面的變化,或許就是“大數(shù)據(jù)”之所以成為“主義”的原因。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11