
大數(shù)據(jù),第三次工業(yè)革命的戰(zhàn)略資源_數(shù)據(jù)分析師
什么是大數(shù)據(jù)
“大數(shù)據(jù)”一詞已經(jīng)無處不在,然而其概念仍然存在混淆。有人從數(shù)量大、速度快、種類多等特征定義大數(shù)據(jù);有人把大數(shù)據(jù)看作一項新技術(shù),例如大數(shù)據(jù)處理技術(shù)Hadoop和非關(guān)系型數(shù)據(jù)庫NoSQL;有人從大數(shù)據(jù)與數(shù)據(jù)的區(qū)別角度提出,大數(shù)據(jù)不僅包括人們過去搜集、存儲和分析的交易數(shù)據(jù),更包括人們從點擊網(wǎng)頁等操作中得到的交互數(shù)據(jù)以及機(jī)器自動搜集的觀察數(shù)據(jù);還有人認(rèn)為大數(shù)據(jù)是一種新的預(yù)測信號,在傳統(tǒng)情況下,當(dāng)數(shù)據(jù)被記錄時,人們已經(jīng)無法對它們采取任何行動,組織在不斷管理“失效的數(shù)據(jù)”,而在“新世界”,組織可以使用信號數(shù)據(jù)預(yù)測將發(fā)生什么,并通過干預(yù)改善情況。
值得注意的是,無論如何定義,業(yè)界幾乎所有人都普遍認(rèn)同,大數(shù)據(jù)不只是更多的數(shù)據(jù),大數(shù)據(jù)是一個大事件,在未來幾年將帶來重大的機(jī)遇。
大數(shù)據(jù)與數(shù)據(jù)有何不同
“大數(shù)據(jù)”一詞由英文“Big Data”翻譯而來。很多文章在介紹大數(shù)據(jù)這一概念時都側(cè)重于強(qiáng)調(diào)其“大”,即需要處理的信息量過大,已經(jīng)超出了一般計算機(jī)在處理數(shù)據(jù)時所能使用的內(nèi)存量,因此工程師們必須改進(jìn)處理數(shù)據(jù)的工具。
然而,究竟多大才算是大數(shù)據(jù)?這個問題并沒有標(biāo)準(zhǔn)答案,因為大數(shù)據(jù)的標(biāo)準(zhǔn)是不斷調(diào)整的。麥肯錫全球研究所報告對大數(shù)據(jù)有以下定義:大數(shù)據(jù)是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理和分析能力的數(shù)據(jù)群。這個定義有意地帶有主觀性,即我們不以超過多少TB為大數(shù)據(jù)的標(biāo)準(zhǔn)。我們假設(shè)隨著時間的推移和技術(shù)的進(jìn)步,大數(shù)據(jù)的量仍會增加。還應(yīng)注意到,該定義可以因部門的不同而有所差異,這取決于什么類型的軟件工具是通用的,以及某個特定行業(yè)的數(shù)據(jù)集通常的大小。因此,今天眾多行業(yè)的大數(shù)據(jù)范圍可以從幾十TB到數(shù)千TB。
有人可能有這樣的疑問:大數(shù)據(jù)不就是數(shù)據(jù)分析的另一種說法嗎?大數(shù)據(jù)與數(shù)據(jù)究竟有何不同?大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)挖掘相比,與其說是一種量的進(jìn)步,不如說是一種質(zhì)的飛躍。人們在大數(shù)據(jù)的基礎(chǔ)上可以做到的事情,在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法完成的。
高德納的一份報告認(rèn)為:大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。這一概念雖然簡潔,卻內(nèi)涵豐富:第一,它認(rèn)為大數(shù)據(jù)是一種信息資產(chǎn);第二,這種信息資產(chǎn)具有海量、高增長率和多樣化的屬性;第三,它指出了大數(shù)據(jù)的應(yīng)用價值和革新意義,即具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力。
筆者更贊同高德納的定義,把大數(shù)據(jù)看作一種戰(zhàn)略和習(xí)慣,一種新的世界觀和方法論。例如,谷歌不用分發(fā)口腔試紙和聯(lián)系醫(yī)院,就能給出和基于大量真實病例所得到的流感情況一致的結(jié)果,并且比疾控中心提前了兩周,就是因為它分析了數(shù)千億的數(shù)據(jù),建立了強(qiáng)大的預(yù)測模型。從2009年10月起,“谷歌流感趨勢”網(wǎng)站開始提供全球每周流感疫情預(yù)測,對于數(shù)據(jù)較完備國家的預(yù)測能精確到省份,并能顯示橫跨7年的歷史數(shù)據(jù)。
另一個有代表性的例子發(fā)生在能源計量領(lǐng)域。美國軟件公司Opower與多家電力公司合作,在幾百萬戶家庭安裝了智能電表,這些電表每隔15分鐘就讀一次用電數(shù)據(jù)。Opower公司據(jù)此每個月向每戶家庭提供一份個性化報告,把該家庭的電費與周圍鄰居進(jìn)行對比,顯示該家庭的用電情況在全美類似家庭中所處的水平,以鼓勵節(jié)約用電,預(yù)計每年為美國消費用電節(jié)省5億美元。由此可見,大數(shù)據(jù)成為政府節(jié)能減排的千里眼、萬只手,并且做到了深入每戶家庭、量身定制解決方案,這在入戶抄電表的傳統(tǒng)工作方式下根本是無法想象的事情。
打開數(shù)據(jù)利用的想象空間
分析師馬特·艾斯萊特將大數(shù)據(jù)定位為“之前因為技術(shù)限制而被忽略的數(shù)據(jù)”。的確,盡管從數(shù)據(jù)中發(fā)現(xiàn)價值的實踐由來已久,但是在大數(shù)據(jù)時代,數(shù)據(jù)的價值才真正被發(fā)掘出來,人們用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新的意識才真正被喚醒。
至頂網(wǎng)副總編趙效民提出了一個非常有意思的觀點。他認(rèn)為:“大數(shù)據(jù)的出現(xiàn)標(biāo)志著人類在數(shù)據(jù)利用方面進(jìn)入了一個新的階段,它代表了一種理念(數(shù)據(jù)能源)、一種思路(從數(shù)據(jù)搜集到數(shù)據(jù)分析再到數(shù)據(jù)呈現(xiàn)的整體構(gòu)想)和一種新工具(將結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)和語義與機(jī)器化數(shù)據(jù)匯聚、統(tǒng)一處理、分析與呈現(xiàn)的工具)的集合。它賦予了人類認(rèn)知數(shù)據(jù)的新能力,也進(jìn)一步打開了人類在數(shù)據(jù)利用方面的想象空間?!?/span>
趙效民進(jìn)一步闡述,放眼地球上的各種能源,就會發(fā)現(xiàn)大數(shù)據(jù)與其有太多相似之處。物質(zhì)成為能源的前提在于人類?它們的認(rèn)知。在遠(yuǎn)古時期,人類因雷電引火,發(fā)現(xiàn)了火和木材這兩種能源。隨著人類文明的進(jìn)步,人類逐漸發(fā)現(xiàn)了越來越多的能源,比如煤、天然氣、石油和太陽能。它們已經(jīng)在地球上靜靜地存在了成萬上億年,只是在人類掌握了相應(yīng)的科技與工具之后,它們才得到利用。數(shù)據(jù)也是如此,如果數(shù)據(jù)存在一個生成/采集—應(yīng)用/加工—保存/管理—分析/挖掘—再保存或刪除這樣的一個周期,那么從其生成的那一刻起,它就存在應(yīng)有的價值,只是在于你是否有能力發(fā)現(xiàn)它們。這需要新的理念、知識、技術(shù)與相應(yīng)的工具。原始人即使知道地下有石油,也無法開采,對所謂的數(shù)據(jù)分析,道理也是一樣的。
從人類發(fā)展的歷史來看,不斷發(fā)現(xiàn)新能源是一種公理似的注定。當(dāng)我們掌握了越來越先進(jìn)的理念基礎(chǔ),并依此開發(fā)出越來越先進(jìn)的工具,出現(xiàn)新的驚喜可以說理所當(dāng)然。就像剛發(fā)明汽車時,誰也不會想到電、水會成為汽車可行的燃料。從這個角度講,當(dāng)前的大數(shù)據(jù)所帶來的種種神奇只是人類在數(shù)據(jù)搜集、管理和分析等領(lǐng)域的一次進(jìn)步而已,它有出現(xiàn)的必然,而非人類的一種頓悟。
新的數(shù)據(jù)技術(shù)既是數(shù)據(jù)大爆炸產(chǎn)生的基礎(chǔ),也為應(yīng)對數(shù)據(jù)大爆炸提供了解決方案。信息和通信技術(shù)的融合與發(fā)展,廉價的存儲、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展,通過云和虛擬化存儲設(shè)施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,是驅(qū)動大數(shù)據(jù)發(fā)展的技術(shù)基礎(chǔ)。這些數(shù)據(jù)分析技術(shù)橫跨數(shù)據(jù)庫、統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)等交叉學(xué)科。
從某種角度講,大數(shù)據(jù)其實就是人類能源開拓歷史在信息技術(shù)領(lǐng)域的一種再現(xiàn)與映射。大數(shù)據(jù)中談到的數(shù)據(jù)搜集、匯總、保存、管理、分析、呈現(xiàn),與能源的勘探、開采、匯聚、保管、提煉、使用一一對應(yīng)。在數(shù)據(jù)利用的愿景方面,大數(shù)據(jù)與原來的數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、商業(yè)智能等概念是同出一轍、一脈相承的。它是人類信息技術(shù)水平發(fā)展到一定階段的必然結(jié)果。它賦予了人類對數(shù)據(jù)認(rèn)知的新能力,也進(jìn)一步打開了人類在數(shù)據(jù)利用方面的想象空間。
第三次工業(yè)革命的戰(zhàn)略資源
美國經(jīng)濟(jì)學(xué)家杰里米·里夫金提出了第三次工業(yè)革命的概念。在他看來,通信技術(shù)和能源技術(shù)的基礎(chǔ)設(shè)施的變革是工業(yè)革命的主要推動力,并引發(fā)了經(jīng)濟(jì)和社會的轉(zhuǎn)型?;ヂ?lián)網(wǎng)技術(shù)與可再生能源的結(jié)合正在孕育第三次工業(yè)革命的基礎(chǔ)設(shè)施—能源物聯(lián)網(wǎng)。而第三次工業(yè)革命的主要內(nèi)容便是解決前一次工業(yè)革命沒有解決的問題。
在農(nóng)業(yè)化浪潮中,一個木匠做家具可以是一把好手,但他在擴(kuò)大再生產(chǎn)、創(chuàng)造社會化價值上是業(yè)余水平。在工業(yè)化浪潮中,生產(chǎn)者具有了大規(guī)模社會化地生產(chǎn)有用的東西的能力與環(huán)境,但是由于信息不對稱,生產(chǎn)者的生產(chǎn)和服務(wù)經(jīng)常是盲目的。生產(chǎn)者缺乏信息,不知道消費者需要什么,經(jīng)常費了很大勁生產(chǎn)出市場不需要的東西,也就是創(chuàng)造了一大堆有價值而無意義的東西,因而實現(xiàn)不了價值。故第三次工業(yè)革命的使命便是通過信息化與數(shù)據(jù)化實現(xiàn)價值的最大化,通過個人對個人的一對一關(guān)系發(fā)展起來,以數(shù)據(jù)為中介,在經(jīng)濟(jì)上表現(xiàn)為多樣化、差異性、個性化體驗。
2012年4月21日,《經(jīng)濟(jì)學(xué)人》專題討論了第三次工業(yè)革命,并強(qiáng)調(diào)3D(三維)打印是第三次工業(yè)革命的核心推動力。如同第一次工業(yè)革命實現(xiàn)了機(jī)器生產(chǎn)對手工作坊的替代,第二次工業(yè)革命實現(xiàn)了規(guī)?;a(chǎn)一樣,以3D打印為代表的數(shù)字化制造將推進(jìn)新軟件、新工藝、機(jī)器人和個性化網(wǎng)絡(luò)服務(wù)的普及,最終實現(xiàn)大規(guī)模定制化生產(chǎn)、分散式就近生產(chǎn)。
在第三次工業(yè)革命中,數(shù)據(jù)、計算將成為戰(zhàn)略資源,扮演重要角色,如果把計算看作能源,視作能像電能、太陽能一樣流通的資源,并以統(tǒng)一的價格收費,我們將來用三步計算、五步計算也就并不在乎計算從哪里來,就像我們不知道今天的5度電是來自大亞灣還是三峽。未來,大數(shù)據(jù)相關(guān)的技術(shù)和能力將成為一個國家至關(guān)重要的核心戰(zhàn)略資源。
為了提升中國在第三次工業(yè)革命中的發(fā)展速度,為進(jìn)入下一個經(jīng)濟(jì)周期做好準(zhǔn)備,我們的每一個企業(yè)、科研團(tuán)隊和政府,都有責(zé)任通過一些計劃,有目的地搜集、處理、分析、索引數(shù)據(jù),IBM(國際商業(yè)機(jī)器公司)設(shè)立了“智慧地球”項目,現(xiàn)在,中國也有一些行業(yè)(如通信運營商、金融銀行企業(yè)單位、政府交通部門)在制訂類似的行業(yè)計劃,通過信息化改造實現(xiàn)海量數(shù)據(jù)的搜集和處理,這些數(shù)據(jù)在未來可能產(chǎn)生現(xiàn)在所想象不到的價值,也需要現(xiàn)在的企業(yè)家、政府部門做好準(zhǔn)備。
總之,無論是以智能電網(wǎng)為基礎(chǔ)的能源物聯(lián)網(wǎng),還是以3D打印為基礎(chǔ)的數(shù)字化制造,大數(shù)據(jù)都是以第三次工業(yè)革命的“新石油”這一重要戰(zhàn)略資源的形態(tài)存在。可以想象,未來云計算、物聯(lián)網(wǎng)和大數(shù)據(jù)將成為基礎(chǔ)設(shè)施,移動互聯(lián)網(wǎng)和3D打印技術(shù)將成為共性平臺,數(shù)據(jù)分析和機(jī)器人等人工智能控制將成為服務(wù)手段,那么數(shù)據(jù)、知識和價值的按需分配、多次挖掘?qū)⒊蔀樾陆?jīng)濟(jì)形態(tài)的不竭動力。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10