
大數(shù)據(jù),第三次工業(yè)革命的戰(zhàn)略資源_數(shù)據(jù)分析師
什么是大數(shù)據(jù)
“大數(shù)據(jù)”一詞已經(jīng)無處不在,然而其概念仍然存在混淆。有人從數(shù)量大、速度快、種類多等特征定義大數(shù)據(jù);有人把大數(shù)據(jù)看作一項新技術(shù),例如大數(shù)據(jù)處理技術(shù)Hadoop和非關(guān)系型數(shù)據(jù)庫NoSQL;有人從大數(shù)據(jù)與數(shù)據(jù)的區(qū)別角度提出,大數(shù)據(jù)不僅包括人們過去搜集、存儲和分析的交易數(shù)據(jù),更包括人們從點擊網(wǎng)頁等操作中得到的交互數(shù)據(jù)以及機器自動搜集的觀察數(shù)據(jù);還有人認為大數(shù)據(jù)是一種新的預測信號,在傳統(tǒng)情況下,當數(shù)據(jù)被記錄時,人們已經(jīng)無法對它們采取任何行動,組織在不斷管理“失效的數(shù)據(jù)”,而在“新世界”,組織可以使用信號數(shù)據(jù)預測將發(fā)生什么,并通過干預改善情況。
值得注意的是,無論如何定義,業(yè)界幾乎所有人都普遍認同,大數(shù)據(jù)不只是更多的數(shù)據(jù),大數(shù)據(jù)是一個大事件,在未來幾年將帶來重大的機遇。
大數(shù)據(jù)與數(shù)據(jù)有何不同
“大數(shù)據(jù)”一詞由英文“Big Data”翻譯而來。很多文章在介紹大數(shù)據(jù)這一概念時都側(cè)重于強調(diào)其“大”,即需要處理的信息量過大,已經(jīng)超出了一般計算機在處理數(shù)據(jù)時所能使用的內(nèi)存量,因此工程師們必須改進處理數(shù)據(jù)的工具。
然而,究竟多大才算是大數(shù)據(jù)?這個問題并沒有標準答案,因為大數(shù)據(jù)的標準是不斷調(diào)整的。麥肯錫全球研究所報告對大數(shù)據(jù)有以下定義:大數(shù)據(jù)是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理和分析能力的數(shù)據(jù)群。這個定義有意地帶有主觀性,即我們不以超過多少TB為大數(shù)據(jù)的標準。我們假設隨著時間的推移和技術(shù)的進步,大數(shù)據(jù)的量仍會增加。還應注意到,該定義可以因部門的不同而有所差異,這取決于什么類型的軟件工具是通用的,以及某個特定行業(yè)的數(shù)據(jù)集通常的大小。因此,今天眾多行業(yè)的大數(shù)據(jù)范圍可以從幾十TB到數(shù)千TB。
有人可能有這樣的疑問:大數(shù)據(jù)不就是數(shù)據(jù)分析的另一種說法嗎?大數(shù)據(jù)與數(shù)據(jù)究竟有何不同?大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)挖掘相比,與其說是一種量的進步,不如說是一種質(zhì)的飛躍。人們在大數(shù)據(jù)的基礎上可以做到的事情,在小規(guī)模數(shù)據(jù)的基礎上是無法完成的。
高德納的一份報告認為:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。這一概念雖然簡潔,卻內(nèi)涵豐富:第一,它認為大數(shù)據(jù)是一種信息資產(chǎn);第二,這種信息資產(chǎn)具有海量、高增長率和多樣化的屬性;第三,它指出了大數(shù)據(jù)的應用價值和革新意義,即具有更強的決策力、洞察力和流程優(yōu)化能力。
筆者更贊同高德納的定義,把大數(shù)據(jù)看作一種戰(zhàn)略和習慣,一種新的世界觀和方法論。例如,谷歌不用分發(fā)口腔試紙和聯(lián)系醫(yī)院,就能給出和基于大量真實病例所得到的流感情況一致的結(jié)果,并且比疾控中心提前了兩周,就是因為它分析了數(shù)千億的數(shù)據(jù),建立了強大的預測模型。從2009年10月起,“谷歌流感趨勢”網(wǎng)站開始提供全球每周流感疫情預測,對于數(shù)據(jù)較完備國家的預測能精確到省份,并能顯示橫跨7年的歷史數(shù)據(jù)。
另一個有代表性的例子發(fā)生在能源計量領(lǐng)域。美國軟件公司Opower與多家電力公司合作,在幾百萬戶家庭安裝了智能電表,這些電表每隔15分鐘就讀一次用電數(shù)據(jù)。Opower公司據(jù)此每個月向每戶家庭提供一份個性化報告,把該家庭的電費與周圍鄰居進行對比,顯示該家庭的用電情況在全美類似家庭中所處的水平,以鼓勵節(jié)約用電,預計每年為美國消費用電節(jié)省5億美元。由此可見,大數(shù)據(jù)成為政府節(jié)能減排的千里眼、萬只手,并且做到了深入每戶家庭、量身定制解決方案,這在入戶抄電表的傳統(tǒng)工作方式下根本是無法想象的事情。
打開數(shù)據(jù)利用的想象空間
分析師馬特·艾斯萊特將大數(shù)據(jù)定位為“之前因為技術(shù)限制而被忽略的數(shù)據(jù)”。的確,盡管從數(shù)據(jù)中發(fā)現(xiàn)價值的實踐由來已久,但是在大數(shù)據(jù)時代,數(shù)據(jù)的價值才真正被發(fā)掘出來,人們用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新的意識才真正被喚醒。
至頂網(wǎng)副總編趙效民提出了一個非常有意思的觀點。他認為:“大數(shù)據(jù)的出現(xiàn)標志著人類在數(shù)據(jù)利用方面進入了一個新的階段,它代表了一種理念(數(shù)據(jù)能源)、一種思路(從數(shù)據(jù)搜集到數(shù)據(jù)分析再到數(shù)據(jù)呈現(xiàn)的整體構(gòu)想)和一種新工具(將結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)和語義與機器化數(shù)據(jù)匯聚、統(tǒng)一處理、分析與呈現(xiàn)的工具)的集合。它賦予了人類認知數(shù)據(jù)的新能力,也進一步打開了人類在數(shù)據(jù)利用方面的想象空間?!?/span>
趙效民進一步闡述,放眼地球上的各種能源,就會發(fā)現(xiàn)大數(shù)據(jù)與其有太多相似之處。物質(zhì)成為能源的前提在于人類?它們的認知。在遠古時期,人類因雷電引火,發(fā)現(xiàn)了火和木材這兩種能源。隨著人類文明的進步,人類逐漸發(fā)現(xiàn)了越來越多的能源,比如煤、天然氣、石油和太陽能。它們已經(jīng)在地球上靜靜地存在了成萬上億年,只是在人類掌握了相應的科技與工具之后,它們才得到利用。數(shù)據(jù)也是如此,如果數(shù)據(jù)存在一個生成/采集—應用/加工—保存/管理—分析/挖掘—再保存或刪除這樣的一個周期,那么從其生成的那一刻起,它就存在應有的價值,只是在于你是否有能力發(fā)現(xiàn)它們。這需要新的理念、知識、技術(shù)與相應的工具。原始人即使知道地下有石油,也無法開采,對所謂的數(shù)據(jù)分析,道理也是一樣的。
從人類發(fā)展的歷史來看,不斷發(fā)現(xiàn)新能源是一種公理似的注定。當我們掌握了越來越先進的理念基礎,并依此開發(fā)出越來越先進的工具,出現(xiàn)新的驚喜可以說理所當然。就像剛發(fā)明汽車時,誰也不會想到電、水會成為汽車可行的燃料。從這個角度講,當前的大數(shù)據(jù)所帶來的種種神奇只是人類在數(shù)據(jù)搜集、管理和分析等領(lǐng)域的一次進步而已,它有出現(xiàn)的必然,而非人類的一種頓悟。
新的數(shù)據(jù)技術(shù)既是數(shù)據(jù)大爆炸產(chǎn)生的基礎,也為應對數(shù)據(jù)大爆炸提供了解決方案。信息和通信技術(shù)的融合與發(fā)展,廉價的存儲、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展,通過云和虛擬化存儲設施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,是驅(qū)動大數(shù)據(jù)發(fā)展的技術(shù)基礎。這些數(shù)據(jù)分析技術(shù)橫跨數(shù)據(jù)庫、統(tǒng)計學和機器學習等交叉學科。
從某種角度講,大數(shù)據(jù)其實就是人類能源開拓歷史在信息技術(shù)領(lǐng)域的一種再現(xiàn)與映射。大數(shù)據(jù)中談到的數(shù)據(jù)搜集、匯總、保存、管理、分析、呈現(xiàn),與能源的勘探、開采、匯聚、保管、提煉、使用一一對應。在數(shù)據(jù)利用的愿景方面,大數(shù)據(jù)與原來的數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、商業(yè)智能等概念是同出一轍、一脈相承的。它是人類信息技術(shù)水平發(fā)展到一定階段的必然結(jié)果。它賦予了人類對數(shù)據(jù)認知的新能力,也進一步打開了人類在數(shù)據(jù)利用方面的想象空間。
第三次工業(yè)革命的戰(zhàn)略資源
美國經(jīng)濟學家杰里米·里夫金提出了第三次工業(yè)革命的概念。在他看來,通信技術(shù)和能源技術(shù)的基礎設施的變革是工業(yè)革命的主要推動力,并引發(fā)了經(jīng)濟和社會的轉(zhuǎn)型?;ヂ?lián)網(wǎng)技術(shù)與可再生能源的結(jié)合正在孕育第三次工業(yè)革命的基礎設施—能源物聯(lián)網(wǎng)。而第三次工業(yè)革命的主要內(nèi)容便是解決前一次工業(yè)革命沒有解決的問題。
在農(nóng)業(yè)化浪潮中,一個木匠做家具可以是一把好手,但他在擴大再生產(chǎn)、創(chuàng)造社會化價值上是業(yè)余水平。在工業(yè)化浪潮中,生產(chǎn)者具有了大規(guī)模社會化地生產(chǎn)有用的東西的能力與環(huán)境,但是由于信息不對稱,生產(chǎn)者的生產(chǎn)和服務經(jīng)常是盲目的。生產(chǎn)者缺乏信息,不知道消費者需要什么,經(jīng)常費了很大勁生產(chǎn)出市場不需要的東西,也就是創(chuàng)造了一大堆有價值而無意義的東西,因而實現(xiàn)不了價值。故第三次工業(yè)革命的使命便是通過信息化與數(shù)據(jù)化實現(xiàn)價值的最大化,通過個人對個人的一對一關(guān)系發(fā)展起來,以數(shù)據(jù)為中介,在經(jīng)濟上表現(xiàn)為多樣化、差異性、個性化體驗。
2012年4月21日,《經(jīng)濟學人》專題討論了第三次工業(yè)革命,并強調(diào)3D(三維)打印是第三次工業(yè)革命的核心推動力。如同第一次工業(yè)革命實現(xiàn)了機器生產(chǎn)對手工作坊的替代,第二次工業(yè)革命實現(xiàn)了規(guī)?;a(chǎn)一樣,以3D打印為代表的數(shù)字化制造將推進新軟件、新工藝、機器人和個性化網(wǎng)絡服務的普及,最終實現(xiàn)大規(guī)模定制化生產(chǎn)、分散式就近生產(chǎn)。
在第三次工業(yè)革命中,數(shù)據(jù)、計算將成為戰(zhàn)略資源,扮演重要角色,如果把計算看作能源,視作能像電能、太陽能一樣流通的資源,并以統(tǒng)一的價格收費,我們將來用三步計算、五步計算也就并不在乎計算從哪里來,就像我們不知道今天的5度電是來自大亞灣還是三峽。未來,大數(shù)據(jù)相關(guān)的技術(shù)和能力將成為一個國家至關(guān)重要的核心戰(zhàn)略資源。
為了提升中國在第三次工業(yè)革命中的發(fā)展速度,為進入下一個經(jīng)濟周期做好準備,我們的每一個企業(yè)、科研團隊和政府,都有責任通過一些計劃,有目的地搜集、處理、分析、索引數(shù)據(jù),IBM(國際商業(yè)機器公司)設立了“智慧地球”項目,現(xiàn)在,中國也有一些行業(yè)(如通信運營商、金融銀行企業(yè)單位、政府交通部門)在制訂類似的行業(yè)計劃,通過信息化改造實現(xiàn)海量數(shù)據(jù)的搜集和處理,這些數(shù)據(jù)在未來可能產(chǎn)生現(xiàn)在所想象不到的價值,也需要現(xiàn)在的企業(yè)家、政府部門做好準備。
總之,無論是以智能電網(wǎng)為基礎的能源物聯(lián)網(wǎng),還是以3D打印為基礎的數(shù)字化制造,大數(shù)據(jù)都是以第三次工業(yè)革命的“新石油”這一重要戰(zhàn)略資源的形態(tài)存在??梢韵胂?,未來云計算、物聯(lián)網(wǎng)和大數(shù)據(jù)將成為基礎設施,移動互聯(lián)網(wǎng)和3D打印技術(shù)將成為共性平臺,數(shù)據(jù)分析和機器人等人工智能控制將成為服務手段,那么數(shù)據(jù)、知識和價值的按需分配、多次挖掘?qū)⒊蔀樾陆?jīng)濟形態(tài)的不竭動力。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03