
大數(shù)據(jù)真的是“未來的新石油”
當前IT業(yè)最熱門的話題應該就是大數(shù)據(jù)了,這個兩年前才被炒作起來的概念,現(xiàn)在已無處不在,占居了互聯(lián)網(wǎng)的半壁江山,它與云計算一起成為未來信息技術發(fā)展最重要的內容。處于IT行業(yè)的人們,如果不知道大數(shù)據(jù),不了解大數(shù)據(jù)所創(chuàng)造的那些神話般的故事,就好象已經跟不上信息技術的發(fā)展,成為時代的落伍者了。
那么什么是大數(shù)據(jù)?現(xiàn)在還沒人能給出一個確切的答案,它同云計算一樣,是一個形象但卻籠統(tǒng)的概念。大家一致的理解是從4V的角度來描述這一概念的內涵。所謂4V就是說大數(shù)據(jù)具有體量巨大(Volume)、種類繁多(Variety)、實時處理(Velocity)、數(shù)據(jù)真實(Veracity)的特性。信息技術的發(fā)展,使互聯(lián)網(wǎng)遍布世界的每個角落,各種各樣的信息都可通過網(wǎng)絡進行傳播。世上所發(fā)生的每件事情,人類所進行的每項思考,社會所進行的每點進步,知識所增加的每種內容都可通過互聯(lián)網(wǎng)進行匯集。網(wǎng)絡技術、傳感技術與射頻技術使各種事物都可產生大量數(shù)據(jù)。事物的內容、時空、方位、特性都可轉化為數(shù)據(jù),這些經濟的、社會的、規(guī)范的、雜亂的、簡單的、復雜的等各式各樣的數(shù)據(jù)代表了不同事物的內涵。代表不同事物的海量數(shù)據(jù)可以通過網(wǎng)絡進行匯集,匯集后的整體數(shù)據(jù)反應了事物的本質特性或發(fā)展趨勢。而這種反應事物本質特性或發(fā)展趨勢的數(shù)據(jù)具有一定的價值,通過高性能計算機的數(shù)據(jù)提取、價值分析、數(shù)據(jù)表達等大數(shù)據(jù)技術,可以從大數(shù)據(jù)中把這些價值提取出來。不同的需要可以提取出不同的價值,所有的價值都可以為人類服務,這就是大數(shù)據(jù)的本質。
大數(shù)據(jù),這一鮮明而又形象的概念之所以如此引人注目,是因為許多像亞馬遜、谷歌這樣的大公司為它杜撰了無數(shù)神話般的故事。每一個故事都告訴人們,大數(shù)據(jù)具有無所不能的洞察力。它可以象偉大的先知一樣預測未來,可以利用玄妙的相關關系推測人的喜好,可以利用寵大的數(shù)據(jù)窺探人的內心,可以利用趨勢分析引導人的行為,甚至可以用事物發(fā)展曲線來控制人的思維,改變人類社會的發(fā)展方向。
大數(shù)據(jù)利用最多的地方是商業(yè)領域。大家都知道尿布與啤酒的故事,通過大數(shù)據(jù)分析,找出這兩個毫不相干的事物之間的關聯(lián),利用推薦系統(tǒng),向不同用戶提供不同的產品推銷方案,提高產品的銷售量;另一個眾所周知的故事就是通過購物記錄來分析少女懷孕的案例,通過分析用戶的購買行為,推測用戶的現(xiàn)在狀態(tài)與未來需求。盡管這一案例因為侵犯別人隱私而廣受批評,但卻說明了大數(shù)據(jù)分析在商業(yè)領域的價值。還有無數(shù)這樣或那樣的故事,都說明大數(shù)據(jù)在分析人們的喜好與購買習慣上的巨大作用,利用這種分析,商家可以更好地進行營銷。權威的市場調查機構說,大數(shù)據(jù)將會改變未來的商業(yè)規(guī)則,實時競價系統(tǒng)(RTB)、更加智能的推薦系統(tǒng)以及基于大數(shù)據(jù)的商業(yè)智能分析(BA),使企業(yè)能夠生產更加適合用戶喜好的產品,能夠找到向用戶推銷產品更好的方法,能夠為用戶提供更好的服務,能夠利用有限的資源產生更多的效益,大數(shù)據(jù)的這些功能將會使經濟社會更快更好地發(fā)展。
大數(shù)據(jù)的另一個應用領域就是社會公共領域。利用大數(shù)據(jù),政府可以更好地管理社會,為社會提供更好的公共服務;教育部門可以更好地獲取與傳播知識,提高民眾的素質;衛(wèi)生部門可以預測重大流行疾病的發(fā)生,提前作出防范預警;安全部門可以監(jiān)控社會狀況,確保國家不受破壞。谷歌公司前幾年利用大數(shù)據(jù)繪制了“世界流感地圖”[1]用來幫助人們了解世界各地流感的發(fā)病情況;利用大數(shù)據(jù)預測禽流感在各地的爆發(fā)趨勢,為民眾提供預防建議,向衛(wèi)生部門提供監(jiān)控資料。在公共安全領域,大數(shù)據(jù)也有巨大的作用,如美國就建立了基于各種傳感技術與大數(shù)據(jù)技術的網(wǎng)絡監(jiān)控系統(tǒng),預測重大社會公共事件的發(fā)生,比如爆發(fā)大規(guī)模游行活動、可能遭受的恐怖襲擊等。
隨著科技的發(fā)展,大數(shù)據(jù)的應用也延伸到個人服務領域。穿戴式設備的產生標志著信息技術的發(fā)展到了以人為中心的階段。像谷歌眼鏡、蘋果手表這樣的穿戴式設備把技術與人體結合在起來,使人類可以更加便捷得獲取信息。這些穿戴式設備利用大數(shù)據(jù)為個人提供學習、生活、健康等方面的數(shù)據(jù)服務。大數(shù)據(jù)通過穿戴式設備發(fā)揮其作用,同時穿戴式設備本身也成為收集數(shù)據(jù)、構建大數(shù)據(jù)的來源。穿戴式設備作為一種工具,大數(shù)據(jù)是其服務的內容。
大數(shù)據(jù)有如此巨大的作用,讓一些信息技術發(fā)達的國家倍加關注,很多大型信息公司也把大數(shù)據(jù)當作公司未來發(fā)展的重點。美國是當今世界最為重視大數(shù)據(jù)發(fā)展的國家,也是利用大數(shù)據(jù)較好的國家。美國政府把大數(shù)據(jù)作為未來信息技術發(fā)展的重中之重,認為大數(shù)據(jù)將引起信息技術發(fā)展的革命,改變未來社會的發(fā)展模式。2012年3月美國政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,把大數(shù)據(jù)稱作“未來社會發(fā)展的新石油”,把發(fā)展大數(shù)據(jù)研究提到國家戰(zhàn)略的高度上來。為掌控這一“未來的新石油”,引領世界技術發(fā)展方向,聯(lián)邦政府制定了大數(shù)據(jù)研究發(fā)展計劃,推進相關研究機構進行科技研究和創(chuàng)新發(fā)現(xiàn)。改進從海量數(shù)據(jù)中提取價值的方法,提高從數(shù)據(jù)中獲取知識的能力,加速美國在科技領域中的前進步伐,確保美國在信息技術領域的領先地位。美國政府指定了國家科學基金(NSF)、國家衛(wèi)生研究院(NIH)、能源部(DOE)、國防部(DOD)、國防部高級研究計劃局(DARPA)、地質勘探局(USGS)6個聯(lián)邦部門來負責推進大數(shù)據(jù)的研究,并計劃投資2億美元用來研究收集、儲存、保留、管理、分析和共享海量數(shù)據(jù)的技術。
政府的投入與政策的支持,使那些本來就注重大數(shù)據(jù)研究的公司更加主動,紛紛加大對大數(shù)據(jù)研發(fā)與利用的投入,取得了不菲的成績。如Apache基金會開發(fā)的Hadoop分布式處理系統(tǒng),經過不斷發(fā)展完善,現(xiàn)已成為大數(shù)據(jù)處理的標準結構;微軟開發(fā)的Windows Azure平臺使大數(shù)據(jù)的處理更加人性化、簡易化;還有其它公司,經過不斷的創(chuàng)新研究讓大數(shù)據(jù)技術更加完善、更加實用。技術的發(fā)展使大數(shù)據(jù)的價值更加突顯,人們對它的期望也不斷提高。據(jù)說谷歌公司利用大數(shù)據(jù)不但可以預測流感的發(fā)生,也可預測美國的經濟復蘇情況;不但可以預測明年服裝的流行色,也可預測某位娛樂名星是否可以紅遍世界。谷歌公司最近一個廣為流傳的大數(shù)據(jù)案例就是,在2013年的奧斯卡電影節(jié)上,它預測準了大部分的奧斯卡獎項得主。Facebook也是利用大數(shù)據(jù)的典型公司,大數(shù)據(jù)是這家社交網(wǎng)站最大的價值所在。通過對大量社交信息的分析,Facebook可以了解用戶的生活習慣與購買喜好,利用定向推薦廣告,為這家年輕的公司每年創(chuàng)造上百億的產值。
還有許多真實的或杜撰的有關大數(shù)據(jù)的美妙故事,每一個都反應了大數(shù)據(jù)在某一領域的巨大作用,這些故事的匯編,給人們描繪了一個大數(shù)據(jù)主宰的奇幻世界。在那里,人們利用大數(shù)據(jù)可以預測任何一件事情的發(fā)展趨勢,可以完成一切不可能完成的事情。每一個人都是先知、都是智者,在大數(shù)據(jù)的支持下,每一個人都通天文、曉地理,前知一千后知八百,如齊天大圣般十八般武藝樣樣精通。然而真的是這樣嗎?
可惜的是,理想很豐滿,實現(xiàn)很骨感。至少在當前大數(shù)據(jù)還沒有那么大神奇,就連谷歌公司所說的利用人們的檢索詞可以用來預測流感的發(fā)展這種人人都相信的故事也沒能發(fā)生。當H7N9在中國出現(xiàn)的時候,谷歌沒能給出任何有關這一流感發(fā)生與發(fā)展的預測,更不用說事先給民眾發(fā)出預警,提醒人們防范了;歐洲的金融危機持續(xù)了五六年,至今沒有一家大數(shù)據(jù)公司能預測這場金融危機何時結束,就連未來是向好還是向壞發(fā)展的方向都不能預測;在商業(yè)領域,個性化廣告推薦這種理應可以做好的事,大數(shù)據(jù)也沒能表現(xiàn)出其超強的功用。最近經過大數(shù)據(jù)改造的淘寶網(wǎng)個性推薦系統(tǒng)沒比五六年前好多少;號稱利用大數(shù)據(jù)使圖書銷售量大幅增加的亞馬遜網(wǎng)站上推薦的書,沒有一本是我喜觀的。
2013年4月15號,波士頓馬拉松比賽現(xiàn)場發(fā)生了震驚世界的恐怖襲擊[4]。美國人悲傷地發(fā)現(xiàn),那些基于現(xiàn)代信息技術與大數(shù)據(jù)分析的網(wǎng)絡監(jiān)控系統(tǒng),并沒能確保國家的安全,大數(shù)據(jù)分析在防范恐怖襲擊方面,并不象人們所期望的那樣有效。看來這個被稱為未來技術競爭至高點的大數(shù)據(jù),在當下還不能如人們所期望的那樣有用。
產生如此悲觀想法的原因,一是雖然大數(shù)據(jù)可能代表了未來信息技術發(fā)展的方向,具有光明的前景。但是在人們的意識與相關的配套技術還沒有發(fā)展起來的情況下,大數(shù)據(jù)還不能發(fā)揮其巨大作用。二是大數(shù)據(jù)還沒有一個確切的定義,它所具有的內涵還不能被清晰地詮釋。美國把大數(shù)據(jù)被稱作“未來的新石油”,然而石油是不可再生的,數(shù)據(jù)卻是隨時隨地都在產生,越是往后產生的數(shù)據(jù)越多,數(shù)據(jù)的準確性越高,對數(shù)據(jù)的處理能力越強,這讓人們對現(xiàn)在就收集并占有大量數(shù)據(jù)的必要性產生懷疑;還有從大數(shù)據(jù)中提取價值首先要有需求,沒有需求就不知道從大數(shù)據(jù)中提取什么,當人們的思維還沒有發(fā)展到可以完全掌控數(shù)據(jù),還不知道大數(shù)據(jù)到底有什么用處時,很難對其產生需求;沒有需求就沒有數(shù)據(jù)收集的方向,沒有方向的收集就會造成巨大浪費;在方向不明的時候,唯一可做的就是收集所有可能收集到的數(shù)據(jù),然而這樣不但會給數(shù)據(jù)的存儲、管理造成具大的成本,也會產生一些法律的問題,例如是否會侵犯他人隱私等。再有,隨著科技的發(fā)展,穿戴式設備會不斷智能化并在生活中得以普及,這種以人為中心的智能設備本身就會不斷分析所取得的數(shù)據(jù),提取個人的喜好等特性,學習與適應人個的品性,具有人的品性特征,這樣就使得從大數(shù)據(jù)中分析人的品性失去了意義。
以上這一切都讓人們對大數(shù)據(jù)的發(fā)展未來產生了懷疑。因此,當美國制定大數(shù)據(jù)發(fā)展戰(zhàn)略,把它看成“未來的新石油”時,世界其它國家雖然也十分重視這一技術的發(fā)展,卻沒有制定相關發(fā)展戰(zhàn)略。這有可能是其它國家在大數(shù)據(jù)技術方面落后于美國,還不能制定明確的發(fā)展目標,也可能是人們對這一技術的發(fā)展前景還沒有一個清楚的認識,無法確定大數(shù)據(jù)是否真的可以引領未來技術的發(fā)展方向。因此,我們還是暫時忘了大數(shù)據(jù)吧!別再關注那些炙熱的概念炒作,靜下心來認認真真地想一想大數(shù)據(jù)的真正內涵。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03