
世界迎來(lái)大數(shù)據(jù)時(shí)代 人類(lèi)思考世界方式開(kāi)始轉(zhuǎn)變
每個(gè)人都知道互聯(lián)網(wǎng)改變了企業(yè)經(jīng)營(yíng)、政府運(yùn)作以及人們生活的方式。但是一種新的、不那么明顯的技術(shù)趨勢(shì)卻有著同樣巨大的變革能力,那就是“大數(shù)據(jù)”(BigData)。大數(shù)據(jù)的趨勢(shì)發(fā)端于下面這個(gè)事實(shí):如今到處傳播的信息比以往任何時(shí)候都多出了許多,而且這一趨勢(shì)正在應(yīng)用于非同尋常的新用途。大數(shù)據(jù)與互聯(lián)網(wǎng)截然不同,雖然互聯(lián)網(wǎng)使數(shù)據(jù)的收集和共享方便了很多。大數(shù)據(jù)的意義并不僅僅是通信:其本質(zhì)是我們可以從大量的信息中學(xué)習(xí)到從較少量的信息中無(wú)法獲取的東西。
將改變?nèi)祟?lèi)思考方式
在公元前3世紀(jì),亞歷山大圖書(shū)館被認(rèn)為收藏了全部的人類(lèi)知識(shí)。而如果把今天全世界的信息平分給每一個(gè)活著的人,那么每個(gè)人擁有的信息量將足足超過(guò)當(dāng)年亞歷山大圖書(shū)館全部藏書(shū)的320倍。如果把所有這些信息刻到光盤(pán)上并且分5摞疊起來(lái)的話(huà),那么這些光盤(pán)可以一直堆到月球。
這種數(shù)據(jù)爆炸是相對(duì)新鮮的現(xiàn)象。
僅僅在2000年的時(shí)候,全世界全部的存儲(chǔ)信息中還只有1/4是數(shù)字化的,其余的都保存在紙張、膠片和其他模擬介質(zhì)上。但是由于數(shù)字?jǐn)?shù)據(jù)數(shù)量的增長(zhǎng)十分迅速——幾乎每三年就翻一番,這種情形很快發(fā)生了逆轉(zhuǎn)。今天,在所有存儲(chǔ)信息中只有不到2%是非數(shù)字化的。
鑒于如此懸殊的比例,人們免不了在理解大數(shù)據(jù)的時(shí)候僅僅從數(shù)量上進(jìn)行考慮。然而這將會(huì)產(chǎn)生誤導(dǎo)。大數(shù)據(jù)的另一個(gè)特征是它能夠用數(shù)據(jù)來(lái)表現(xiàn)世界的眾多層面,而這些層面以往從來(lái)都沒(méi)有被量化過(guò)--這種特征可以被稱(chēng)為“數(shù)據(jù)化”。例如,位置信息的數(shù)據(jù)化最早是由于經(jīng)緯度的發(fā)明,而最近又有了GPS。當(dāng)計(jì)算機(jī)對(duì)幾個(gè)世紀(jì)內(nèi)的書(shū)籍進(jìn)行取樣時(shí),文字便成了被處理的數(shù)據(jù)。甚至連友誼和愛(ài)好也被數(shù)據(jù)化了——例如通過(guò)臉譜網(wǎng)。借助于廉價(jià)的電腦內(nèi)存、高性能處理器、智能算法、聰明軟件以及從基本統(tǒng)計(jì)學(xué)中借鑒來(lái)的數(shù)學(xué)知識(shí),這樣的一類(lèi)數(shù)據(jù)正在被應(yīng)用于難以置信的新用途中。這種新方法并不是試圖“教會(huì)”計(jì)算機(jī)去從事駕駛或翻譯這樣的事情,而是要向計(jì)算機(jī)輸入足夠多的信息,從而使它們能夠推斷概率,例如交通指示綠燈亮、紅燈不亮的概率,或者是在特定語(yǔ)境下“l(fā)ight”一詞意為“光”而不是“輕”的概率。
以這種方式對(duì)大量數(shù)據(jù)加以利用,要求我們?cè)谌齻€(gè)方面徹底改變對(duì)數(shù)據(jù)的態(tài)度。第一是收集和使用大量數(shù)據(jù),而不是像統(tǒng)計(jì)學(xué)家們?cè)谶^(guò)去100多年里所做的那樣,只滿(mǎn)足于少量的數(shù)據(jù)或樣本。第二是拋棄我們對(duì)有條理和純凈的數(shù)據(jù)的偏愛(ài),轉(zhuǎn)而接受雜亂無(wú)章——在越來(lái)越多的情形下,少許的不精確是可以容忍的。第三,在許多場(chǎng)合,我們需要放棄對(duì)事情原委的追究,而代之以對(duì)相關(guān)性的接納。利用大數(shù)據(jù),而不是試圖弄懂發(fā)動(dòng)機(jī)拋錨或藥物副作用消失的確切原因,研究人員可以收集和分析大量有關(guān)此類(lèi)事件的信息及一切相關(guān)素材,找出可能有助于預(yù)測(cè)未來(lái)事件發(fā)生的規(guī)律。大數(shù)據(jù)有助于回答是什么、而不是為什么的問(wèn)題——通常有這樣的回答就足夠了。
互聯(lián)網(wǎng)重塑了人類(lèi)交流的方式。大數(shù)據(jù)則不同:它標(biāo)志著社會(huì)處理信息方式的變化。隨著時(shí)間的推移,大數(shù)據(jù)可能會(huì)改變我們思考世界的方式。隨著我們利用越來(lái)越多的數(shù)據(jù)來(lái)理解事情和作出決定,我們很可能會(huì)發(fā)現(xiàn)生活的許多層面是隨機(jī)的、而不是確定的。
從因果關(guān)系到相關(guān)性我們看待數(shù)據(jù)的方式的兩個(gè)變化——從局部變?yōu)槿恳约皬募儍糇優(yōu)榱鑱y——催生了第三個(gè)變化:從因果關(guān)系到相關(guān)性。這代表著告別總是試圖了解世界運(yùn)轉(zhuǎn)方式背后深層原因的態(tài)度,而走向僅僅需要弄清現(xiàn)象之間的聯(lián)系以及利用這些信息來(lái)解決問(wèn)題。
加拿大的研究人員正在開(kāi)發(fā)一種大數(shù)據(jù)手段,以便能在明顯癥狀出現(xiàn)之前發(fā)現(xiàn)早產(chǎn)嬰兒體內(nèi)的感染。通過(guò)把包括心率、血壓、呼吸和血氧水平等16種生命體征轉(zhuǎn)化成每秒1000多個(gè)數(shù)據(jù)點(diǎn)的信息流,他們已經(jīng)能夠找到極其輕微的變化與較為嚴(yán)重的問(wèn)題之間的相關(guān)性。最終,這項(xiàng)技術(shù)將使醫(yī)生能夠提前采取行動(dòng),從而拯救生命。
大數(shù)據(jù)所產(chǎn)生的影響將遠(yuǎn)遠(yuǎn)超出醫(yī)學(xué)和消費(fèi)品的范疇:它將深遠(yuǎn)地改變政府的運(yùn)作方式和政治的性質(zhì)。在推動(dòng)經(jīng)濟(jì)增長(zhǎng)、提供公共服務(wù)或進(jìn)行戰(zhàn)爭(zhēng)等方面,那些能夠有效利用大數(shù)據(jù)的人將擁有勝過(guò)別人的巨大優(yōu)勢(shì)。迄今為止,最令人興奮的成果出現(xiàn)在市級(jí),在這個(gè)級(jí)別上獲取數(shù)據(jù)和利用這些信息進(jìn)行實(shí)驗(yàn)要容易一些。紐約市長(zhǎng)邁克爾·布隆伯格(他本人就是靠著數(shù)據(jù)行業(yè)發(fā)家的)率先進(jìn)行了一項(xiàng)努力:該市正在利用大數(shù)據(jù)改善公共服務(wù)和降低成本。其中一個(gè)例子就是新的火災(zāi)預(yù)防策略。
非法在屋內(nèi)打隔斷的建筑物著火的可能性比其他建筑物高很多。紐約市每年接到2.5萬(wàn)宗有關(guān)房屋住得過(guò)于擁擠的投訴,但市里只有200名處理投訴的巡視員。市長(zhǎng)辦公室一個(gè)分析專(zhuān)家小組覺(jué)得大數(shù)據(jù)可以幫助解決這一需求與資源的落差。該小組建立了一個(gè)市內(nèi)全部90萬(wàn)座建筑物的數(shù)據(jù)庫(kù),并在其中加入市里19個(gè)部門(mén)所收集到的數(shù)據(jù):欠稅扣押記錄、水電使用異常、繳費(fèi)拖欠、服務(wù)切斷、救護(hù)車(chē)使用、當(dāng)?shù)胤缸锫?、鼠患投訴,諸如此類(lèi)。接下來(lái),他們將這一數(shù)據(jù)庫(kù)與過(guò)去5年中按嚴(yán)重程度排列的建筑物著火記錄進(jìn)行比較,希望找出相關(guān)性。果然,建筑物類(lèi)型和建造年份是與火災(zāi)相關(guān)的因素。不過(guò),一個(gè)沒(méi)怎么預(yù)料到的結(jié)果是,獲得外磚墻施工許可的建筑物與較低的嚴(yán)重火災(zāi)發(fā)生率之間存在相關(guān)性。
利用所有這些數(shù)據(jù),該小組建立了一個(gè)可以幫助他們確定哪些住房擁擠投訴需要緊急處理的系統(tǒng)。他們所記錄的建筑物的各種特征數(shù)據(jù)都不是導(dǎo)致火災(zāi)的原因,但這些數(shù)據(jù)與火災(zāi)隱患的增加或降低存在相關(guān)性。這種知識(shí)被證明是極具價(jià)值的:
過(guò)去房屋巡視員出現(xiàn)場(chǎng)時(shí)簽發(fā)房屋騰空令的比例只有13%,在采用新辦法之后,這個(gè)比例上升到了70% ——效率大大提高了。
大數(shù)據(jù)也正在幫助提高民主政府的透明度。一個(gè)建立在“開(kāi)放數(shù)據(jù)”概念上的運(yùn)動(dòng)已經(jīng)形成,其訴求超出了目前在發(fā)達(dá)民主國(guó)家已經(jīng)十分常見(jiàn)的信息自由法。這一運(yùn)動(dòng)的支持者呼吁政府把手上浩如煙海的普通數(shù)據(jù)向公眾開(kāi)放。
與此同時(shí),在政府推動(dòng)使用大數(shù)據(jù)的同時(shí),它們還需要保護(hù)公眾免受不正當(dāng)市場(chǎng)壟斷的侵害。管理大數(shù)據(jù)的法規(guī)甚至可能成為國(guó)家間的角斗場(chǎng)。出于對(duì)反托拉斯和保護(hù)隱私的關(guān)切,歐洲各國(guó)政府已經(jīng)在嚴(yán)查谷歌公司。臉譜網(wǎng)可能會(huì)成為世界各地類(lèi)似行動(dòng)的打擊目標(biāo),因?yàn)樗钟刑嗟膫€(gè)人數(shù)據(jù)。
外交官們應(yīng)該準(zhǔn)備好圍繞是否像對(duì)待自由貿(mào)易那樣對(duì)待信息流動(dòng)展開(kāi)交鋒。
大數(shù)據(jù)勢(shì)必將改變我們生活、工作和思考的方式。建立在強(qiáng)調(diào)因果關(guān)系基礎(chǔ)上的世界觀正在受到推崇相關(guān)性的挑戰(zhàn)。知識(shí)的占有曾經(jīng)意味著對(duì)歷史的了解,而現(xiàn)在卻意味著預(yù)言未來(lái)的能力。解決大數(shù)據(jù)所帶來(lái)的挑戰(zhàn)將不是易事。
在決策越來(lái)越多地受到數(shù)據(jù)支配的世界里,人、直覺(jué)或是不顧事實(shí)的蠻干還有什么用武之地呢?如果每個(gè)人都求助于數(shù)據(jù),都利用大數(shù)據(jù)工具的話(huà),那么不可預(yù)測(cè)性--例如人類(lèi)的本能、冒險(xiǎn)、意外甚至失誤——也許將會(huì)成為差異的關(guān)鍵。
如果真是這樣的話(huà),那么需要專(zhuān)門(mén)為人為因素辟出一席之地--即為直覺(jué)、常識(shí)、運(yùn)氣留出空間,以確保它們不會(huì)被數(shù)據(jù)和機(jī)器生成的答案擠走。
這將對(duì)社會(huì)進(jìn)步的觀念產(chǎn)生重要影響。大數(shù)據(jù)使我們可以更快地進(jìn)行實(shí)驗(yàn),對(duì)更多的線(xiàn)索展開(kāi)探索。這些優(yōu)勢(shì)應(yīng)該會(huì)導(dǎo)致更多創(chuàng)新的產(chǎn)生。但在有些時(shí)候,發(fā)明的火花迸發(fā)是數(shù)據(jù)所無(wú)法表現(xiàn)的。倘若亨利·福特當(dāng)初求助于大數(shù)據(jù)算法系統(tǒng)來(lái)研究顧客希望得到的東西,算法系統(tǒng)得到的答案會(huì)是“更快的馬匹”,也就不會(huì)有福特著名的汽車(chē)生產(chǎn)線(xiàn)了。在大數(shù)據(jù)的世界里,需要培養(yǎng)的恰恰是與人類(lèi)關(guān)系最密切的特性——?jiǎng)?chuàng)造力、直覺(jué)和上進(jìn)心,因?yàn)槿说穆斆鞑胖遣攀沁M(jìn)步的源泉。
大數(shù)據(jù)是一種資源和一種工具。它的目的是告知,而不是解釋?zhuān)凰庠诖龠M(jìn)理解,但仍然會(huì)導(dǎo)致誤解——關(guān)鍵在于人們對(duì)它的掌握程度。我們必須以一種不僅欣賞其力量,而且承認(rèn)其局限的態(tài)度來(lái)接納這種技術(shù)。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
如何考取數(shù)據(jù)分析師證書(shū):以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無(wú)外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫(kù)的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場(chǎng)景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對(duì)海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫(kù)操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問(wèn)題時(shí)有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開(kāi)啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書(shū)) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08