
多算勝少算不勝 大數(shù)據(jù):價(jià)值何在
《孫子兵法》說(shuō):“多算勝,少算不勝?!苯裉?,決定能否“多算”的重要因素在于,掌握數(shù)據(jù)的多少以及對(duì)數(shù)據(jù)處理能力的高低。有了大數(shù)據(jù)對(duì)象、大數(shù)據(jù)處理與應(yīng)用的技術(shù),再與各類(lèi)實(shí)際應(yīng)用需求相結(jié)合,大數(shù)據(jù)將給經(jīng)濟(jì)社會(huì)發(fā)展帶來(lái)巨大影響。
安暉(工業(yè)和信息化部賽迪智庫(kù)軟件與信息服務(wù)業(yè)研究所所長(zhǎng))
肯尼思?丘基爾(《經(jīng)濟(jì)學(xué)家》雜志數(shù)據(jù)編輯)
吳輔世(美國(guó)商業(yè)分析軟件與服務(wù)供應(yīng)商SAS公司大中華區(qū)總裁)
尼麗?克洛斯(歐盟委員會(huì)負(fù)責(zé)數(shù)字議程的委員)
維克托?邁爾?舍恩伯格(《大數(shù)據(jù)時(shí)代》作者)
陳建利(新加坡國(guó)立大學(xué)教授)
邁克?弗勞爾斯(紐約市打擊金融犯罪行動(dòng)組主管)
惟有堅(jiān)持“對(duì)象、技術(shù)、應(yīng)用”三位一體同步發(fā)展,才能充分實(shí)現(xiàn)大數(shù)據(jù)的價(jià)值
安暉:當(dāng)前,全球的數(shù)據(jù)總量正呈指數(shù)增長(zhǎng),過(guò)去3年間產(chǎn)生的數(shù)據(jù)量超過(guò)以往總和。移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等的迅速發(fā)展,使新數(shù)據(jù)源不斷出現(xiàn),GPS、傳感器等數(shù)據(jù)持續(xù)、大量產(chǎn)生。而數(shù)據(jù)獲取成本、存儲(chǔ)成本和處理成本的下降,也推動(dòng)了數(shù)據(jù)量的膨脹。
美國(guó)麥肯錫全球研究院2011年6月發(fā)布題為《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿》的研究報(bào)告,指出“大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)”,數(shù)據(jù)正成為與物質(zhì)資產(chǎn)和人力資本相提并論的重要生產(chǎn)要素,大數(shù)據(jù)的使用將成為未來(lái)提高競(jìng)爭(zhēng)力的關(guān)鍵要素。美國(guó)政府于2012年3月宣布“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”,以提高對(duì)大數(shù)據(jù)的收集與分析能力,增強(qiáng)國(guó)家競(jìng)爭(zhēng)力。
其實(shí),不僅是美國(guó),其他一些國(guó)家也都把大數(shù)據(jù)提升到國(guó)家戰(zhàn)略層面,認(rèn)為未來(lái)國(guó)家層面的競(jìng)爭(zhēng)力將部分體現(xiàn)為一國(guó)擁有數(shù)據(jù)的規(guī)模及運(yùn)用數(shù)據(jù)的能力。有學(xué)者把大數(shù)據(jù)形象地比喻為推動(dòng)人類(lèi)社會(huì)發(fā)展的“新石油”。
信息技術(shù)領(lǐng)域原先已經(jīng)有“海量數(shù)據(jù)”、“大規(guī)模數(shù)據(jù)”等概念,但這些概念只著眼于數(shù)據(jù)規(guī)模本身,未能充分反映數(shù)據(jù)爆發(fā)背景下的數(shù)據(jù)處理與應(yīng)用需求,而“大數(shù)據(jù)”這一新概念不僅指規(guī)模龐大的數(shù)據(jù)對(duì)象,也包含對(duì)這些數(shù)據(jù)對(duì)象的處理和應(yīng)用活動(dòng),是數(shù)據(jù)對(duì)象、技術(shù)與應(yīng)用三者的統(tǒng)一。
大數(shù)據(jù)對(duì)象既可能是實(shí)際的、有限的數(shù)據(jù)集合,如某個(gè)政府部門(mén)或企業(yè)掌握的數(shù)據(jù)庫(kù),也可能是虛擬的、無(wú)限的數(shù)據(jù)集合,如微博、微信、社交網(wǎng)絡(luò)上的全部信息。
大數(shù)據(jù)技術(shù)是從各種各樣類(lèi)型的大數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù),包括數(shù)據(jù)采集、存儲(chǔ)、管理、分析挖掘、可視化等技術(shù)及其集成。
大數(shù)據(jù)應(yīng)用是對(duì)特定的大數(shù)據(jù)集合,集成應(yīng)用大數(shù)據(jù)技術(shù),獲得有價(jià)值信息的行為。對(duì)于不同領(lǐng)域、不同企業(yè)的不同業(yè)務(wù),甚至同一領(lǐng)域不同企業(yè)的相同業(yè)務(wù)來(lái)說(shuō),由于其業(yè)務(wù)需求、數(shù)據(jù)集合和分析挖掘目標(biāo)存在差異,所運(yùn)用的大數(shù)據(jù)技術(shù)和大數(shù)據(jù)信息系統(tǒng)也可能有著相當(dāng)大的不同。惟有堅(jiān)持“對(duì)象、技術(shù)、應(yīng)用”三位一體同步發(fā)展,才能充分實(shí)現(xiàn)大數(shù)據(jù)的價(jià)值。
大數(shù)據(jù)是信息技術(shù)與專(zhuān)業(yè)技術(shù)、信息技術(shù)產(chǎn)業(yè)與各行業(yè)領(lǐng)域緊密融合的典型領(lǐng)域,有著旺盛的應(yīng)用需求、廣闊的應(yīng)用前景。為把握這一新興領(lǐng)域帶來(lái)的新機(jī)遇,需要不斷跟蹤研究大數(shù)據(jù),不斷提升對(duì)大數(shù)據(jù)的認(rèn)知和理解,堅(jiān)持技術(shù)創(chuàng)新與應(yīng)用創(chuàng)新的協(xié)同共進(jìn),加快經(jīng)濟(jì)社會(huì)各領(lǐng)域的大數(shù)據(jù)開(kāi)發(fā)與利用,推動(dòng)國(guó)家、行業(yè)、企業(yè)對(duì)于數(shù)據(jù)的應(yīng)用需求和應(yīng)用水平進(jìn)入新的階段?! ?/span>
肯尼思?丘基爾:大數(shù)據(jù)一般是指一整套新的技術(shù),分析社會(huì)中存在的比以往多得多的信息,通過(guò)這些新的分析工具,我們能從大量信息中發(fā)現(xiàn)一些有價(jià)值的東西。一些技術(shù),如非線性或網(wǎng)絡(luò)映射、機(jī)器學(xué)習(xí)等都是大數(shù)據(jù)分析的一個(gè)側(cè)面。不管是在生物科學(xué)研究,還是在確定一個(gè)城市可能發(fā)生火災(zāi)的位置等公共政策問(wèn)題上,大數(shù)據(jù)都在給世界帶來(lái)變革,因?yàn)槿祟?lèi)有史以來(lái)第一次可以真正地收集海量的信息。
吳輔世:“大數(shù)據(jù)”只是一個(gè)相對(duì)的概念。大數(shù)據(jù)可以是多種類(lèi)海量數(shù)據(jù),它挑戰(zhàn)傳統(tǒng)分析技術(shù),正推動(dòng)分析技術(shù)行業(yè)革新。這種革新始于企業(yè)需要處理這些數(shù)量龐大又變化迅速的數(shù)據(jù),而舊的分析技術(shù)已無(wú)法滿(mǎn)足需求。新數(shù)據(jù)分析技術(shù)和舊技術(shù)的不同之處在于:一方面,數(shù)據(jù)膨脹要求數(shù)據(jù)挖掘和統(tǒng)計(jì)分析技術(shù)性能的飛躍。另一方面,不同規(guī)模的企業(yè)如今都面臨大數(shù)據(jù)時(shí)代帶來(lái)的挑戰(zhàn),分析技術(shù)必須朝著平民化、易操作化方向發(fā)展:簡(jiǎn)單易懂、容易操作并且能為各類(lèi)企業(yè)所用。SAS可視化分析解決方案就是一個(gè)很好的例子,即使使用者毫無(wú)數(shù)據(jù)分析專(zhuān)業(yè)背景,也能通過(guò)直觀的圖形界面輕松地進(jìn)行數(shù)據(jù)分析。
大數(shù)據(jù)可以讓我們更好地了解自己所生存的社會(huì),并幫助我們做出更加明智的選擇
尼麗?克洛斯:世界上每分鐘產(chǎn)生1700TB 的數(shù)據(jù),但是吸引我們的不僅僅是這個(gè)龐大的數(shù)字本身,還在于我們可以用這些數(shù)據(jù)做些什么。大數(shù)據(jù)是歐洲經(jīng)濟(jì)的“燃料”,如果這些數(shù)據(jù)可以在網(wǎng)上交互使用,它們將被用作改造社會(huì)、創(chuàng)造機(jī)遇和使服務(wù)更加透明高效和個(gè)性化的重要工具。
無(wú)論是工業(yè)、金融、研究、辦公、媒體還是日常生活,產(chǎn)生的數(shù)據(jù)均可成為大數(shù)據(jù)的一部分。歐盟支持大數(shù)據(jù)建設(shè)的第一步是進(jìn)行監(jiān)管。歐委會(huì)于2012 年1月提交的“通用數(shù)據(jù)保護(hù)條例”等規(guī)定,旨在以較低的費(fèi)用和簡(jiǎn)捷的重復(fù)使用條件,更加便捷地使用和重新使用公共數(shù)據(jù)。
大數(shù)據(jù)是一項(xiàng)革命,也會(huì)創(chuàng)造大量如“數(shù)據(jù)科學(xué)家”之類(lèi)的新職業(yè)和新的就業(yè)機(jī)會(huì)。一些歐洲公司已經(jīng)開(kāi)始使用網(wǎng)上數(shù)據(jù),并且在醫(yī)療保健、環(huán)境保護(hù)和科學(xué)實(shí)驗(yàn)領(lǐng)域取得了巨大的成功。
目前亟須對(duì)互聯(lián)網(wǎng)上數(shù)據(jù)進(jìn)行分析的人才,盡管很多新人已經(jīng)開(kāi)始關(guān)注這一領(lǐng)域,但就業(yè)市場(chǎng)上更需要的是有經(jīng)驗(yàn)、有知識(shí)儲(chǔ)備的人才?! ?/span>
維克托?邁爾?舍恩伯格:真正由大數(shù)據(jù)所構(gòu)建的信息社會(huì)能夠?yàn)槊總€(gè)人提供服務(wù),讓我們更好地了解自己所生存的社會(huì),幫助我們更好地做出選擇。
今天在日常生活中,人們的各種行為更多是依據(jù)感性的經(jīng)驗(yàn)、感覺(jué)和所習(xí)得的知識(shí),而不是以數(shù)據(jù)為基礎(chǔ)的理性的實(shí)證分析。在未來(lái)的5到10年時(shí)間里,如果醫(yī)生給病患使用的治療手段不是建立在大數(shù)據(jù)分析的基礎(chǔ)上,我們就理應(yīng)會(huì)感到憤怒。
我們也會(huì)期待學(xué)校和老師能夠在對(duì)教學(xué)案例進(jìn)行大數(shù)據(jù)分析的基礎(chǔ)上改進(jìn)他們的教學(xué)方法并合理安排教學(xué)內(nèi)容。同樣,公司和企業(yè)會(huì)利用對(duì)客戶(hù)進(jìn)行大數(shù)據(jù)分析來(lái)創(chuàng)造新產(chǎn)品和新服務(wù)。當(dāng)然,政府也會(huì)在大數(shù)據(jù)分析的基礎(chǔ)上改進(jìn)政策。所以,未來(lái)社會(huì)不僅意味著人們將擁有更加先進(jìn)的科技設(shè)施和更方便的工具,同時(shí)也意味著更加信息化。
要實(shí)現(xiàn)上述目標(biāo),需要我們收集大量的數(shù)據(jù)并做出行之有效的分析,到那個(gè)時(shí)候,人人都會(huì)意識(shí)到數(shù)據(jù)的價(jià)值?! ?/span>
陳建利:機(jī)構(gòu)和組織通過(guò)分析大數(shù)據(jù)可以挖掘有價(jià)值的信息。如銀行可以通過(guò)分析客戶(hù)數(shù)據(jù)以確定哪些潛在的信用卡用戶(hù)可能無(wú)法還款;交管部門(mén)通過(guò)整合交通狀況、天氣以及駕駛員的地點(diǎn)信息等數(shù)據(jù),可以更好地管理交通;大數(shù)據(jù)可能還會(huì)影響到人們的行為。如果駕駛員通過(guò)大數(shù)據(jù)了解到接下來(lái)15分鐘原本要走的一些路段預(yù)測(cè)將出現(xiàn)交通擁堵,那么他就可能會(huì)決定繞道而行?! ?/span>
吳輔世:隨著大數(shù)據(jù)時(shí)代變革的深入,企業(yè)開(kāi)始逐漸認(rèn)識(shí)到數(shù)據(jù)的重要性,并開(kāi)始真正重視如何有效利用這些數(shù)據(jù)來(lái)產(chǎn)生更大的智慧和價(jià)值。大多數(shù)企業(yè)都開(kāi)始意識(shí)到“數(shù)據(jù)”將成為其核心資產(chǎn),希望通過(guò)收集和分析大數(shù)據(jù)來(lái)獲取競(jìng)爭(zhēng)優(yōu)勢(shì)。鑒于豐富的數(shù)據(jù)已經(jīng)變成企業(yè)新的資產(chǎn),很顯然它所帶來(lái)的社會(huì)效益和經(jīng)濟(jì)效益也將是無(wú)窮無(wú)盡的。大數(shù)據(jù)還將有利于解決一系列社會(huì)公共問(wèn)題,包括醫(yī)療保健、失業(yè)、教育和經(jīng)濟(jì)增長(zhǎng)等等。舉例來(lái)說(shuō),根據(jù)經(jīng)濟(jì)與商業(yè)研究中心的最新研究,大數(shù)據(jù)將為英國(guó)經(jīng)濟(jì)增加2160億英鎊(約合3467億美元)以上的潛在收益,這些收益來(lái)自于效率的提升和創(chuàng)新?! ?/span>
邁克?弗勞爾斯:大數(shù)據(jù)在市政管理中應(yīng)用的好處是有助于優(yōu)化行政資源的使用,使公共支出產(chǎn)生最大的效益。大數(shù)據(jù)在紐約市的執(zhí)法、經(jīng)濟(jì)規(guī)劃、防災(zāi)和災(zāi)后恢復(fù)等方面都有應(yīng)用。比如大數(shù)據(jù)可以幫助預(yù)防犯罪,大數(shù)據(jù)的應(yīng)用可讓執(zhí)法人員“先發(fā)制人”,在犯罪行為造成損害之前就能偵查到?! ?/span>
安暉:大數(shù)據(jù)對(duì)人類(lèi)經(jīng)濟(jì)社會(huì)發(fā)展影響巨大,歸納起來(lái)主要有三個(gè)方面:一是能夠推動(dòng)實(shí)現(xiàn)巨大經(jīng)濟(jì)效益。據(jù)麥肯錫全球研究院測(cè)算,大數(shù)據(jù)將給美國(guó)醫(yī)療服務(wù)業(yè)帶來(lái)3000億美元的價(jià)值,使美國(guó)零售業(yè)凈利潤(rùn)增長(zhǎng)達(dá)到60%,使制造業(yè)產(chǎn)品開(kāi)發(fā)、組裝成本下降50%。而大數(shù)據(jù)所帶來(lái)的新的信息技術(shù)應(yīng)用需求,將推動(dòng)整個(gè)信息技術(shù)產(chǎn)業(yè)的創(chuàng)新發(fā)展,預(yù)計(jì)2013年全球大數(shù)據(jù)直接和間接拉動(dòng)信息技術(shù)支出將達(dá)1200億美元。
二是能夠推動(dòng)增強(qiáng)社會(huì)管理水平。大數(shù)據(jù)在政府和公共服務(wù)領(lǐng)域的應(yīng)用,可有效推動(dòng)政務(wù)工作開(kāi)展,提高政府部門(mén)的決策水平、服務(wù)效率和社會(huì)管理水平,產(chǎn)生巨大社會(huì)價(jià)值。歐洲多個(gè)城市通過(guò)分析實(shí)時(shí)采集的交通流量數(shù)據(jù),指導(dǎo)駕車(chē)出行者選擇最佳路徑,從而改善城市交通狀況。
三是能夠推動(dòng)提高安全保障能力。大數(shù)據(jù)在國(guó)防、反恐、安全等領(lǐng)域的應(yīng)用,將對(duì)各部門(mén)搜集到的各類(lèi)信息進(jìn)行自動(dòng)分類(lèi)、整理、分析,有效解決情報(bào)、監(jiān)視和偵察系統(tǒng)不足等問(wèn)題,提高國(guó)家安全保障能力??偠灾?,大數(shù)據(jù)將為人們認(rèn)識(shí)世界和改造世界提供新的強(qiáng)有力工具,使人們能更加容易地把握事物規(guī)律,更準(zhǔn)確地預(yù)測(cè)未來(lái)。
如果沒(méi)有高性能的分析工具,大數(shù)據(jù)的價(jià)值就得不到釋放
陳建利:只有當(dāng)我們能夠提出正確的問(wèn)題,數(shù)據(jù)才是有用的。所以,更多的相關(guān)數(shù)據(jù)將會(huì)幫助我們,但也可以肯定的是,如果對(duì)數(shù)據(jù)沒(méi)有良好的分析、處理,那么大數(shù)據(jù)也沒(méi)有幫助。
吳輔世:如果沒(méi)有高性能的分析工具,大數(shù)據(jù)的價(jià)值就得不到釋放。如果不能及時(shí)有效處理,大數(shù)據(jù)的堆積和極速變化帶來(lái)的后果將是我們無(wú)法掌控的, 它可能會(huì)為人類(lèi)的生存、生活埋下隱患。不過(guò),我相信2013 年是大數(shù)據(jù)蓬勃發(fā)展的一年,2013 年也應(yīng)該是大數(shù)據(jù)真正進(jìn)入大分析的一年。
除了大分析的新技術(shù),企業(yè)還需要新人才。大數(shù)據(jù)時(shí)代對(duì)分析人才例如數(shù)據(jù)科學(xué)家的需求將激增,盡早開(kāi)始人才儲(chǔ)備也是企業(yè)穩(wěn)步發(fā)展的優(yōu)勢(shì)之一?! ?/span>
肯尼思?丘基爾:大數(shù)據(jù)建立在統(tǒng)計(jì)學(xué)基礎(chǔ)上。在大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)分析更加重要,但它與統(tǒng)計(jì)方法又有許多不同。
在傳統(tǒng)統(tǒng)計(jì)學(xué)中,我們所做的是試圖通過(guò)最小量的樣本觀測(cè)來(lái)發(fā)現(xiàn)規(guī)律。由于數(shù)據(jù)的采集、儲(chǔ)存和分析的成本高,因此人們只能采用抽樣的方法。而在大數(shù)據(jù)時(shí)代,我們收集所有的數(shù)據(jù),至少是與我們所研究的現(xiàn)象相關(guān)的所有可獲得的數(shù)據(jù),這是傳統(tǒng)抽樣方法做不到的。
另一個(gè)不同是, 在統(tǒng)計(jì)學(xué)中我們進(jìn)行分析時(shí),考慮的是與研究對(duì)象具有內(nèi)在關(guān)系的因素。例如,分析一個(gè)借款者的信用狀況,我們可能考慮若干個(gè)指標(biāo),據(jù)此判斷他是否會(huì)按時(shí)還款。
大數(shù)據(jù)時(shí)代, 我們需要把一些具有非內(nèi)在關(guān)系的信息考慮進(jìn)來(lái),比如借款人的頭發(fā)顏色、其所使用的網(wǎng)絡(luò)瀏覽器、打字時(shí)是全部用大寫(xiě)還是小寫(xiě)字母或者按照正常的拼寫(xiě)格式。美國(guó)一家金融分析機(jī)構(gòu)就用到這方面的信息來(lái)預(yù)測(cè)顧客是否會(huì)按時(shí)還款。也就是說(shuō), 我們用到了外在的信息,但這些是具有相關(guān)性的信息。
在充分認(rèn)識(shí)到大數(shù)據(jù)帶來(lái)機(jī)遇的同時(shí),也應(yīng)該認(rèn)識(shí)到大數(shù)據(jù)帶來(lái)的可能性風(fēng)險(xiǎn)
肯尼思?丘基爾:大數(shù)據(jù)時(shí)代令隱私保護(hù)問(wèn)題更加突出。大數(shù)據(jù)的價(jià)值在于存儲(chǔ)后的再使用。不過(guò),關(guān)鍵的一個(gè)問(wèn)題是,收集、保存一切信息,與隱私保護(hù)政策是有沖突的。保存一切信息是必要的,但是在這么做之前,我們有必要問(wèn)自己一個(gè)問(wèn)題,即現(xiàn)行的隱私保護(hù)政策是不是妨礙了我們正在邁入的大數(shù)據(jù)世界。社會(huì)有必要就此進(jìn)行大辯論,以便為大數(shù)據(jù)時(shí)代的隱私保護(hù)劃定新的邊界?! ?/span>
維克托?邁爾?舍恩伯格:大數(shù)據(jù)時(shí)代必然會(huì)導(dǎo)致人們更多的個(gè)人信息被搜集和捕捉,這勢(shì)必會(huì)使很多人感到不舒服甚至不安。但是,對(duì)數(shù)據(jù)感覺(jué)到恐慌或者害怕只是一種“小數(shù)據(jù)時(shí)代”應(yīng)有的情緒。在大數(shù)據(jù)時(shí)代,每個(gè)人身上能夠被獲取的數(shù)據(jù)點(diǎn)不再是百十個(gè)而是高達(dá)百萬(wàn)甚至上億個(gè),誰(shuí)都根本不可能把某一個(gè)人身上的所有數(shù)據(jù)點(diǎn)全部掌握。所以在保護(hù)個(gè)人隱私的時(shí)候我們可能需要換一種思考方式。比如,我們的關(guān)注重點(diǎn)不應(yīng)該是要不要提供出這些數(shù)據(jù),而是如何使用這些數(shù)據(jù)。
實(shí)際上,大數(shù)據(jù)時(shí)代帶來(lái)的挑戰(zhàn)是如何利用大數(shù)據(jù)分析預(yù)測(cè)未來(lái),而不是審視過(guò)去。比如,一些機(jī)構(gòu)可能在數(shù)據(jù)分析的基礎(chǔ)上做出預(yù)期評(píng)估,來(lái)拒絕一個(gè)人申請(qǐng)的抵押貸款,或者否決病患繼續(xù)進(jìn)行治療的必要。在大數(shù)據(jù)分析的基礎(chǔ)上,人們的個(gè)人意志和被公平對(duì)待的要求很可能被否定,這才是應(yīng)該擔(dān)心的地方。
對(duì)大數(shù)據(jù)進(jìn)行集中管理會(huì)使其變得更容易查找,而且便于混合提取不同類(lèi)別的數(shù)據(jù)。但是集中管理可能會(huì)造成嚴(yán)重的問(wèn)題:一是可能淪為恐怖分子的襲擊目標(biāo),二是會(huì)賦予管理機(jī)構(gòu)過(guò)于集中的信息掌控權(quán)。
在我看來(lái),在互聯(lián)網(wǎng)全球化的時(shí)代,我們完全可以從不同的數(shù)據(jù)庫(kù)中采集信息而不是一定要把它們集中在一起。
事實(shí)上,目前的世界大數(shù)據(jù)儲(chǔ)存已經(jīng)呈分散化的趨勢(shì),數(shù)據(jù)市場(chǎng)將會(huì)允許不同地域和不同條件下數(shù)據(jù)的儲(chǔ)存,人們完全可以從各地的大數(shù)據(jù)庫(kù)中提取不同的數(shù)據(jù)再進(jìn)行協(xié)同整合?! ?/span>
吳輔世:任何事情都有其兩面性。在充分認(rèn)識(shí)大數(shù)據(jù)帶來(lái)的機(jī)遇和利益的同時(shí),我們也應(yīng)該認(rèn)識(shí)到大數(shù)據(jù)帶來(lái)的可能性風(fēng)險(xiǎn)。大數(shù)據(jù)的數(shù)據(jù)量巨大、非結(jié)構(gòu)性強(qiáng)、來(lái)源龐雜,當(dāng)它超出我們控制范圍時(shí),不可預(yù)測(cè)的問(wèn)題就將發(fā)生,這就對(duì)海量數(shù)據(jù)的分析及應(yīng)用要求日益增強(qiáng),對(duì)未來(lái)的預(yù)測(cè)能力和優(yōu)化性前瞻洞察需求更高?! ?/span>
安暉:對(duì)大數(shù)據(jù)應(yīng)用必須保持清醒認(rèn)識(shí),既不能迷信其分析結(jié)果,也不能因?yàn)槠洳煌耆珳?zhǔn)確而否定其重要作用。
一方面,由于各種原因,所分析處理的數(shù)據(jù)對(duì)象中不可避免地會(huì)包括各種錯(cuò)誤數(shù)據(jù)、無(wú)用數(shù)據(jù),加之作為大數(shù)據(jù)技術(shù)核心的數(shù)據(jù)分析、人工智能等技術(shù)尚未完全成熟,所以對(duì)計(jì)算機(jī)完成的大數(shù)據(jù)分析處理的結(jié)果,無(wú)法要求其完全準(zhǔn)確。例如,谷歌通過(guò)分析億萬(wàn)用戶(hù)搜索內(nèi)容能夠比專(zhuān)業(yè)機(jī)構(gòu)更快地預(yù)測(cè)流感暴發(fā),但由于微博上無(wú)用信息的干擾,這種預(yù)測(cè)也曾多次出現(xiàn)不準(zhǔn)確的情況。
另一方面,必須清楚定位的是,大數(shù)據(jù)作用與價(jià)值的重點(diǎn)在于能夠引導(dǎo)和啟發(fā)大數(shù)據(jù)應(yīng)用者的創(chuàng)新思維,輔助決策。簡(jiǎn)單而言,若是處理一個(gè)問(wèn)題,通常人能夠想到一種方法,而大數(shù)據(jù)能夠提供十種參考方法,哪怕其中只有三種可行,也將解決問(wèn)題的思路拓展了三倍。
所以,客觀認(rèn)識(shí)和發(fā)揮大數(shù)據(jù)的作用,不夸大、不縮小,是準(zhǔn)確認(rèn)知和應(yīng)用大數(shù)據(jù)的前提。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10