99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)
大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)
2017-04-17
收藏

大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)

一除了機(jī)遇還有挑戰(zhàn)

世界潮流,浩浩蕩蕩,不可阻擋,國(guó)人講究識(shí)時(shí)務(wù)者為俊杰,信息時(shí)代,數(shù)據(jù)爆炸。大數(shù)據(jù)大勢(shì)當(dāng)前,究竟采取什么樣的態(tài)度才是真正的“識(shí)時(shí)務(wù)”?

大數(shù)據(jù)時(shí)代并不會(huì)自動(dòng)生成,總是需要不斷地提出和解決大數(shù)據(jù)發(fā)展所遇到的問(wèn)題和矛盾,才會(huì)有切實(shí)的進(jìn)步。事物發(fā)展的不同階段有不同的“時(shí)務(wù)”,需要不同的應(yīng)對(duì)。

2009 年,大數(shù)據(jù)成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。而早在1980 年,著名未來(lái)學(xué)家A. 托夫勒出版《第三次浪潮》,其中已將大數(shù)據(jù)贊頌為“第三次浪潮的華彩樂(lè)章”。此間30 余年,能不能看作大數(shù)據(jù)發(fā)展的萌芽期? 多數(shù)人對(duì)數(shù)據(jù)爆炸還懵懵懂懂,世界需要賽博世界( Cyber world) 的開(kāi)拓者,需要大數(shù)據(jù)潮流的預(yù)示者,需要導(dǎo)師,需要先聲奪人。

一旦人們接受大數(shù)據(jù)洶涌而來(lái)的現(xiàn)實(shí),就需要既講機(jī)遇,也講挑戰(zhàn)。我們固然仍需要啟蒙,需要科普,需要科學(xué)理論和方法論的“二傳手”,但不需要跟風(fēng),不需要屏蔽了部分信息的“偏息圖”,不需要抓住一點(diǎn)不及其余的“唯數(shù)據(jù)論”,不需要“應(yīng)運(yùn)而生”的投機(jī)者。我們更需要切實(shí)有學(xué)術(shù)增加值的數(shù)據(jù)學(xué)科的拓展,更需要批判性思維。當(dāng)事物的內(nèi)在矛盾尚未充分暴露時(shí)就提出預(yù)警,這是一種制衡性的存在,是構(gòu)成時(shí)代“全息圖”的必要條件之一。

總之,在事物的不同成長(zhǎng)期,學(xué)者應(yīng)該有不同的擔(dān)當(dāng),其使命的重心要有所不同。面對(duì)任何社會(huì)潮流,學(xué)者應(yīng)該努力去做一位“麥田里的守望者”。

基于以上認(rèn)識(shí),且基于已經(jīng)有很多人在闡述大數(shù)據(jù)對(duì)統(tǒng)計(jì)的機(jī)遇,本文論述大數(shù)據(jù)對(duì)統(tǒng)計(jì)可能形成的挑戰(zhàn)。

二、大數(shù)據(jù)能否淹沒(méi)整個(gè)世界

( 一) 互聯(lián)網(wǎng)外還有大魚(yú)

面對(duì)大數(shù)據(jù)的迅猛發(fā)展,有的人認(rèn)為,大數(shù)據(jù)可以覆蓋整個(gè)世界,萬(wàn)維而結(jié),天網(wǎng)恢恢,疏而不漏,概莫能外。甚至有人進(jìn)而產(chǎn)生一種臆想: 即使不能全覆蓋也不要緊,大數(shù)據(jù)都覆蓋不了的,那就是落伍的,就不值得覆蓋,無(wú)關(guān)大局,推斷整體時(shí)可以放棄。

實(shí)際情況未必完全如此。比如,部分技術(shù)精英,最早使用互聯(lián)網(wǎng)和手機(jī)的信息技術(shù)先驅(qū)者,后來(lái)卻竭力躲避“技術(shù)專政”。部分政治、宗教人士,最典型的如本·拉登,傾向于遠(yuǎn)離互聯(lián)網(wǎng)。還有部分富人為了避稅、避仇等原因,也盡可能躲避互聯(lián)網(wǎng)的覆蓋。顯然,這三部分人是大數(shù)據(jù)難以覆蓋的,而他們的經(jīng)濟(jì)行為恰恰對(duì)分析社會(huì)格局非常重要,推論時(shí)不可忽視。

無(wú)論是數(shù)理統(tǒng)計(jì),還是數(shù)據(jù)科學(xué),都對(duì)其在經(jīng)濟(jì)特別是金融領(lǐng)域的應(yīng)用情有獨(dú)鐘。那么,在大數(shù)據(jù)時(shí)代的經(jīng)濟(jì)領(lǐng)域里,所謂地下經(jīng)濟(jì)( 未觀測(cè)經(jīng)濟(jì)) 能不能被完全取締? 甚至,現(xiàn)金交易和易貨貿(mào)易能不能被徹底消除? 果真能夠“數(shù)據(jù)全覆蓋”,就意味著信息技術(shù)對(duì)人類經(jīng)濟(jì)行為的一種根本顛覆。數(shù)據(jù)已成海量、指數(shù)型增長(zhǎng),我們就能做此斷言嗎?

大數(shù)據(jù)的倡導(dǎo)者通常把民主、開(kāi)放和理性作為必然的前提,這個(gè)前提確實(shí)應(yīng)該得到滿足,然而其在不同國(guó)家和地區(qū)的實(shí)現(xiàn)程度是大不相同的。人類社會(huì)并不會(huì)同步進(jìn)入大數(shù)據(jù)時(shí)代,“整個(gè)世界可能被割裂成大數(shù)據(jù)時(shí)代、小數(shù)據(jù)時(shí)代和物數(shù)據(jù)時(shí)代”( 知名IT 評(píng)論人謝文語(yǔ)) [1],同一個(gè)地球,卻是三種時(shí)代并存。

(二) 數(shù)據(jù)再大也是相對(duì)的

無(wú)論數(shù)據(jù)形成多么迅猛,無(wú)論覆蓋如何全面,無(wú)論規(guī)模怎樣大,大數(shù)據(jù)集仍然存在“數(shù)據(jù)黑暗地帶”或“數(shù)據(jù)陰影區(qū)域”,也就是說(shuō),大數(shù)據(jù)集仍然存在著無(wú)法周全的“信號(hào)問(wèn)題”。

數(shù)據(jù)的確大到了意想不到的程度,然而“大數(shù)據(jù)之大”也是相對(duì)的。海,對(duì)于人類、對(duì)于地球而言固然大,對(duì)宇宙來(lái)說(shuō)就不那么大了。即便局限于地球,所謂海量數(shù)據(jù)對(duì)所要研究的問(wèn)題而言,規(guī)模也仍未見(jiàn)得就足夠大。

比如,從皮尤研究中心可以獲悉,美國(guó)上網(wǎng)的成年人中只有16%使用推特網(wǎng)( Twitter) ,與整體人口相比,其中年輕人和城市人的比例偏多,因而對(duì)全社會(huì)狀況的分析來(lái)說(shuō),這絕不是一個(gè)具有代表性的樣本。推特網(wǎng)的數(shù)據(jù)顯示,人們離家越遠(yuǎn)越快樂(lè)?;蛟S的確有人如此,但對(duì)多數(shù)人來(lái)說(shuō),這種推論是真實(shí)的么?

有報(bào)道稱,全球所有數(shù)據(jù)的90% 產(chǎn)生于過(guò)去兩年,如果這個(gè)趨勢(shì)按照大數(shù)據(jù)擁躉者的估計(jì)那樣持續(xù),那么今天的大數(shù)據(jù)相對(duì)而言只是明天的小數(shù)據(jù),我們不僅不能窮盡所有數(shù)據(jù),而且我們對(duì)數(shù)據(jù)的掌握始終將是非常有限的。從邏輯上講,今天的“幾近全覆蓋”到了明天就會(huì)大打折扣,今天因數(shù)據(jù)全面而得到的結(jié)論也許會(huì)被明天否定,所謂全覆蓋之說(shuō)缺乏延展性。

牛津大學(xué)教授維克托·邁爾·舍恩伯格被譽(yù)為“大數(shù)據(jù)時(shí)代的預(yù)言家”,他和肯尼思·庫(kù)克耶編寫(xiě)了《大數(shù)據(jù)時(shí)代》[1]一書(shū),其中明確指出: “人們總是受到現(xiàn)有測(cè)量和認(rèn)知工具的局限,我們明天使用的工具很可能比今天的強(qiáng)大數(shù)倍甚至上千倍,我們現(xiàn)在所擁有的知識(shí)較之明天就顯得微不足道了。

( 三) “道魔博弈”是動(dòng)態(tài)無(wú)盡的

確實(shí),科學(xué)技術(shù)再?gòu)?qiáng)大,也始終處于不斷改進(jìn)之中,相對(duì)于所要解決的問(wèn)題而言,科學(xué)技術(shù)總是不完善的。因此,海量數(shù)據(jù)的規(guī)模與人類的有效處理能力之間也將一直存在著緊張關(guān)系,當(dāng)前的主流軟件工具能否在合理時(shí)間內(nèi)完成海量數(shù)據(jù)處理的全過(guò)程,以生成有助于各類決策的信息,將始終是挑戰(zhàn)性的。

更為要緊的疑問(wèn)是,如果現(xiàn)實(shí)世界能被賽博世界完全操縱,不管它多么科學(xué)、多么先驅(qū),現(xiàn)實(shí)世界還會(huì)存在么? 如果大數(shù)據(jù)真是“全能方法”,那人類還能進(jìn)步么? 還用進(jìn)步嗎? 說(shuō)到底,大數(shù)據(jù)還是要為人類服務(wù)的,就人類的工具與其工作對(duì)象的關(guān)系而言,到底是道高一尺魔高一丈,還是道高一尺魔高九寸? 到底是水漲船高,還是“水漲沒(méi)頂”?

微軟的史密斯說(shuō),“如果給我提供所有數(shù)據(jù),我就能拯救世界?!笨烧l(shuí)都知道,世界還在發(fā)展之中,而數(shù)據(jù)不過(guò)是對(duì)世界運(yùn)行的記錄,只要世界還沒(méi)有完結(jié),就不可能提供出“所有數(shù)據(jù)”??梢?jiàn),史密斯聰明地預(yù)設(shè)了一個(gè)不可能滿足的前提條件,他拯救世界的能力不可證偽。史密斯顯然是在效仿阿基米德,給我一個(gè)支點(diǎn),我就能撬動(dòng)地球。

三、信息與噪聲的辯證關(guān)系

大數(shù)據(jù)發(fā)展也引發(fā)了對(duì)基本概念的重新思考。信息和數(shù)據(jù)含義不同,但二者密切相關(guān)。英文的data,我們通常譯為“數(shù)據(jù)”。有學(xué)者提出,“數(shù)據(jù)之據(jù)”表明了其內(nèi)涵的質(zhì)的規(guī)定性,按照這種說(shuō)法,可以有“數(shù)碼與數(shù)據(jù)”之別,或者說(shuō)“有據(jù)之?dāng)?shù)”與“無(wú)據(jù)之?dāng)?shù)”之別。我們知道,“具象數(shù)據(jù)”肯定給出了某種信息,但抽象的數(shù)碼全都是信息嗎? 循著這類問(wèn)題思考,就涉及到了數(shù)據(jù)學(xué)科的基礎(chǔ)理論甚至哲學(xué)層面,個(gè)人的見(jiàn)解可能會(huì)有很大差異。

不過(guò)筆者認(rèn)為,以下關(guān)于信息與噪聲的認(rèn)識(shí)應(yīng)該是比較容易得到認(rèn)同的。

( 一) 信息與噪聲的“一體性”

在科學(xué)領(lǐng)域,很少看到所有數(shù)據(jù)都集中到一個(gè)明確的結(jié)論上的情況。真正的數(shù)據(jù)非常噪雜。數(shù)據(jù)就在那里,信息和噪聲同時(shí)空存在,統(tǒng)計(jì)學(xué)家納特·西爾弗說(shuō): “只要能將信號(hào)與噪聲區(qū)分開(kāi)來(lái),我們就能獲得所需的任何信息?!保?]這位預(yù)測(cè)界的“神奇小子”說(shuō)的是絕對(duì)真理,但問(wèn)題恰恰在于信號(hào)與噪聲難以區(qū)分,二者隨使用者的變化而變化。從最終用途看,大部分?jǐn)?shù)據(jù)對(duì)用戶而言都是噪聲。

人們擁有的信息呈指數(shù)增長(zhǎng),而需要驗(yàn)證的假設(shè)也正在以同樣的速度增長(zhǎng)。亟待解決的問(wèn)題及其復(fù)雜程度也正在以同樣的速度增長(zhǎng)。大量的信息成倍增加,但有用的信息卻非常有限。西爾弗指出:“噪聲的增長(zhǎng)速度要比信號(hào)快得多”,因此,“信號(hào)的比例正在縮小,我們需要找到更好的方法對(duì)信號(hào)和噪聲進(jìn)行區(qū)分?!睌?shù)據(jù)科學(xué)家通常用4V 表達(dá)大數(shù)據(jù)的特點(diǎn),有學(xué)者補(bǔ)充提出稀疏性( Sparsity) ,即有價(jià)值的信息相對(duì)于數(shù)據(jù)量而言非常至少,這個(gè)補(bǔ)充很有見(jiàn)地。

沒(méi)有信息,就無(wú)法辨明真相。這會(huì)讓人們以為:信息越多,就越靠近真相。很多情況如此,但這不是絕對(duì)的。信息只是得到真相的必要條件,而不是充分條件。無(wú)信息則無(wú)真相,不等于有信息便有真相。有信息而無(wú)真相,其重要原因就是噪聲與信息的“一體性”。1936 年,《文學(xué)文摘》對(duì)240 萬(wàn)美國(guó)公民調(diào)查,得出蘭登勝選的預(yù)測(cè),而喬治·蓋洛普只調(diào)查了5000 人,卻宣布羅斯福會(huì)贏。這是小數(shù)據(jù)戰(zhàn)勝大數(shù)據(jù)的典型案例,主要原因就是《文學(xué)文摘》的大數(shù)據(jù)中噪聲過(guò)多。

科學(xué)使社會(huì)變得明朗,但科學(xué)同樣也使社會(huì)組織變得更加復(fù)雜。信號(hào)過(guò)多又會(huì)使意義識(shí)別工作異常困難,這些信號(hào)可能會(huì)被淹沒(méi)在震耳欲聾的噪聲中。在統(tǒng)計(jì)學(xué)中,將噪聲誤以為信號(hào)的行為被稱為過(guò)度擬合。遺憾的是,現(xiàn)實(shí)中過(guò)度擬合的事例太多。

無(wú)論從靜態(tài)還是從動(dòng)態(tài)看,信息與噪聲之間都沒(méi)有絕對(duì)的界限。如此說(shuō)來(lái),大數(shù)據(jù)時(shí)代同時(shí)也就是“大噪聲時(shí)代”。

(二) 信息和噪聲的“對(duì)象相對(duì)性”

種種情況表明了信息和噪聲的“對(duì)象相對(duì)性”。

數(shù)據(jù)庫(kù)專家杰克·奧爾森指出: “數(shù)據(jù)能滿足其既定的用途,它才有質(zhì)量。”“信息的質(zhì)量不僅取決于它本身,還取決于它的用途。”

對(duì)某些人而言是信息,對(duì)另外一些人而言則可能完全是噪聲。比較典型的例子如,第二次世界大戰(zhàn)時(shí)美軍內(nèi)部使用印第安語(yǔ)聯(lián)絡(luò),實(shí)際上已經(jīng)是明碼呼叫,對(duì)當(dāng)時(shí)的日軍而言,則是不可破解的密碼。

本來(lái)是有用的、待用的信息,可是接受者沒(méi)有能力在適當(dāng)?shù)臅r(shí)間里接受和消化,甚至成為接受其他更有用信息的負(fù)擔(dān),此信息對(duì)該接受者而言實(shí)質(zhì)上處于噪聲狀態(tài)。究竟是信息還是噪聲,依接受者的數(shù)據(jù)處理能力而定。

數(shù)據(jù)中信息多少還與使用者性格密切相關(guān)。對(duì)“狐貍型決策者”而言,數(shù)據(jù)越多,其提取的有用信息越多,其決策成功的可能性越大; 對(duì)“刺猬型決策者”而言,數(shù)據(jù)越多,被噪聲影響的可能性就越大,其決策失敗的可能性也就越大

環(huán)境對(duì)數(shù)據(jù)有用性的確定也有相當(dāng)大的影響。比如,小規(guī)模的恐怖襲擊在以色列被視為普通犯罪,這里的每個(gè)人對(duì)恐懼都已經(jīng)麻木了,以色列真正不能容忍的是潛在的大級(jí)別恐怖襲擊。在這種狀態(tài)下,涉及小規(guī)??植酪u擊的消息對(duì)以色列人來(lái)說(shuō)就不是什么有用的信息,不會(huì)影響其日常生活的安排。但類似消息對(duì)外地的旅游者而言則恐怕是致命的

( 三) 信息公布的廣度與其價(jià)值可能存在逆相關(guān)關(guān)系
對(duì)多數(shù)人都可輕易得到的信息,其信息價(jià)值往往不大。多數(shù)人視若無(wú)睹的,甚至視為噪聲的信息,對(duì)少數(shù)人而言其價(jià)值可能最大。

在某種意義上,待用信息即噪聲,因?yàn)樗m然可能成為信息資源,但其潛在狀態(tài)的保留也需要消耗資源。數(shù)據(jù)的價(jià)值是或然的,數(shù)據(jù)處理的損耗卻是實(shí)在的。同時(shí),待用信息的擁有量過(guò)大,還會(huì)影響用戶選擇的效率,也具有負(fù)面作用。

本來(lái)信息越多越好,這是人類倡導(dǎo)大數(shù)據(jù)的本意。然而信息廣度與其價(jià)值背反卻是人類難以完全解決的一個(gè)悖境。中國(guó)社會(huì)科學(xué)院信息化研究中心秘書(shū)長(zhǎng)姜奇平指出: “大數(shù)據(jù)的取舍之道,就是把有意義的留下來(lái),把無(wú)意義的去掉?!?

但取舍絕不是這么簡(jiǎn)單。社會(huì)是多元的,意義也是多元的,甲的“有意義”,可能正是乙的“無(wú)意義”。全社會(huì)達(dá)成共識(shí)的意義少之又少,難道只保留那些普世價(jià)值么? 如果鼓勵(lì)開(kāi)放社會(huì),那么眾人意義的疊加,數(shù)據(jù)就很可能無(wú)可刪除,哪一項(xiàng)也“舍”不掉。爭(zhēng)吵到最后都得“取”,信息擁堵問(wèn)題恐怕還在。

( 四) 部分信息的價(jià)值具有時(shí)效性

信息獲取時(shí)間的先后與其價(jià)值大小可能存在正相關(guān)關(guān)系。如果比其他人延遲獲取,所得信息往往會(huì)失去其應(yīng)用價(jià)值。

人們決策往往不能等到掌握全部甚至大部分信息,“限時(shí)性決策”的場(chǎng)合非常多,只有決策時(shí)由決策者掌握的數(shù)據(jù)才是具有實(shí)效的信息,否則就是噪聲。

信息的時(shí)效性和多樣性也為決策者堅(jiān)持預(yù)定目標(biāo)提供了方便。最為典型的例子就是美國(guó)發(fā)動(dòng)的伊拉克戰(zhàn)爭(zhēng)。西爾弗指出: 從錯(cuò)綜復(fù)雜的數(shù)據(jù)中很容易看到你想要的數(shù)據(jù),當(dāng)我們過(guò)于想要發(fā)動(dòng)一場(chǎng)戰(zhàn)爭(zhēng)時(shí),不可靠的信號(hào)來(lái)源也會(huì)被解讀成可靠的。例如伊拉克戰(zhàn)爭(zhēng)發(fā)生前,伊拉克工程師拉菲德·阿爾賈納比因痛恨薩達(dá)姆而撒謊,他聲稱自己過(guò)去服務(wù)的種子工廠是一座制造生化武器的秘密工廠,隨后他承認(rèn)自己編造了一個(gè)虛假信息[2]。而美方明知其證詞為噪聲,也將之作為信號(hào)加以利用。反戰(zhàn)的民眾沒(méi)能及時(shí)得到相關(guān)信息,而戰(zhàn)后得到的確切信息已經(jīng)于事無(wú)補(bǔ)。

( 五) 信息獲取量的邊際效用遞減關(guān)系

對(duì)信息的接受者而言,通常都是信息越多越好。但如果發(fā)送信息的頻率過(guò)高,獲取持續(xù)時(shí)間過(guò)長(zhǎng),信息接受者就會(huì)產(chǎn)生審美疲勞,所得到信息的邊際效用將從大變小,甚至為負(fù),轉(zhuǎn)變?yōu)樵肼暋?

西爾弗指出: “信息的增長(zhǎng)速度遠(yuǎn)遠(yuǎn)超過(guò)了人們處理信息和分辨信息的速度,”[2]面對(duì)數(shù)據(jù)盛宴,人們往往無(wú)從下手,從胃口和食物的配比看嚴(yán)重過(guò)量。面對(duì)過(guò)量的信息,人們本能地進(jìn)行篩選,按照自已的偏好,選出喜歡的,忽略其他的。對(duì)于超負(fù)荷信息,人類只能啟動(dòng)自身固有的減載能力。

經(jīng)濟(jì)學(xué)諾獎(jiǎng)得主赫伯特·西蒙說(shuō)過(guò): “顯而易見(jiàn)信息消費(fèi)了什么,這就是信息接受者的注意力。因此豐富的信息導(dǎo)致了注意力的匱乏。匱乏資源不是信息,而是我們關(guān)注信息的處理能力。注意力是組織活動(dòng)的主要瓶頸?!?

盡管信息技術(shù)有助于人們處理信息,然而多數(shù)人仍然不可能做到極致,注意力的提升畢竟是有限的,如果信息過(guò)度膨脹,就容易出現(xiàn)“數(shù)據(jù)澇災(zāi)”。當(dāng)然信息和噪聲之間還可能存在其他關(guān)系,以上五條不過(guò)拋磚引玉。

握大數(shù)據(jù),正是為了得到有益于人類的信息,主觀上還會(huì)傾向于屏蔽或許無(wú)益于人類的噪聲。顯然,明確信息與噪聲之間的辯證關(guān)系,才可能形成較為正確的大數(shù)據(jù)觀。

四、統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)

( 一) “同一”還是“之一”
有的統(tǒng)計(jì)學(xué)者將統(tǒng)計(jì)學(xué)完全等價(jià)于數(shù)據(jù)科學(xué),認(rèn)定二者是一碼事,持“同一論”或“唯一論”。此觀點(diǎn)是否成立,涉及到對(duì)學(xué)科關(guān)系的不同認(rèn)識(shí)。

宣稱統(tǒng)計(jì)就是數(shù)據(jù)科學(xué),作此斷定恐怕有自我中心之嫌: 大數(shù)據(jù)時(shí)代來(lái)臨,統(tǒng)計(jì)就是一切,現(xiàn)實(shí)果真這么簡(jiǎn)單嗎?

筆者涉獵相關(guān)文獻(xiàn)得到的學(xué)科關(guān)系信息是: 有不少著述在討論數(shù)據(jù)科學(xué)分支時(shí)提到了統(tǒng)計(jì)學(xué),就是說(shuō),不少學(xué)者持“之一論”或“屬于論”。這意味著: 統(tǒng)計(jì)學(xué)并不等價(jià)于數(shù)據(jù)科學(xué)。甚至,還有學(xué)者認(rèn)為統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)之間應(yīng)該存在某種交叉關(guān)系。常常有統(tǒng)計(jì)學(xué)者將統(tǒng)計(jì)學(xué)定義為“一門(mén)數(shù)據(jù)科學(xué)”,這個(gè)定義或許沒(méi)什么錯(cuò),但如果統(tǒng)計(jì)學(xué)確是數(shù)據(jù)科學(xué)體系中的一門(mén)分支學(xué)科,那么這個(gè)定義雖然也提供了某些學(xué)科信息,但其貢獻(xiàn)的新信息量實(shí)在有限。如同說(shuō)“北京是中國(guó)的一個(gè)城市”,標(biāo)示意義就沒(méi)那么大。

統(tǒng)計(jì)是一門(mén)數(shù)據(jù)科學(xué),大數(shù)據(jù)時(shí)代數(shù)據(jù)科學(xué)特別重要,所以統(tǒng)計(jì)學(xué)特別重要。這個(gè)推斷邏輯上沒(méi)問(wèn)題。問(wèn)題在于:“統(tǒng)計(jì)學(xué)特別重要”不等于“統(tǒng)計(jì)學(xué)唯一重要”。只有證明統(tǒng)計(jì)學(xué)是唯一的數(shù)據(jù)科學(xué),二者同一,才能說(shuō)明大數(shù)據(jù)時(shí)代“統(tǒng)計(jì)學(xué)唯一重要”。

( 二) 三種學(xué)科關(guān)系

第一是統(tǒng)計(jì)學(xué)與其他數(shù)據(jù)科學(xué)的關(guān)系。

借助于大數(shù)據(jù)的便利,我們可以很方便地找到國(guó)內(nèi)外對(duì)數(shù)據(jù)學(xué)( dataology) 或數(shù)據(jù)科學(xué)的種種闡述,所提出的主要學(xué)科內(nèi)容有: 基礎(chǔ)理論研究、數(shù)據(jù)實(shí)驗(yàn)和邏輯推理方法研究、領(lǐng)域數(shù)據(jù)學(xué)、數(shù)據(jù)資源的開(kāi)發(fā)利用方法和技術(shù)研究等,遠(yuǎn)遠(yuǎn)超出了統(tǒng)計(jì)學(xué)的范圍。

2013 年5 月,“香山科學(xué)會(huì)議”也圍繞數(shù)據(jù)科學(xué)和大數(shù)據(jù)進(jìn)行了專題討論,會(huì)議邀請(qǐng)了管理、計(jì)算機(jī)、數(shù)學(xué)、經(jīng)濟(jì)、生物、社會(huì)和法律等領(lǐng)域的專家學(xué)者,其內(nèi)容遠(yuǎn)遠(yuǎn)不止于統(tǒng)計(jì)學(xué)??梢哉f(shuō),統(tǒng)計(jì)學(xué)家并不是這種會(huì)議的主角,這也反證了統(tǒng)計(jì)學(xué)不是唯一的數(shù)據(jù)科學(xué)。

有人概括出數(shù)據(jù)科學(xué)的兩個(gè)主要內(nèi)涵: ,一是研究數(shù)據(jù)本身,另一個(gè)是為自然科學(xué)和社會(huì)科學(xué)研究提供一種新方法,稱為“科學(xué)研究的數(shù)據(jù)方法”。還有人提出四門(mén)數(shù)據(jù)科學(xué): 計(jì)算機(jī)科學(xué)、數(shù)理統(tǒng)計(jì)學(xué)、圖形設(shè)計(jì)學(xué)和人機(jī)交互學(xué)。舍恩伯格和庫(kù)克耶甚至將作家也列入數(shù)據(jù)科學(xué)家的結(jié)合體!

當(dāng)然,數(shù)據(jù)科學(xué)還在發(fā)展的過(guò)程之中,其定義還在總結(jié)和爭(zhēng)論之中。但至少有一點(diǎn)對(duì)多數(shù)學(xué)者而言是明確的: 無(wú)論是從屬關(guān)系還是交叉關(guān)系,統(tǒng)計(jì)學(xué)只是數(shù)據(jù)科學(xué)體系中的一個(gè)組成部分或構(gòu)件。

第二是統(tǒng)計(jì)學(xué)與自己學(xué)科的基礎(chǔ)———概率論的關(guān)系。

筆者以為,統(tǒng)計(jì)學(xué)無(wú)非“應(yīng)用概率學(xué)”。美國(guó)國(guó)家科學(xué)基金會(huì)( NSF) 專門(mén)組織世界一流專家研究撰寫(xiě)了國(guó)際統(tǒng)計(jì)學(xué)發(fā)展報(bào)告———《統(tǒng)計(jì)學(xué): 二十一世紀(jì)的挑戰(zhàn)和機(jī)遇》,其中并沒(méi)有否認(rèn)概率論作為統(tǒng)計(jì)學(xué)的數(shù)理基礎(chǔ)。我們看到,這些專家充分了解大數(shù)據(jù)的時(shí)代背景及其對(duì)統(tǒng)計(jì)學(xué)的影響。

第三是統(tǒng)計(jì)學(xué)與所應(yīng)用領(lǐng)域?qū)iT(mén)學(xué)科的關(guān)系。

統(tǒng)計(jì)學(xué)對(duì)所應(yīng)用領(lǐng)域而言,其應(yīng)用范圍越廣,越是大數(shù)據(jù),越說(shuō)明其方法論性質(zhì),越說(shuō)明其工具性和基礎(chǔ)性。

在數(shù)據(jù)科學(xué)探討的相關(guān)文獻(xiàn)中,我們發(fā)現(xiàn),不少學(xué)者特別強(qiáng)調(diào)“學(xué)科群”的觀念,強(qiáng)調(diào)自然科學(xué)、社會(huì)科學(xué)、數(shù)據(jù)科學(xué)之間的相互交叉,強(qiáng)調(diào)實(shí)質(zhì)性科學(xué)在領(lǐng)域應(yīng)用中的主導(dǎo)性。

( 三) 四類世界與四種科學(xué)

人們對(duì)世界對(duì)科學(xué)有著各種各樣的分類,體現(xiàn)不同的視角和觀察格局。應(yīng)對(duì)大數(shù)據(jù)時(shí)代,本文提出四類世界和四種科學(xué)。

廣義地理解,應(yīng)對(duì)物質(zhì)世界,我們有物理科學(xué)。應(yīng)對(duì)精神世界,我們有心理科學(xué)。應(yīng)對(duì)賽博世界,我們有“數(shù)理科學(xué)”。應(yīng)對(duì)行為世界,我們有“事理科學(xué)”。這些學(xué)問(wèn)都是人類多維思維的科學(xué)成果,然而它們之間并不是外在的板塊疊加關(guān)系,而是彼此有機(jī)滲透的交錯(cuò)關(guān)系。正像現(xiàn)實(shí)世界并不是四個(gè)( 或多個(gè))分立的世界,而是同一世界四個(gè)不同維度的展示。真要學(xué)好用好某一科學(xué)成果,不可能單取其一。

世界是多元的,這意味著世界不只是data,故而不可用data 代替一切,不能過(guò)度依賴data。定性和“較質(zhì)”在大數(shù)據(jù)時(shí)代仍然不可或缺。

五、大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)重心轉(zhuǎn)移

( 一) “樣本= 總體”意味著什么

舍恩伯格和庫(kù)克耶指出: 大數(shù)據(jù)不用隨機(jī)分析法( 抽樣調(diào)查) 這樣的捷徑,而采用所有數(shù)據(jù)的方法。所謂“所有數(shù)據(jù)”是一種相對(duì)的說(shuō)法,但在工作思路上,似乎又回轉(zhuǎn)向了“全面調(diào)查”,數(shù)據(jù)科學(xué)家甚至提出了“樣本= 總體”的準(zhǔn)則。這種巨大的調(diào)整,是否意味著統(tǒng)計(jì)重心需要轉(zhuǎn)移呢?

維克托·邁爾·舍恩伯格和肯尼思·庫(kù)克耶認(rèn)為,隨機(jī)采樣方法存在許多固有的缺陷: 一是采樣的隨機(jī)性很難實(shí)現(xiàn),二是不適合考察子類別的情況,三是調(diào)查結(jié)果缺乏延展性,四是采樣忽略了細(xì)節(jié)考察,五是無(wú)法用于奇異值分析。而大數(shù)據(jù)分析則可以彌補(bǔ)隨機(jī)采樣法的上述缺陷。

統(tǒng)計(jì)實(shí)務(wù)是一個(gè)包含著各不同階段的全過(guò)程,從統(tǒng)計(jì)設(shè)計(jì)到基礎(chǔ)數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、統(tǒng)計(jì)信息發(fā)布,環(huán)環(huán)相扣。統(tǒng)計(jì)學(xué)要為統(tǒng)計(jì)實(shí)務(wù)提供理論和方法論指導(dǎo),需要針對(duì)不同階段的各自特點(diǎn)而進(jìn)行科學(xué)研究。

如果說(shuō)原來(lái)的統(tǒng)計(jì)實(shí)務(wù)的重心在于收集基礎(chǔ)數(shù)據(jù),難點(diǎn)在于如何獲取數(shù)據(jù),那么在大數(shù)據(jù)時(shí)代,則更在于如何選擇有用數(shù)據(jù)。如果說(shuō)原來(lái)重心是“做加法”———無(wú)中生有; 那么現(xiàn)在重心則是“做減法”———“有中生用”。用賀鏗教授的話說(shuō),原來(lái)統(tǒng)計(jì)學(xué)的特點(diǎn)是以小見(jiàn)大,現(xiàn)在則更在于“由繁入簡(jiǎn)”。

前面講到信息與噪聲的內(nèi)在關(guān)系,對(duì)統(tǒng)計(jì)學(xué)也會(huì)產(chǎn)生影重要響。在專門(mén)的抽樣調(diào)查中,統(tǒng)計(jì)設(shè)計(jì)充分注意到了樣本的隨機(jī)性,不會(huì)有那么多噪聲沖擊。到了大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)處理將面臨許多非隨機(jī)數(shù)據(jù),如何剔除噪聲就成了更為突出的任務(wù)。

另外,全球所有數(shù)據(jù)的90% 產(chǎn)生于過(guò)去兩年,這還意味著,從時(shí)間序列的角度看,大數(shù)據(jù)“厚今薄古”,數(shù)據(jù)呈嚴(yán)重“偏態(tài)分布”,如何在時(shí)序數(shù)據(jù)分析中注意這一特點(diǎn)的影響,也應(yīng)該是一個(gè)重要課題。

由大數(shù)據(jù)時(shí)代的影響,至少有兩點(diǎn)需要引起注意: 其一是統(tǒng)計(jì)數(shù)據(jù)處理比基礎(chǔ)數(shù)據(jù)收集更為重要;其二是統(tǒng)計(jì)設(shè)計(jì)環(huán)節(jié)的格外重要,總體上需要更注重不同階段的銜接和反饋關(guān)系。

( 二) 數(shù)據(jù)的識(shí)別問(wèn)題

舍恩伯格和庫(kù)克耶提出大數(shù)據(jù)時(shí)代的三大趨勢(shì),其中之一就是相關(guān)分析對(duì)原來(lái)因果分析的替代。這種所謂替代并不是全然的,在大數(shù)據(jù)時(shí)代人們并不是放棄了因果關(guān)系的分析,而是借用相關(guān)分析作為重要乃至主要途徑。因果關(guān)系不過(guò)是相關(guān)關(guān)系中的一部分,分析相關(guān)關(guān)系也正是為了間接得出對(duì)因果關(guān)系的認(rèn)識(shí)。

大數(shù)據(jù)時(shí)代,數(shù)據(jù)的識(shí)別問(wèn)題更為重要。這意味著,現(xiàn)實(shí)與理論、方法間需要反復(fù)作用,實(shí)質(zhì)性科學(xué)的主導(dǎo)更為重要。哪怕是從純海量數(shù)據(jù)中提取信息,沒(méi)有先驗(yàn)認(rèn)識(shí),也還需要后驗(yàn)認(rèn)識(shí),從數(shù)據(jù)中總結(jié)出的數(shù)量規(guī)律能否成立? 這是無(wú)論如何也不能避開(kāi)的問(wèn)題。

就是舍恩伯格和庫(kù)克耶也不同意安德森的極端觀點(diǎn)。他們指出: “大數(shù)據(jù)絕不會(huì)叫囂‘理論已死’”,因?yàn)椤按髷?shù)據(jù)是在理論的基礎(chǔ)上形成的”,無(wú)論是如何搜集數(shù)據(jù)、分析數(shù)據(jù),還是解讀研究結(jié)果,都得依賴?yán)碚摗!按髷?shù)據(jù)時(shí)代絕對(duì)不是一個(gè)理論消亡的時(shí)代,相反地,理論貫穿于大數(shù)據(jù)分析的方方面面?!保?]

微軟研究院首席研究員、MIT 公民媒體中心客座教授凱特·克勞福德指出,“數(shù)據(jù)無(wú)法自己說(shuō)話,而數(shù)據(jù)集———不管它們具有什么樣的規(guī)?!匀皇侨祟愒O(shè)計(jì)的產(chǎn)物。大數(shù)據(jù)的工具———例如Apache Hadoop 軟件框架———并不能使我們擺脫曲解、隔閡和錯(cuò)誤的成見(jiàn)。”[5]一些著名案例可以說(shuō)明這一點(diǎn)。

波士頓的StreetBump 應(yīng)用程序比較聰明,對(duì)公路質(zhì)量狀況,它試圖從駕駛員的智能手機(jī)上取得數(shù)據(jù)。如果駕車經(jīng)過(guò)路面坑洼處,智能手機(jī)就可以靈敏地反饋所受到的震動(dòng)。然而,克勞福德指出,如果僅僅依靠智能手機(jī)用戶的信息,那只是一個(gè)“自我選擇樣本”———它必然導(dǎo)致非智能手機(jī)用戶數(shù)據(jù)的缺失,即年老和不那么富有的市民很容易被排除在數(shù)據(jù)分析之外。即便就年輕和富有者而言,智能手機(jī)信息也存在偏差的可能。因?yàn)轳{車的質(zhì)量不同,防震能力不同,智能手機(jī)所感應(yīng)的震動(dòng)程度也會(huì)有所區(qū)別。

數(shù)據(jù)誤導(dǎo)的另一個(gè)典型案例是,2012 年“谷歌流感趨勢(shì)”過(guò)高地估計(jì)了年度流感發(fā)病率。通過(guò)人們?cè)诰W(wǎng)上搜索記錄來(lái)判斷這些人是否患上了流感,風(fēng)險(xiǎn)很大。人們可能是為了提前得到相關(guān)信息而搜索,可能是為了親戚朋友而搜索,一個(gè)人感冒可以有N 個(gè)人搜索,也完全可能只是關(guān)心社會(huì)動(dòng)向而搜索,如何區(qū)分患者搜索和非患者搜索,還需進(jìn)一步甄別類似的事例都表明,如果依賴有缺陷的大數(shù)據(jù),完全可能對(duì)公共決策造成相當(dāng)大的影響。

( 三) 虛擬信息的識(shí)別問(wèn)題

除了對(duì)“數(shù)據(jù)之據(jù)”的考察外,還有虛擬信息的識(shí)別問(wèn)題。例如,許多推特賬號(hào)實(shí)際上是機(jī)器人自動(dòng)程序或“半機(jī)器人”系統(tǒng)( 即得到機(jī)器人程序輔助的人工控制賬號(hào)) ,還有虛假賬號(hào)。最近的估計(jì)顯示,可能存在多達(dá)2000 萬(wàn)個(gè)虛假賬號(hào)。

由此,當(dāng)我們使用網(wǎng)絡(luò)數(shù)據(jù)分析社會(huì)狀況時(shí),首先要警覺(jué)的問(wèn)題是,數(shù)據(jù)中有沒(méi)有由自動(dòng)化算法系統(tǒng)產(chǎn)生的? 如果有的話,究竟有多少? “架勢(shì)無(wú)線”的CEO 葉忻坦言,市場(chǎng)中此類數(shù)據(jù)的噪聲大多,會(huì)導(dǎo)致數(shù)據(jù)價(jià)值大大降低。以互聯(lián)網(wǎng)營(yíng)銷為例,大量的“刷量”以及水軍好評(píng)差評(píng)等數(shù)據(jù)已經(jīng)嚴(yán)重干擾了數(shù)據(jù)的準(zhǔn)確性。

此外,在技術(shù)層面如何實(shí)現(xiàn)“數(shù)據(jù)去重”? 如何確保數(shù)據(jù)的完整性? 如何剔除網(wǎng)絡(luò)病毒的影響,如此等等,也是不可忽視的。

( 四) 為什么要提防“數(shù)據(jù)獨(dú)裁”

舍恩伯格和庫(kù)克耶專門(mén)論述了“數(shù)據(jù)獨(dú)裁”問(wèn)題,其典型案例就是羅伯特·麥克納馬拉。第二次世界大戰(zhàn)時(shí)麥克納馬拉就是“統(tǒng)計(jì)控制隊(duì)”的一名精英,戰(zhàn)后當(dāng)他接手福特公司時(shí),數(shù)據(jù)管理成為他執(zhí)掌福特的殺手锏。然而,上有政策下有對(duì)策,工廠經(jīng)理會(huì)迅速生成總裁所要的數(shù)據(jù)。比如,麥克納馬拉規(guī)定,只有在舊車型的所有零件沒(méi)有存貨時(shí),才能生產(chǎn)新車型,于是生產(chǎn)線經(jīng)理就把剩余的零件全部倒進(jìn)河里。麥克納馬拉擔(dān)任美國(guó)國(guó)防部長(zhǎng)后,評(píng)判戰(zhàn)爭(zhēng)進(jìn)度的方法就是看對(duì)方的死亡人數(shù)。由于長(zhǎng)官熱衷于數(shù)據(jù),下級(jí)為了達(dá)成命令或升遷,就一層一層地將數(shù)字?jǐn)U大化,只要那是上級(jí)希望聽(tīng)到的數(shù)字。

政策制定者一旦鎖定了一個(gè)特定變量,這個(gè)變量就會(huì)逐步失去其作為經(jīng)濟(jì)指標(biāo)的價(jià)值,這是“古德哈特定律”所揭示的。只要利用數(shù)據(jù)進(jìn)行管理,就必定有人利用數(shù)據(jù)進(jìn)行“反管理”。至少人們具有這樣一種行為傾向: 在博弈中盡可能生成符合自已主觀意愿的信息。甚至,罪犯可以利用“數(shù)據(jù)印跡”嫁禍于人,藏匿自己,“魔道之爭(zhēng)”將在一個(gè)新的平臺(tái)上展開(kāi)。

按照索羅斯的“自反性原則”( the principle of reflexivity) ,事物參與者的看法與其所處狀態(tài)互相影響。問(wèn)題的要害恰恰在于,參與者自身正是他們所要解決的問(wèn)題的組成部分[2]。只要涉及到人類本身,就一定存在動(dòng)態(tài)博弈。大數(shù)據(jù)對(duì)博弈的支持其實(shí)是“兩邊下注”的,社會(huì)事務(wù)的不確定性依然存在,甚至更為復(fù)雜。由此,“數(shù)據(jù)獨(dú)裁”往往適得其反。

在大數(shù)據(jù)時(shí)代,還將不可避免地遭遇隱私保護(hù)問(wèn)題,由此引發(fā)道德風(fēng)險(xiǎn)的若干爭(zhēng)議。如何把握好數(shù)據(jù)開(kāi)發(fā)和隱私保護(hù)的平衡,是對(duì)人類的重大挑戰(zhàn),統(tǒng)計(jì)學(xué)者也不能置身事外。這個(gè)話題筆者將專文另述。

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }