
大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)
一除了機(jī)遇還有挑戰(zhàn)
世界潮流,浩浩蕩蕩,不可阻擋,國(guó)人講究識(shí)時(shí)務(wù)者為俊杰,信息時(shí)代,數(shù)據(jù)爆炸。大數(shù)據(jù)大勢(shì)當(dāng)前,究竟采取什么樣的態(tài)度才是真正的“識(shí)時(shí)務(wù)”?
大數(shù)據(jù)時(shí)代并不會(huì)自動(dòng)生成,總是需要不斷地提出和解決大數(shù)據(jù)發(fā)展所遇到的問(wèn)題和矛盾,才會(huì)有切實(shí)的進(jìn)步。事物發(fā)展的不同階段有不同的“時(shí)務(wù)”,需要不同的應(yīng)對(duì)。
2009 年,大數(shù)據(jù)成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。而早在1980 年,著名未來(lái)學(xué)家A. 托夫勒出版《第三次浪潮》,其中已將大數(shù)據(jù)贊頌為“第三次浪潮的華彩樂(lè)章”。此間30 余年,能不能看作大數(shù)據(jù)發(fā)展的萌芽期? 多數(shù)人對(duì)數(shù)據(jù)爆炸還懵懵懂懂,世界需要賽博世界( Cyber world) 的開(kāi)拓者,需要大數(shù)據(jù)潮流的預(yù)示者,需要導(dǎo)師,需要先聲奪人。
一旦人們接受大數(shù)據(jù)洶涌而來(lái)的現(xiàn)實(shí),就需要既講機(jī)遇,也講挑戰(zhàn)。我們固然仍需要啟蒙,需要科普,需要科學(xué)理論和方法論的“二傳手”,但不需要跟風(fēng),不需要屏蔽了部分信息的“偏息圖”,不需要抓住一點(diǎn)不及其余的“唯數(shù)據(jù)論”,不需要“應(yīng)運(yùn)而生”的投機(jī)者。我們更需要切實(shí)有學(xué)術(shù)增加值的數(shù)據(jù)學(xué)科的拓展,更需要批判性思維。當(dāng)事物的內(nèi)在矛盾尚未充分暴露時(shí)就提出預(yù)警,這是一種制衡性的存在,是構(gòu)成時(shí)代“全息圖”的必要條件之一。
總之,在事物的不同成長(zhǎng)期,學(xué)者應(yīng)該有不同的擔(dān)當(dāng),其使命的重心要有所不同。面對(duì)任何社會(huì)潮流,學(xué)者應(yīng)該努力去做一位“麥田里的守望者”。
基于以上認(rèn)識(shí),且基于已經(jīng)有很多人在闡述大數(shù)據(jù)對(duì)統(tǒng)計(jì)的機(jī)遇,本文論述大數(shù)據(jù)對(duì)統(tǒng)計(jì)可能形成的挑戰(zhàn)。
二、大數(shù)據(jù)能否淹沒(méi)整個(gè)世界
( 一) 互聯(lián)網(wǎng)外還有大魚(yú)
面對(duì)大數(shù)據(jù)的迅猛發(fā)展,有的人認(rèn)為,大數(shù)據(jù)可以覆蓋整個(gè)世界,萬(wàn)維而結(jié),天網(wǎng)恢恢,疏而不漏,概莫能外。甚至有人進(jìn)而產(chǎn)生一種臆想: 即使不能全覆蓋也不要緊,大數(shù)據(jù)都覆蓋不了的,那就是落伍的,就不值得覆蓋,無(wú)關(guān)大局,推斷整體時(shí)可以放棄。
實(shí)際情況未必完全如此。比如,部分技術(shù)精英,最早使用互聯(lián)網(wǎng)和手機(jī)的信息技術(shù)先驅(qū)者,后來(lái)卻竭力躲避“技術(shù)專政”。部分政治、宗教人士,最典型的如本·拉登,傾向于遠(yuǎn)離互聯(lián)網(wǎng)。還有部分富人為了避稅、避仇等原因,也盡可能躲避互聯(lián)網(wǎng)的覆蓋。顯然,這三部分人是大數(shù)據(jù)難以覆蓋的,而他們的經(jīng)濟(jì)行為恰恰對(duì)分析社會(huì)格局非常重要,推論時(shí)不可忽視。
無(wú)論是數(shù)理統(tǒng)計(jì),還是數(shù)據(jù)科學(xué),都對(duì)其在經(jīng)濟(jì)特別是金融領(lǐng)域的應(yīng)用情有獨(dú)鐘。那么,在大數(shù)據(jù)時(shí)代的經(jīng)濟(jì)領(lǐng)域里,所謂地下經(jīng)濟(jì)( 未觀測(cè)經(jīng)濟(jì)) 能不能被完全取締? 甚至,現(xiàn)金交易和易貨貿(mào)易能不能被徹底消除? 果真能夠“數(shù)據(jù)全覆蓋”,就意味著信息技術(shù)對(duì)人類經(jīng)濟(jì)行為的一種根本顛覆。數(shù)據(jù)已成海量、指數(shù)型增長(zhǎng),我們就能做此斷言嗎?
大數(shù)據(jù)的倡導(dǎo)者通常把民主、開(kāi)放和理性作為必然的前提,這個(gè)前提確實(shí)應(yīng)該得到滿足,然而其在不同國(guó)家和地區(qū)的實(shí)現(xiàn)程度是大不相同的。人類社會(huì)并不會(huì)同步進(jìn)入大數(shù)據(jù)時(shí)代,“整個(gè)世界可能被割裂成大數(shù)據(jù)時(shí)代、小數(shù)據(jù)時(shí)代和物數(shù)據(jù)時(shí)代”( 知名IT 評(píng)論人謝文語(yǔ)) [1],同一個(gè)地球,卻是三種時(shí)代并存。
(二) 數(shù)據(jù)再大也是相對(duì)的
無(wú)論數(shù)據(jù)形成多么迅猛,無(wú)論覆蓋如何全面,無(wú)論規(guī)模怎樣大,大數(shù)據(jù)集仍然存在“數(shù)據(jù)黑暗地帶”或“數(shù)據(jù)陰影區(qū)域”,也就是說(shuō),大數(shù)據(jù)集仍然存在著無(wú)法周全的“信號(hào)問(wèn)題”。
數(shù)據(jù)的確大到了意想不到的程度,然而“大數(shù)據(jù)之大”也是相對(duì)的。海,對(duì)于人類、對(duì)于地球而言固然大,對(duì)宇宙來(lái)說(shuō)就不那么大了。即便局限于地球,所謂海量數(shù)據(jù)對(duì)所要研究的問(wèn)題而言,規(guī)模也仍未見(jiàn)得就足夠大。
比如,從皮尤研究中心可以獲悉,美國(guó)上網(wǎng)的成年人中只有16%使用推特網(wǎng)( Twitter) ,與整體人口相比,其中年輕人和城市人的比例偏多,因而對(duì)全社會(huì)狀況的分析來(lái)說(shuō),這絕不是一個(gè)具有代表性的樣本。推特網(wǎng)的數(shù)據(jù)顯示,人們離家越遠(yuǎn)越快樂(lè)?;蛟S的確有人如此,但對(duì)多數(shù)人來(lái)說(shuō),這種推論是真實(shí)的么?
有報(bào)道稱,全球所有數(shù)據(jù)的90% 產(chǎn)生于過(guò)去兩年,如果這個(gè)趨勢(shì)按照大數(shù)據(jù)擁躉者的估計(jì)那樣持續(xù),那么今天的大數(shù)據(jù)相對(duì)而言只是明天的小數(shù)據(jù),我們不僅不能窮盡所有數(shù)據(jù),而且我們對(duì)數(shù)據(jù)的掌握始終將是非常有限的。從邏輯上講,今天的“幾近全覆蓋”到了明天就會(huì)大打折扣,今天因數(shù)據(jù)全面而得到的結(jié)論也許會(huì)被明天否定,所謂全覆蓋之說(shuō)缺乏延展性。
牛津大學(xué)教授維克托·邁爾·舍恩伯格被譽(yù)為“大數(shù)據(jù)時(shí)代的預(yù)言家”,他和肯尼思·庫(kù)克耶編寫(xiě)了《大數(shù)據(jù)時(shí)代》[1]一書(shū),其中明確指出: “人們總是受到現(xiàn)有測(cè)量和認(rèn)知工具的局限,我們明天使用的工具很可能比今天的強(qiáng)大數(shù)倍甚至上千倍,我們現(xiàn)在所擁有的知識(shí)較之明天就顯得微不足道了。
( 三) “道魔博弈”是動(dòng)態(tài)無(wú)盡的
確實(shí),科學(xué)技術(shù)再?gòu)?qiáng)大,也始終處于不斷改進(jìn)之中,相對(duì)于所要解決的問(wèn)題而言,科學(xué)技術(shù)總是不完善的。因此,海量數(shù)據(jù)的規(guī)模與人類的有效處理能力之間也將一直存在著緊張關(guān)系,當(dāng)前的主流軟件工具能否在合理時(shí)間內(nèi)完成海量數(shù)據(jù)處理的全過(guò)程,以生成有助于各類決策的信息,將始終是挑戰(zhàn)性的。
更為要緊的疑問(wèn)是,如果現(xiàn)實(shí)世界能被賽博世界完全操縱,不管它多么科學(xué)、多么先驅(qū),現(xiàn)實(shí)世界還會(huì)存在么? 如果大數(shù)據(jù)真是“全能方法”,那人類還能進(jìn)步么? 還用進(jìn)步嗎? 說(shuō)到底,大數(shù)據(jù)還是要為人類服務(wù)的,就人類的工具與其工作對(duì)象的關(guān)系而言,到底是道高一尺魔高一丈,還是道高一尺魔高九寸? 到底是水漲船高,還是“水漲沒(méi)頂”?
微軟的史密斯說(shuō),“如果給我提供所有數(shù)據(jù),我就能拯救世界?!笨烧l(shuí)都知道,世界還在發(fā)展之中,而數(shù)據(jù)不過(guò)是對(duì)世界運(yùn)行的記錄,只要世界還沒(méi)有完結(jié),就不可能提供出“所有數(shù)據(jù)”??梢?jiàn),史密斯聰明地預(yù)設(shè)了一個(gè)不可能滿足的前提條件,他拯救世界的能力不可證偽。史密斯顯然是在效仿阿基米德,給我一個(gè)支點(diǎn),我就能撬動(dòng)地球。
三、信息與噪聲的辯證關(guān)系
大數(shù)據(jù)發(fā)展也引發(fā)了對(duì)基本概念的重新思考。信息和數(shù)據(jù)含義不同,但二者密切相關(guān)。英文的data,我們通常譯為“數(shù)據(jù)”。有學(xué)者提出,“數(shù)據(jù)之據(jù)”表明了其內(nèi)涵的質(zhì)的規(guī)定性,按照這種說(shuō)法,可以有“數(shù)碼與數(shù)據(jù)”之別,或者說(shuō)“有據(jù)之?dāng)?shù)”與“無(wú)據(jù)之?dāng)?shù)”之別。我們知道,“具象數(shù)據(jù)”肯定給出了某種信息,但抽象的數(shù)碼全都是信息嗎? 循著這類問(wèn)題思考,就涉及到了數(shù)據(jù)學(xué)科的基礎(chǔ)理論甚至哲學(xué)層面,個(gè)人的見(jiàn)解可能會(huì)有很大差異。
不過(guò)筆者認(rèn)為,以下關(guān)于信息與噪聲的認(rèn)識(shí)應(yīng)該是比較容易得到認(rèn)同的。
( 一) 信息與噪聲的“一體性”
在科學(xué)領(lǐng)域,很少看到所有數(shù)據(jù)都集中到一個(gè)明確的結(jié)論上的情況。真正的數(shù)據(jù)非常噪雜。數(shù)據(jù)就在那里,信息和噪聲同時(shí)空存在,統(tǒng)計(jì)學(xué)家納特·西爾弗說(shuō): “只要能將信號(hào)與噪聲區(qū)分開(kāi)來(lái),我們就能獲得所需的任何信息?!保?]這位預(yù)測(cè)界的“神奇小子”說(shuō)的是絕對(duì)真理,但問(wèn)題恰恰在于信號(hào)與噪聲難以區(qū)分,二者隨使用者的變化而變化。從最終用途看,大部分?jǐn)?shù)據(jù)對(duì)用戶而言都是噪聲。
人們擁有的信息呈指數(shù)增長(zhǎng),而需要驗(yàn)證的假設(shè)也正在以同樣的速度增長(zhǎng)。亟待解決的問(wèn)題及其復(fù)雜程度也正在以同樣的速度增長(zhǎng)。大量的信息成倍增加,但有用的信息卻非常有限。西爾弗指出:“噪聲的增長(zhǎng)速度要比信號(hào)快得多”,因此,“信號(hào)的比例正在縮小,我們需要找到更好的方法對(duì)信號(hào)和噪聲進(jìn)行區(qū)分?!睌?shù)據(jù)科學(xué)家通常用4V 表達(dá)大數(shù)據(jù)的特點(diǎn),有學(xué)者補(bǔ)充提出稀疏性( Sparsity) ,即有價(jià)值的信息相對(duì)于數(shù)據(jù)量而言非常至少,這個(gè)補(bǔ)充很有見(jiàn)地。
沒(méi)有信息,就無(wú)法辨明真相。這會(huì)讓人們以為:信息越多,就越靠近真相。很多情況如此,但這不是絕對(duì)的。信息只是得到真相的必要條件,而不是充分條件。無(wú)信息則無(wú)真相,不等于有信息便有真相。有信息而無(wú)真相,其重要原因就是噪聲與信息的“一體性”。1936 年,《文學(xué)文摘》對(duì)240 萬(wàn)美國(guó)公民調(diào)查,得出蘭登勝選的預(yù)測(cè),而喬治·蓋洛普只調(diào)查了5000 人,卻宣布羅斯福會(huì)贏。這是小數(shù)據(jù)戰(zhàn)勝大數(shù)據(jù)的典型案例,主要原因就是《文學(xué)文摘》的大數(shù)據(jù)中噪聲過(guò)多。
科學(xué)使社會(huì)變得明朗,但科學(xué)同樣也使社會(huì)組織變得更加復(fù)雜。信號(hào)過(guò)多又會(huì)使意義識(shí)別工作異常困難,這些信號(hào)可能會(huì)被淹沒(méi)在震耳欲聾的噪聲中。在統(tǒng)計(jì)學(xué)中,將噪聲誤以為信號(hào)的行為被稱為過(guò)度擬合。遺憾的是,現(xiàn)實(shí)中過(guò)度擬合的事例太多。
無(wú)論從靜態(tài)還是從動(dòng)態(tài)看,信息與噪聲之間都沒(méi)有絕對(duì)的界限。如此說(shuō)來(lái),大數(shù)據(jù)時(shí)代同時(shí)也就是“大噪聲時(shí)代”。
(二) 信息和噪聲的“對(duì)象相對(duì)性”
種種情況表明了信息和噪聲的“對(duì)象相對(duì)性”。
數(shù)據(jù)庫(kù)專家杰克·奧爾森指出: “數(shù)據(jù)能滿足其既定的用途,它才有質(zhì)量。”“信息的質(zhì)量不僅取決于它本身,還取決于它的用途。”
對(duì)某些人而言是信息,對(duì)另外一些人而言則可能完全是噪聲。比較典型的例子如,第二次世界大戰(zhàn)時(shí)美軍內(nèi)部使用印第安語(yǔ)聯(lián)絡(luò),實(shí)際上已經(jīng)是明碼呼叫,對(duì)當(dāng)時(shí)的日軍而言,則是不可破解的密碼。
本來(lái)是有用的、待用的信息,可是接受者沒(méi)有能力在適當(dāng)?shù)臅r(shí)間里接受和消化,甚至成為接受其他更有用信息的負(fù)擔(dān),此信息對(duì)該接受者而言實(shí)質(zhì)上處于噪聲狀態(tài)。究竟是信息還是噪聲,依接受者的數(shù)據(jù)處理能力而定。
數(shù)據(jù)中信息多少還與使用者性格密切相關(guān)。對(duì)“狐貍型決策者”而言,數(shù)據(jù)越多,其提取的有用信息越多,其決策成功的可能性越大; 對(duì)“刺猬型決策者”而言,數(shù)據(jù)越多,被噪聲影響的可能性就越大,其決策失敗的可能性也就越大
環(huán)境對(duì)數(shù)據(jù)有用性的確定也有相當(dāng)大的影響。比如,小規(guī)模的恐怖襲擊在以色列被視為普通犯罪,這里的每個(gè)人對(duì)恐懼都已經(jīng)麻木了,以色列真正不能容忍的是潛在的大級(jí)別恐怖襲擊。在這種狀態(tài)下,涉及小規(guī)??植酪u擊的消息對(duì)以色列人來(lái)說(shuō)就不是什么有用的信息,不會(huì)影響其日常生活的安排。但類似消息對(duì)外地的旅游者而言則恐怕是致命的
( 三) 信息公布的廣度與其價(jià)值可能存在逆相關(guān)關(guān)系
對(duì)多數(shù)人都可輕易得到的信息,其信息價(jià)值往往不大。多數(shù)人視若無(wú)睹的,甚至視為噪聲的信息,對(duì)少數(shù)人而言其價(jià)值可能最大。
在某種意義上,待用信息即噪聲,因?yàn)樗m然可能成為信息資源,但其潛在狀態(tài)的保留也需要消耗資源。數(shù)據(jù)的價(jià)值是或然的,數(shù)據(jù)處理的損耗卻是實(shí)在的。同時(shí),待用信息的擁有量過(guò)大,還會(huì)影響用戶選擇的效率,也具有負(fù)面作用。
本來(lái)信息越多越好,這是人類倡導(dǎo)大數(shù)據(jù)的本意。然而信息廣度與其價(jià)值背反卻是人類難以完全解決的一個(gè)悖境。中國(guó)社會(huì)科學(xué)院信息化研究中心秘書(shū)長(zhǎng)姜奇平指出: “大數(shù)據(jù)的取舍之道,就是把有意義的留下來(lái),把無(wú)意義的去掉?!?
但取舍絕不是這么簡(jiǎn)單。社會(huì)是多元的,意義也是多元的,甲的“有意義”,可能正是乙的“無(wú)意義”。全社會(huì)達(dá)成共識(shí)的意義少之又少,難道只保留那些普世價(jià)值么? 如果鼓勵(lì)開(kāi)放社會(huì),那么眾人意義的疊加,數(shù)據(jù)就很可能無(wú)可刪除,哪一項(xiàng)也“舍”不掉。爭(zhēng)吵到最后都得“取”,信息擁堵問(wèn)題恐怕還在。
( 四) 部分信息的價(jià)值具有時(shí)效性
信息獲取時(shí)間的先后與其價(jià)值大小可能存在正相關(guān)關(guān)系。如果比其他人延遲獲取,所得信息往往會(huì)失去其應(yīng)用價(jià)值。
人們決策往往不能等到掌握全部甚至大部分信息,“限時(shí)性決策”的場(chǎng)合非常多,只有決策時(shí)由決策者掌握的數(shù)據(jù)才是具有實(shí)效的信息,否則就是噪聲。
信息的時(shí)效性和多樣性也為決策者堅(jiān)持預(yù)定目標(biāo)提供了方便。最為典型的例子就是美國(guó)發(fā)動(dòng)的伊拉克戰(zhàn)爭(zhēng)。西爾弗指出: 從錯(cuò)綜復(fù)雜的數(shù)據(jù)中很容易看到你想要的數(shù)據(jù),當(dāng)我們過(guò)于想要發(fā)動(dòng)一場(chǎng)戰(zhàn)爭(zhēng)時(shí),不可靠的信號(hào)來(lái)源也會(huì)被解讀成可靠的。例如伊拉克戰(zhàn)爭(zhēng)發(fā)生前,伊拉克工程師拉菲德·阿爾賈納比因痛恨薩達(dá)姆而撒謊,他聲稱自己過(guò)去服務(wù)的種子工廠是一座制造生化武器的秘密工廠,隨后他承認(rèn)自己編造了一個(gè)虛假信息[2]。而美方明知其證詞為噪聲,也將之作為信號(hào)加以利用。反戰(zhàn)的民眾沒(méi)能及時(shí)得到相關(guān)信息,而戰(zhàn)后得到的確切信息已經(jīng)于事無(wú)補(bǔ)。
( 五) 信息獲取量的邊際效用遞減關(guān)系
對(duì)信息的接受者而言,通常都是信息越多越好。但如果發(fā)送信息的頻率過(guò)高,獲取持續(xù)時(shí)間過(guò)長(zhǎng),信息接受者就會(huì)產(chǎn)生審美疲勞,所得到信息的邊際效用將從大變小,甚至為負(fù),轉(zhuǎn)變?yōu)樵肼暋?
西爾弗指出: “信息的增長(zhǎng)速度遠(yuǎn)遠(yuǎn)超過(guò)了人們處理信息和分辨信息的速度,”[2]面對(duì)數(shù)據(jù)盛宴,人們往往無(wú)從下手,從胃口和食物的配比看嚴(yán)重過(guò)量。面對(duì)過(guò)量的信息,人們本能地進(jìn)行篩選,按照自已的偏好,選出喜歡的,忽略其他的。對(duì)于超負(fù)荷信息,人類只能啟動(dòng)自身固有的減載能力。
經(jīng)濟(jì)學(xué)諾獎(jiǎng)得主赫伯特·西蒙說(shuō)過(guò): “顯而易見(jiàn)信息消費(fèi)了什么,這就是信息接受者的注意力。因此豐富的信息導(dǎo)致了注意力的匱乏。匱乏資源不是信息,而是我們關(guān)注信息的處理能力。注意力是組織活動(dòng)的主要瓶頸?!?
盡管信息技術(shù)有助于人們處理信息,然而多數(shù)人仍然不可能做到極致,注意力的提升畢竟是有限的,如果信息過(guò)度膨脹,就容易出現(xiàn)“數(shù)據(jù)澇災(zāi)”。當(dāng)然信息和噪聲之間還可能存在其他關(guān)系,以上五條不過(guò)拋磚引玉。
握大數(shù)據(jù),正是為了得到有益于人類的信息,主觀上還會(huì)傾向于屏蔽或許無(wú)益于人類的噪聲。顯然,明確信息與噪聲之間的辯證關(guān)系,才可能形成較為正確的大數(shù)據(jù)觀。
四、統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)
( 一) “同一”還是“之一”
有的統(tǒng)計(jì)學(xué)者將統(tǒng)計(jì)學(xué)完全等價(jià)于數(shù)據(jù)科學(xué),認(rèn)定二者是一碼事,持“同一論”或“唯一論”。此觀點(diǎn)是否成立,涉及到對(duì)學(xué)科關(guān)系的不同認(rèn)識(shí)。
宣稱統(tǒng)計(jì)就是數(shù)據(jù)科學(xué),作此斷定恐怕有自我中心之嫌: 大數(shù)據(jù)時(shí)代來(lái)臨,統(tǒng)計(jì)就是一切,現(xiàn)實(shí)果真這么簡(jiǎn)單嗎?
筆者涉獵相關(guān)文獻(xiàn)得到的學(xué)科關(guān)系信息是: 有不少著述在討論數(shù)據(jù)科學(xué)分支時(shí)提到了統(tǒng)計(jì)學(xué),就是說(shuō),不少學(xué)者持“之一論”或“屬于論”。這意味著: 統(tǒng)計(jì)學(xué)并不等價(jià)于數(shù)據(jù)科學(xué)。甚至,還有學(xué)者認(rèn)為統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)之間應(yīng)該存在某種交叉關(guān)系。常常有統(tǒng)計(jì)學(xué)者將統(tǒng)計(jì)學(xué)定義為“一門(mén)數(shù)據(jù)科學(xué)”,這個(gè)定義或許沒(méi)什么錯(cuò),但如果統(tǒng)計(jì)學(xué)確是數(shù)據(jù)科學(xué)體系中的一門(mén)分支學(xué)科,那么這個(gè)定義雖然也提供了某些學(xué)科信息,但其貢獻(xiàn)的新信息量實(shí)在有限。如同說(shuō)“北京是中國(guó)的一個(gè)城市”,標(biāo)示意義就沒(méi)那么大。
統(tǒng)計(jì)是一門(mén)數(shù)據(jù)科學(xué),大數(shù)據(jù)時(shí)代數(shù)據(jù)科學(xué)特別重要,所以統(tǒng)計(jì)學(xué)特別重要。這個(gè)推斷邏輯上沒(méi)問(wèn)題。問(wèn)題在于:“統(tǒng)計(jì)學(xué)特別重要”不等于“統(tǒng)計(jì)學(xué)唯一重要”。只有證明統(tǒng)計(jì)學(xué)是唯一的數(shù)據(jù)科學(xué),二者同一,才能說(shuō)明大數(shù)據(jù)時(shí)代“統(tǒng)計(jì)學(xué)唯一重要”。
( 二) 三種學(xué)科關(guān)系
第一是統(tǒng)計(jì)學(xué)與其他數(shù)據(jù)科學(xué)的關(guān)系。
借助于大數(shù)據(jù)的便利,我們可以很方便地找到國(guó)內(nèi)外對(duì)數(shù)據(jù)學(xué)( dataology) 或數(shù)據(jù)科學(xué)的種種闡述,所提出的主要學(xué)科內(nèi)容有: 基礎(chǔ)理論研究、數(shù)據(jù)實(shí)驗(yàn)和邏輯推理方法研究、領(lǐng)域數(shù)據(jù)學(xué)、數(shù)據(jù)資源的開(kāi)發(fā)利用方法和技術(shù)研究等,遠(yuǎn)遠(yuǎn)超出了統(tǒng)計(jì)學(xué)的范圍。
2013 年5 月,“香山科學(xué)會(huì)議”也圍繞數(shù)據(jù)科學(xué)和大數(shù)據(jù)進(jìn)行了專題討論,會(huì)議邀請(qǐng)了管理、計(jì)算機(jī)、數(shù)學(xué)、經(jīng)濟(jì)、生物、社會(huì)和法律等領(lǐng)域的專家學(xué)者,其內(nèi)容遠(yuǎn)遠(yuǎn)不止于統(tǒng)計(jì)學(xué)??梢哉f(shuō),統(tǒng)計(jì)學(xué)家并不是這種會(huì)議的主角,這也反證了統(tǒng)計(jì)學(xué)不是唯一的數(shù)據(jù)科學(xué)。
有人概括出數(shù)據(jù)科學(xué)的兩個(gè)主要內(nèi)涵: ,一是研究數(shù)據(jù)本身,另一個(gè)是為自然科學(xué)和社會(huì)科學(xué)研究提供一種新方法,稱為“科學(xué)研究的數(shù)據(jù)方法”。還有人提出四門(mén)數(shù)據(jù)科學(xué): 計(jì)算機(jī)科學(xué)、數(shù)理統(tǒng)計(jì)學(xué)、圖形設(shè)計(jì)學(xué)和人機(jī)交互學(xué)。舍恩伯格和庫(kù)克耶甚至將作家也列入數(shù)據(jù)科學(xué)家的結(jié)合體!
當(dāng)然,數(shù)據(jù)科學(xué)還在發(fā)展的過(guò)程之中,其定義還在總結(jié)和爭(zhēng)論之中。但至少有一點(diǎn)對(duì)多數(shù)學(xué)者而言是明確的: 無(wú)論是從屬關(guān)系還是交叉關(guān)系,統(tǒng)計(jì)學(xué)只是數(shù)據(jù)科學(xué)體系中的一個(gè)組成部分或構(gòu)件。
第二是統(tǒng)計(jì)學(xué)與自己學(xué)科的基礎(chǔ)———概率論的關(guān)系。
筆者以為,統(tǒng)計(jì)學(xué)無(wú)非“應(yīng)用概率學(xué)”。美國(guó)國(guó)家科學(xué)基金會(huì)( NSF) 專門(mén)組織世界一流專家研究撰寫(xiě)了國(guó)際統(tǒng)計(jì)學(xué)發(fā)展報(bào)告———《統(tǒng)計(jì)學(xué): 二十一世紀(jì)的挑戰(zhàn)和機(jī)遇》,其中并沒(méi)有否認(rèn)概率論作為統(tǒng)計(jì)學(xué)的數(shù)理基礎(chǔ)。我們看到,這些專家充分了解大數(shù)據(jù)的時(shí)代背景及其對(duì)統(tǒng)計(jì)學(xué)的影響。
第三是統(tǒng)計(jì)學(xué)與所應(yīng)用領(lǐng)域?qū)iT(mén)學(xué)科的關(guān)系。
統(tǒng)計(jì)學(xué)對(duì)所應(yīng)用領(lǐng)域而言,其應(yīng)用范圍越廣,越是大數(shù)據(jù),越說(shuō)明其方法論性質(zhì),越說(shuō)明其工具性和基礎(chǔ)性。
在數(shù)據(jù)科學(xué)探討的相關(guān)文獻(xiàn)中,我們發(fā)現(xiàn),不少學(xué)者特別強(qiáng)調(diào)“學(xué)科群”的觀念,強(qiáng)調(diào)自然科學(xué)、社會(huì)科學(xué)、數(shù)據(jù)科學(xué)之間的相互交叉,強(qiáng)調(diào)實(shí)質(zhì)性科學(xué)在領(lǐng)域應(yīng)用中的主導(dǎo)性。
( 三) 四類世界與四種科學(xué)
人們對(duì)世界對(duì)科學(xué)有著各種各樣的分類,體現(xiàn)不同的視角和觀察格局。應(yīng)對(duì)大數(shù)據(jù)時(shí)代,本文提出四類世界和四種科學(xué)。
廣義地理解,應(yīng)對(duì)物質(zhì)世界,我們有物理科學(xué)。應(yīng)對(duì)精神世界,我們有心理科學(xué)。應(yīng)對(duì)賽博世界,我們有“數(shù)理科學(xué)”。應(yīng)對(duì)行為世界,我們有“事理科學(xué)”。這些學(xué)問(wèn)都是人類多維思維的科學(xué)成果,然而它們之間并不是外在的板塊疊加關(guān)系,而是彼此有機(jī)滲透的交錯(cuò)關(guān)系。正像現(xiàn)實(shí)世界并不是四個(gè)( 或多個(gè))分立的世界,而是同一世界四個(gè)不同維度的展示。真要學(xué)好用好某一科學(xué)成果,不可能單取其一。
世界是多元的,這意味著世界不只是data,故而不可用data 代替一切,不能過(guò)度依賴data。定性和“較質(zhì)”在大數(shù)據(jù)時(shí)代仍然不可或缺。
五、大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)重心轉(zhuǎn)移
( 一) “樣本= 總體”意味著什么
舍恩伯格和庫(kù)克耶指出: 大數(shù)據(jù)不用隨機(jī)分析法( 抽樣調(diào)查) 這樣的捷徑,而采用所有數(shù)據(jù)的方法。所謂“所有數(shù)據(jù)”是一種相對(duì)的說(shuō)法,但在工作思路上,似乎又回轉(zhuǎn)向了“全面調(diào)查”,數(shù)據(jù)科學(xué)家甚至提出了“樣本= 總體”的準(zhǔn)則。這種巨大的調(diào)整,是否意味著統(tǒng)計(jì)重心需要轉(zhuǎn)移呢?
維克托·邁爾·舍恩伯格和肯尼思·庫(kù)克耶認(rèn)為,隨機(jī)采樣方法存在許多固有的缺陷: 一是采樣的隨機(jī)性很難實(shí)現(xiàn),二是不適合考察子類別的情況,三是調(diào)查結(jié)果缺乏延展性,四是采樣忽略了細(xì)節(jié)考察,五是無(wú)法用于奇異值分析。而大數(shù)據(jù)分析則可以彌補(bǔ)隨機(jī)采樣法的上述缺陷。
統(tǒng)計(jì)實(shí)務(wù)是一個(gè)包含著各不同階段的全過(guò)程,從統(tǒng)計(jì)設(shè)計(jì)到基礎(chǔ)數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、統(tǒng)計(jì)信息發(fā)布,環(huán)環(huán)相扣。統(tǒng)計(jì)學(xué)要為統(tǒng)計(jì)實(shí)務(wù)提供理論和方法論指導(dǎo),需要針對(duì)不同階段的各自特點(diǎn)而進(jìn)行科學(xué)研究。
如果說(shuō)原來(lái)的統(tǒng)計(jì)實(shí)務(wù)的重心在于收集基礎(chǔ)數(shù)據(jù),難點(diǎn)在于如何獲取數(shù)據(jù),那么在大數(shù)據(jù)時(shí)代,則更在于如何選擇有用數(shù)據(jù)。如果說(shuō)原來(lái)重心是“做加法”———無(wú)中生有; 那么現(xiàn)在重心則是“做減法”———“有中生用”。用賀鏗教授的話說(shuō),原來(lái)統(tǒng)計(jì)學(xué)的特點(diǎn)是以小見(jiàn)大,現(xiàn)在則更在于“由繁入簡(jiǎn)”。
前面講到信息與噪聲的內(nèi)在關(guān)系,對(duì)統(tǒng)計(jì)學(xué)也會(huì)產(chǎn)生影重要響。在專門(mén)的抽樣調(diào)查中,統(tǒng)計(jì)設(shè)計(jì)充分注意到了樣本的隨機(jī)性,不會(huì)有那么多噪聲沖擊。到了大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)處理將面臨許多非隨機(jī)數(shù)據(jù),如何剔除噪聲就成了更為突出的任務(wù)。
另外,全球所有數(shù)據(jù)的90% 產(chǎn)生于過(guò)去兩年,這還意味著,從時(shí)間序列的角度看,大數(shù)據(jù)“厚今薄古”,數(shù)據(jù)呈嚴(yán)重“偏態(tài)分布”,如何在時(shí)序數(shù)據(jù)分析中注意這一特點(diǎn)的影響,也應(yīng)該是一個(gè)重要課題。
由大數(shù)據(jù)時(shí)代的影響,至少有兩點(diǎn)需要引起注意: 其一是統(tǒng)計(jì)數(shù)據(jù)處理比基礎(chǔ)數(shù)據(jù)收集更為重要;其二是統(tǒng)計(jì)設(shè)計(jì)環(huán)節(jié)的格外重要,總體上需要更注重不同階段的銜接和反饋關(guān)系。
( 二) 數(shù)據(jù)的識(shí)別問(wèn)題
舍恩伯格和庫(kù)克耶提出大數(shù)據(jù)時(shí)代的三大趨勢(shì),其中之一就是相關(guān)分析對(duì)原來(lái)因果分析的替代。這種所謂替代并不是全然的,在大數(shù)據(jù)時(shí)代人們并不是放棄了因果關(guān)系的分析,而是借用相關(guān)分析作為重要乃至主要途徑。因果關(guān)系不過(guò)是相關(guān)關(guān)系中的一部分,分析相關(guān)關(guān)系也正是為了間接得出對(duì)因果關(guān)系的認(rèn)識(shí)。
大數(shù)據(jù)時(shí)代,數(shù)據(jù)的識(shí)別問(wèn)題更為重要。這意味著,現(xiàn)實(shí)與理論、方法間需要反復(fù)作用,實(shí)質(zhì)性科學(xué)的主導(dǎo)更為重要。哪怕是從純海量數(shù)據(jù)中提取信息,沒(méi)有先驗(yàn)認(rèn)識(shí),也還需要后驗(yàn)認(rèn)識(shí),從數(shù)據(jù)中總結(jié)出的數(shù)量規(guī)律能否成立? 這是無(wú)論如何也不能避開(kāi)的問(wèn)題。
就是舍恩伯格和庫(kù)克耶也不同意安德森的極端觀點(diǎn)。他們指出: “大數(shù)據(jù)絕不會(huì)叫囂‘理論已死’”,因?yàn)椤按髷?shù)據(jù)是在理論的基礎(chǔ)上形成的”,無(wú)論是如何搜集數(shù)據(jù)、分析數(shù)據(jù),還是解讀研究結(jié)果,都得依賴?yán)碚摗!按髷?shù)據(jù)時(shí)代絕對(duì)不是一個(gè)理論消亡的時(shí)代,相反地,理論貫穿于大數(shù)據(jù)分析的方方面面?!保?]
微軟研究院首席研究員、MIT 公民媒體中心客座教授凱特·克勞福德指出,“數(shù)據(jù)無(wú)法自己說(shuō)話,而數(shù)據(jù)集———不管它們具有什么樣的規(guī)?!匀皇侨祟愒O(shè)計(jì)的產(chǎn)物。大數(shù)據(jù)的工具———例如Apache Hadoop 軟件框架———并不能使我們擺脫曲解、隔閡和錯(cuò)誤的成見(jiàn)。”[5]一些著名案例可以說(shuō)明這一點(diǎn)。
波士頓的StreetBump 應(yīng)用程序比較聰明,對(duì)公路質(zhì)量狀況,它試圖從駕駛員的智能手機(jī)上取得數(shù)據(jù)。如果駕車經(jīng)過(guò)路面坑洼處,智能手機(jī)就可以靈敏地反饋所受到的震動(dòng)。然而,克勞福德指出,如果僅僅依靠智能手機(jī)用戶的信息,那只是一個(gè)“自我選擇樣本”———它必然導(dǎo)致非智能手機(jī)用戶數(shù)據(jù)的缺失,即年老和不那么富有的市民很容易被排除在數(shù)據(jù)分析之外。即便就年輕和富有者而言,智能手機(jī)信息也存在偏差的可能。因?yàn)轳{車的質(zhì)量不同,防震能力不同,智能手機(jī)所感應(yīng)的震動(dòng)程度也會(huì)有所區(qū)別。
數(shù)據(jù)誤導(dǎo)的另一個(gè)典型案例是,2012 年“谷歌流感趨勢(shì)”過(guò)高地估計(jì)了年度流感發(fā)病率。通過(guò)人們?cè)诰W(wǎng)上搜索記錄來(lái)判斷這些人是否患上了流感,風(fēng)險(xiǎn)很大。人們可能是為了提前得到相關(guān)信息而搜索,可能是為了親戚朋友而搜索,一個(gè)人感冒可以有N 個(gè)人搜索,也完全可能只是關(guān)心社會(huì)動(dòng)向而搜索,如何區(qū)分患者搜索和非患者搜索,還需進(jìn)一步甄別類似的事例都表明,如果依賴有缺陷的大數(shù)據(jù),完全可能對(duì)公共決策造成相當(dāng)大的影響。
( 三) 虛擬信息的識(shí)別問(wèn)題
除了對(duì)“數(shù)據(jù)之據(jù)”的考察外,還有虛擬信息的識(shí)別問(wèn)題。例如,許多推特賬號(hào)實(shí)際上是機(jī)器人自動(dòng)程序或“半機(jī)器人”系統(tǒng)( 即得到機(jī)器人程序輔助的人工控制賬號(hào)) ,還有虛假賬號(hào)。最近的估計(jì)顯示,可能存在多達(dá)2000 萬(wàn)個(gè)虛假賬號(hào)。
由此,當(dāng)我們使用網(wǎng)絡(luò)數(shù)據(jù)分析社會(huì)狀況時(shí),首先要警覺(jué)的問(wèn)題是,數(shù)據(jù)中有沒(méi)有由自動(dòng)化算法系統(tǒng)產(chǎn)生的? 如果有的話,究竟有多少? “架勢(shì)無(wú)線”的CEO 葉忻坦言,市場(chǎng)中此類數(shù)據(jù)的噪聲大多,會(huì)導(dǎo)致數(shù)據(jù)價(jià)值大大降低。以互聯(lián)網(wǎng)營(yíng)銷為例,大量的“刷量”以及水軍好評(píng)差評(píng)等數(shù)據(jù)已經(jīng)嚴(yán)重干擾了數(shù)據(jù)的準(zhǔn)確性。
此外,在技術(shù)層面如何實(shí)現(xiàn)“數(shù)據(jù)去重”? 如何確保數(shù)據(jù)的完整性? 如何剔除網(wǎng)絡(luò)病毒的影響,如此等等,也是不可忽視的。
( 四) 為什么要提防“數(shù)據(jù)獨(dú)裁”
舍恩伯格和庫(kù)克耶專門(mén)論述了“數(shù)據(jù)獨(dú)裁”問(wèn)題,其典型案例就是羅伯特·麥克納馬拉。第二次世界大戰(zhàn)時(shí)麥克納馬拉就是“統(tǒng)計(jì)控制隊(duì)”的一名精英,戰(zhàn)后當(dāng)他接手福特公司時(shí),數(shù)據(jù)管理成為他執(zhí)掌福特的殺手锏。然而,上有政策下有對(duì)策,工廠經(jīng)理會(huì)迅速生成總裁所要的數(shù)據(jù)。比如,麥克納馬拉規(guī)定,只有在舊車型的所有零件沒(méi)有存貨時(shí),才能生產(chǎn)新車型,于是生產(chǎn)線經(jīng)理就把剩余的零件全部倒進(jìn)河里。麥克納馬拉擔(dān)任美國(guó)國(guó)防部長(zhǎng)后,評(píng)判戰(zhàn)爭(zhēng)進(jìn)度的方法就是看對(duì)方的死亡人數(shù)。由于長(zhǎng)官熱衷于數(shù)據(jù),下級(jí)為了達(dá)成命令或升遷,就一層一層地將數(shù)字?jǐn)U大化,只要那是上級(jí)希望聽(tīng)到的數(shù)字。
政策制定者一旦鎖定了一個(gè)特定變量,這個(gè)變量就會(huì)逐步失去其作為經(jīng)濟(jì)指標(biāo)的價(jià)值,這是“古德哈特定律”所揭示的。只要利用數(shù)據(jù)進(jìn)行管理,就必定有人利用數(shù)據(jù)進(jìn)行“反管理”。至少人們具有這樣一種行為傾向: 在博弈中盡可能生成符合自已主觀意愿的信息。甚至,罪犯可以利用“數(shù)據(jù)印跡”嫁禍于人,藏匿自己,“魔道之爭(zhēng)”將在一個(gè)新的平臺(tái)上展開(kāi)。
按照索羅斯的“自反性原則”( the principle of reflexivity) ,事物參與者的看法與其所處狀態(tài)互相影響。問(wèn)題的要害恰恰在于,參與者自身正是他們所要解決的問(wèn)題的組成部分[2]。只要涉及到人類本身,就一定存在動(dòng)態(tài)博弈。大數(shù)據(jù)對(duì)博弈的支持其實(shí)是“兩邊下注”的,社會(huì)事務(wù)的不確定性依然存在,甚至更為復(fù)雜。由此,“數(shù)據(jù)獨(dú)裁”往往適得其反。
在大數(shù)據(jù)時(shí)代,還將不可避免地遭遇隱私保護(hù)問(wèn)題,由此引發(fā)道德風(fēng)險(xiǎn)的若干爭(zhēng)議。如何把握好數(shù)據(jù)開(kāi)發(fā)和隱私保護(hù)的平衡,是對(duì)人類的重大挑戰(zhàn),統(tǒng)計(jì)學(xué)者也不能置身事外。這個(gè)話題筆者將專文另述。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11