
大數(shù)據(jù)相關(guān)關(guān)系的因果派生類(lèi)型
大數(shù)據(jù)的發(fā)展,一方面對(duì)因果關(guān)系的傳統(tǒng)理解構(gòu)成了全面挑戰(zhàn),凸顯了深化相關(guān)關(guān)系理解的難題;另一方面又為深化理解相關(guān)關(guān)系創(chuàng)造了條件。大數(shù)據(jù)時(shí)代,物數(shù)據(jù)化和數(shù)據(jù)物化分別是因果關(guān)系轉(zhuǎn)化為相關(guān)關(guān)系和相關(guān)關(guān)系向因果關(guān)系轉(zhuǎn)化的重要環(huán)節(jié)。通過(guò)這兩個(gè)對(duì)稱的環(huán)節(jié),大數(shù)據(jù)為充分展開(kāi)重新刻畫(huà)的因果概念,深入理解相關(guān)性和因果性之間的關(guān)系,提供了理論前提和實(shí)踐基礎(chǔ)。
當(dāng)我們把原因看作是對(duì)因素相互作用過(guò)程的描述,把結(jié)果則看作對(duì)因素相互作用效應(yīng)的描述,就能看到相關(guān)關(guān)系的因果派生性質(zhì)。當(dāng)因素未進(jìn)入相互作用過(guò)程時(shí),它們構(gòu)成了一種與潛在結(jié)果相聯(lián)系的因素關(guān)系。這種因素關(guān)系與因果關(guān)系密切相連,因?yàn)橐蛩夭慌c潛在結(jié)果相聯(lián)系,就不存在因素關(guān)系。這種與因素關(guān)系密切相連的因素相互關(guān)系,正是一種典型的相關(guān)關(guān)系。這種相關(guān)關(guān)系的生成表明,那是一種因果派生關(guān)系。同樣原理,因素和結(jié)果之間及結(jié)果之間的關(guān)系等都是因果派生的相關(guān)關(guān)系。由此可以得到關(guān)于因果關(guān)系和相關(guān)關(guān)系的清晰理解:因果關(guān)系是為因素相互作用所確定的關(guān)系,由于因果關(guān)系事實(shí)上是一個(gè)過(guò)程的兩個(gè)方面,所以不構(gòu)成相關(guān)關(guān)系。而相關(guān)關(guān)系則是因果關(guān)系的派生關(guān)系,包括因素之間、結(jié)果之間以及因素和結(jié)果之間的關(guān)系等[1]。
大數(shù)據(jù)是信息文明的基礎(chǔ),在信息文明時(shí)代,關(guān)于大數(shù)據(jù)相關(guān)關(guān)系及其因果派生類(lèi)型的研究,不僅對(duì)哲學(xué),而且對(duì)統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)、生物統(tǒng)計(jì)學(xué)(Biometrics)和心理測(cè)驗(yàn)學(xué)(Psychometrics)等學(xué)科都有重要意義。
由于具有衍射性質(zhì),相關(guān)關(guān)系的因果派生至為復(fù)雜;由于因果派生方式的多樣性,相關(guān)關(guān)系種類(lèi)繁多。一方面,由于是因果派生關(guān)系,同樣的變量相關(guān)關(guān)系可以為完全不同的因果關(guān)系所派生。另一方面,數(shù)據(jù)既可以反映原因和結(jié)果的關(guān)系,也可以反映因素和結(jié)果的關(guān)系,甚至反映因素之間、結(jié)果之間的關(guān)系。這也是現(xiàn)實(shí)生活中相關(guān)關(guān)系如此紛繁復(fù)雜的原因,只有把握了因果結(jié)構(gòu),才能對(duì)相關(guān)關(guān)系進(jìn)行分類(lèi)把握。根據(jù)重新刻畫(huà)的因果概念所展示的因果結(jié)構(gòu),作為因果派生關(guān)系,相關(guān)關(guān)系有三大基本類(lèi)型。
一、因素和結(jié)果間相關(guān)關(guān)系
這是一類(lèi)相對(duì)于特定因果關(guān)系的相關(guān)關(guān)系。由于無(wú)論因素還是結(jié)果,從直接到間接實(shí)際上構(gòu)成了一個(gè)區(qū)間,因而數(shù)據(jù)所反映的相關(guān)關(guān)系就呈現(xiàn)出非常復(fù)雜的情況。由于對(duì)于一個(gè)特定因素的相互作用過(guò)程來(lái)說(shuō),因素和結(jié)果都可以是間接的,因而又有4個(gè)亞類(lèi)。
(一)直接因素和直接結(jié)果間相關(guān)關(guān)系
直接因素和直接結(jié)果間相關(guān)關(guān)系是一種由因果關(guān)系派生的直接相關(guān)關(guān)系。作為與其他因素以一定的方式參與相互作用的特定因素,其與結(jié)果的關(guān)系受其他因素及相互作用方式的影響。同樣的因素與不同的其他因素相互作用,或者與同樣的其他因素但以不同的方式相互作用,可以形成完全不同甚至在質(zhì)上相反的結(jié)果。在莊稼施肥和產(chǎn)量的關(guān)系中,作為結(jié)果,產(chǎn)量與施肥的因素有關(guān),不施肥產(chǎn)量上不去,適當(dāng)施肥可能豐收,但施肥過(guò)量,不僅產(chǎn)量可能反降,甚至可能造成絕收的結(jié)果。作為典型的因素和結(jié)果間關(guān)系,無(wú)論在量上還是質(zhì)上,直接因素和直接結(jié)果之間的關(guān)系正是典型的相關(guān)關(guān)系。
典型的直接因素與直接結(jié)果間關(guān)系,表現(xiàn)為有直接關(guān)聯(lián),但不具有必然聯(lián)系,更確切地說(shuō),不能是必然因素。因?yàn)橐蛩刂皇亲鳛樵虻南嗷プ饔眠^(guò)程的構(gòu)成要素,它不僅對(duì)結(jié)果的貢獻(xiàn)有不同,而且其對(duì)結(jié)果生成的影響也與其作用方式及其他因素密切相關(guān)。如人的身高是體重的因素,但體重的原因是身高和其他因素相互作用的結(jié)果,身高并不能完全決定體重。這種相關(guān)關(guān)系的相關(guān)度可能不斷變化,只有在某一瞬間才可以被認(rèn)為是相對(duì)確定的。因此,動(dòng)態(tài)過(guò)程橫截面的數(shù)據(jù)反映,直接作為原因相互作用過(guò)程的因素,在結(jié)果生成過(guò)程中的影響或相關(guān)性是確定的。
直接因素和直接結(jié)果之間相關(guān)關(guān)系的數(shù)據(jù)反映,可能構(gòu)成非常有意義的變量相關(guān)關(guān)系。所謂間接因素,就是其參與特定因素相互作用過(guò)程不是直接的,而是通過(guò)其他因素——典型的如通過(guò)直接因素——起作用,比如殺人案中的教唆者。由此可以構(gòu)成一個(gè)作用鏈條,正是這一鏈條構(gòu)成因素的作用距離。因素的作用距離越近,作為其反映的數(shù)據(jù)相關(guān)關(guān)系就越確定。因?yàn)橐蛩氐淖饔镁嚯x越近,其作用及其方式的傳導(dǎo)越取決于更少的其他因素;經(jīng)過(guò)的環(huán)節(jié)更少,因而越可靠,越具有穩(wěn)定性,相關(guān)程度也相應(yīng)越高。變量之間關(guān)系的確定性達(dá)到一定程度,可以接近因果關(guān)系,這種相關(guān)關(guān)系所反映的通常就是直接因素作為主要因素起作用的因素相互作用過(guò)程。
直接的因素和結(jié)果間相關(guān)關(guān)系,正是大數(shù)據(jù)中最接近因果關(guān)系性質(zhì)的相關(guān)關(guān)系,也是日常生活、經(jīng)典物理學(xué)和大數(shù)據(jù)中最易被誤為因果關(guān)系的相關(guān)關(guān)系。
二)直接因素和間接結(jié)果間相關(guān)關(guān)系
直接因素和間接結(jié)果間相關(guān)關(guān)系是由因果關(guān)系派生出的一種間接相關(guān)關(guān)系。在這種相關(guān)關(guān)系中,相關(guān)的一方是參與相互作用生成一定結(jié)果的直接因素,另一方則是所生成的直接結(jié)果作為因素參與其他相互作用過(guò)程生成的結(jié)果。在這種相關(guān)關(guān)系中,如果直接因素和間接結(jié)果間的相互作用距離不遠(yuǎn),可能構(gòu)成具有預(yù)測(cè)功能的關(guān)系。最著名的案例是影響廣泛的所謂“男式內(nèi)褲指數(shù)”(Men's Under ware Index)。
“男式內(nèi)褲指數(shù)”被看作是重要經(jīng)濟(jì)指標(biāo),因?yàn)榻?jīng)濟(jì)不景氣或出現(xiàn)下滑時(shí),男式內(nèi)褲會(huì)推遲購(gòu)買(mǎi)。與此相反,如果男式內(nèi)褲銷(xiāo)量上升,則表明經(jīng)濟(jì)開(kāi)始回暖。由于這一現(xiàn)象與經(jīng)濟(jì)指標(biāo)具有很高相關(guān)度,據(jù)說(shuō)連美聯(lián)儲(chǔ)前主席格林斯潘(Alan Greenspan)都把它作為最可靠的指標(biāo)之一。就像螞蟻預(yù)報(bào)地震,這類(lèi)指數(shù)可能比統(tǒng)計(jì)數(shù)字更可信。這類(lèi)案例還有“學(xué)歷高消費(fèi)出租車(chē)司機(jī)指數(shù)”(Over Educated Cabbie Index)和“靚女招待指數(shù)”(Hot Waitress Index)。
“學(xué)歷高消費(fèi)出租車(chē)司機(jī)指數(shù)”是指坐出租車(chē)與司機(jī)交談時(shí),如果發(fā)現(xiàn)很多出租車(chē)司機(jī)教育水平提升,則表明經(jīng)濟(jì)要進(jìn)入衰退或已現(xiàn)不景氣。因?yàn)檫@種現(xiàn)象是相應(yīng)崗位裁員,而轉(zhuǎn)行到就業(yè)相對(duì)靈活的出租車(chē)行業(yè)的結(jié)果。之所以把出租車(chē)司機(jī)的教育水平作為指數(shù),是因?yàn)榭梢詮慕徽劯杏X(jué)出出租車(chē)司機(jī)教育水平的變化?!办n女招待指數(shù)”則由紐約觀察家分析獲得,因?yàn)橐话闱闆r下,漂亮女生容易找到更好的工作崗位,如果普通餐館靚女招待普遍增多,即表明就業(yè)艱難,很多靚女不得不到餐館打工,原因就是經(jīng)濟(jì)將下滑或不景氣。這些案例所呈現(xiàn)的,都是直接因素和間接結(jié)果之間的相關(guān)關(guān)系。男式內(nèi)褲銷(xiāo)量、出租車(chē)司機(jī)學(xué)歷高消費(fèi)現(xiàn)象和靚女招待增加的原因,都有經(jīng)濟(jì)發(fā)展走勢(shì)作為直接因素,也就是說(shuō),這些現(xiàn)象都是經(jīng)濟(jì)發(fā)展走勢(shì)作為直接因素參與構(gòu)成的間接結(jié)果。
由于是直接因素和間接結(jié)果之間的關(guān)系,這種間接相關(guān)關(guān)系的量化可以構(gòu)成一個(gè)趨向完全無(wú)關(guān)的區(qū)間,因此這種相關(guān)關(guān)系具有兩方面特點(diǎn):一方面,在質(zhì)的理解上,隨著對(duì)間接結(jié)果的作用距離越來(lái)越遠(yuǎn),實(shí)質(zhì)上的相關(guān)性越來(lái)越弱;另一方面,在量的把握上,直接因素作為自變量相對(duì)穩(wěn)定,而間接結(jié)果作為因變量則隨著作用距離的增加而越來(lái)越弱,即自變量和因變量的相關(guān)性隨著因素對(duì)間接結(jié)果作用距離的增加而減小,直至被不斷加入的其他因素的相互作用效應(yīng)所完全淹沒(méi)。
由于同一因素可以參與不同的相互作用過(guò)程,結(jié)果又可以作為因素參與新的因素相互作用等,直接因素和間接結(jié)果之間可以派生出復(fù)雜的相關(guān)關(guān)系。在這兩種情況下,因果派生的相關(guān)關(guān)系較為復(fù)雜。比如大學(xué)教授的工資和英格蘭威士忌之間的高度相關(guān)竟是由于通貨膨脹,肥胖和女性犯罪率的正相關(guān)是由于社會(huì)經(jīng)濟(jì)地位[2]。前者是同一因素參與兩個(gè)不同的因素相互作用過(guò)程構(gòu)成的相關(guān)關(guān)系;后者則是結(jié)果作為因素參與另一因素相互作用過(guò)程,從而構(gòu)成新的原因,產(chǎn)生新的結(jié)果。后一例子看上去就是傳統(tǒng)因果鏈,但傳統(tǒng)因果鏈具有必然性,而肥胖與犯罪的關(guān)系不是必然的。
(三)間接因素與直接結(jié)果間相關(guān)關(guān)系
間接因素與直接結(jié)果間相關(guān)關(guān)系也是由因果關(guān)系派生的一種間接相關(guān)關(guān)系。典型的間接因素與直接結(jié)果間關(guān)系,表現(xiàn)為有間接關(guān)聯(lián)。而由這種間接關(guān)聯(lián)所生成的相關(guān)性,則根據(jù)因素的作用距離而不同,事實(shí)上可以呈現(xiàn)為一個(gè)連續(xù)系列。由于涉及間接因素,而間接因素可以是一個(gè)作用距離趨向無(wú)限遠(yuǎn)的區(qū)間,因而這種相關(guān)關(guān)系也具有極為不同的兩方面特點(diǎn):一方面,隨著間接因素對(duì)結(jié)果作用距離的增加,因素對(duì)結(jié)果的影響越來(lái)越小,相關(guān)性越來(lái)越弱;另一方面,在量的把握上,間接因素作為自變量,隨著作用距離的增加而衰減,而結(jié)果作為因變量則相對(duì)穩(wěn)定可靠,即自變量和因變量的相關(guān)性隨著間接因素對(duì)結(jié)果作用距離的增加而減弱,直至衰減到其作用可以忽略不計(jì)。
(四)間接因素與間接結(jié)果間相關(guān)關(guān)系
由于因素和結(jié)果都是間接的,兩個(gè)變量之間的關(guān)系變化可以是兩個(gè)趨向無(wú)關(guān)的區(qū)間的乘積。這樣,間接因素和間接結(jié)果之間相關(guān)關(guān)系的數(shù)據(jù)反映,可以構(gòu)成毫無(wú)價(jià)值的變量關(guān)系。因素的作用距離越遠(yuǎn),其作用及其方式的傳導(dǎo)越取決于更多的其他因素,必須經(jīng)過(guò)更多環(huán)節(jié),因而越不可靠,越具有不穩(wěn)定性,從而作為其反映的數(shù)據(jù)相關(guān)關(guān)系就越具有不確定性,相關(guān)程度也相應(yīng)越低。而間接結(jié)果也是一個(gè)趨向無(wú)關(guān)的區(qū)間,兩個(gè)趨向無(wú)關(guān)的區(qū)間相疊加,變量之間關(guān)系的確定性便呈幾何級(jí)數(shù)遞減。變量之間關(guān)系的不確定性達(dá)到一定程度,則可以趨向毫不相關(guān)。這種關(guān)系所反映的,就是間接因素的作用距離如此之遠(yuǎn),以至其在因素相互作用過(guò)程中的作用時(shí)有時(shí)無(wú),可正可負(fù),根本沒(méi)有可資利用的確定性。由于大數(shù)據(jù)是全數(shù)據(jù),因而其所反映的絕大部分是作用距離相對(duì)較遠(yuǎn)的間接因素與間接結(jié)果之間的關(guān)系。正是在這個(gè)意義上,大數(shù)據(jù)從整體看來(lái)又是非結(jié)構(gòu)性數(shù)據(jù),甚至在某種程度上具有堆的性質(zhì)。所謂“相關(guān)關(guān)系越多,偏見(jiàn)越多”[3],所描述的就是這種情景。由此也可以看到數(shù)據(jù)挖掘的復(fù)雜性和技術(shù)難度,看到根據(jù)重新刻畫(huà)的因果概念研究因素分析方法的重要性。
二、結(jié)果間相關(guān)關(guān)系
結(jié)果間相關(guān)關(guān)系是一類(lèi)相對(duì)于同一原因的相關(guān)關(guān)系。就因素關(guān)系的規(guī)定而言,同一因素體系以同一方式、進(jìn)入同一相互作用不應(yīng)得到不同的結(jié)果,但作為相互作用效應(yīng)痕跡的累積,同一結(jié)果可以有不同的內(nèi)部結(jié)構(gòu),因而有不同的部分或形態(tài)。結(jié)果可以構(gòu)成兩種結(jié)構(gòu)次序:歷時(shí)性的時(shí)序和共時(shí)性的空序,結(jié)果基于時(shí)序和空序構(gòu)成的關(guān)系,則是另一種類(lèi)型的相關(guān)關(guān)系。由于這種類(lèi)型的相關(guān)關(guān)系是相對(duì)于同一原因的,量化后變量之間的關(guān)系非常特殊。它們都由同一原因引起,而同一原因引起的結(jié)果可以在不同時(shí)段,這就是涉及所謂“第三變量”中的一種相關(guān)關(guān)系。計(jì)量經(jīng)濟(jì)學(xué)中的“遺漏變量”(omitted variable)所表明的,正是一種結(jié)果間相關(guān)關(guān)系。家庭成員擁有打火機(jī)的數(shù)量與患癌癥的幾率相關(guān),如果認(rèn)為打火機(jī)是致癌因素,則是因?yàn)闆](méi)有考慮到它們都是吸煙的結(jié)果,吸煙因而成了遺漏變量[4]。休謨?cè)?jīng)討論到這類(lèi)例子,他意識(shí)到,不像父子之間,堂兄弟之間不是因果關(guān)系,而是“被因果關(guān)系聯(lián)系起來(lái)的關(guān)系”。休謨同時(shí)也感覺(jué)到這樣的表述不是很規(guī)范,事實(shí)上這里所說(shuō)的堂兄弟之間的關(guān)系就是結(jié)果間相關(guān)關(guān)系?!暗沁@種聯(lián)系的密切程度不及兄弟之間的聯(lián)系,當(dāng)然更不及父母和子女之間的聯(lián)系。我們可以一般地說(shuō):一切血親關(guān)系是根據(jù)因果關(guān)系的,并且是隨各人中間所插入的起聯(lián)系作用的原因的數(shù)目的多少、而定其遠(yuǎn)近的?!盵5](P23)由于時(shí)序和空序結(jié)構(gòu),這種結(jié)果間相關(guān)關(guān)系又有兩類(lèi):直接結(jié)果內(nèi)部要素的相關(guān)關(guān)系和間接結(jié)果之間的相關(guān)關(guān)系。
(一)直接結(jié)果內(nèi)部要素間相關(guān)關(guān)系
直接結(jié)果內(nèi)部要素間相關(guān)關(guān)系就是人們常說(shuō)的有相關(guān)性但沒(méi)有因果性的相關(guān)關(guān)系。這種相關(guān)關(guān)系具有如下特點(diǎn):一方面,在質(zhì)的理解上沒(méi)有任何意義上的因果關(guān)系;但另一方面,在量的把握上,這種相關(guān)關(guān)系卻可以表現(xiàn)為幾乎完全相關(guān)。典型的例子就是冰激凌銷(xiāo)量和性犯罪率之間的相關(guān)關(guān)系,二者都是各自與氣溫相互作用的結(jié)果。在大數(shù)據(jù)中,這種相關(guān)關(guān)系對(duì)于認(rèn)識(shí)因果關(guān)系意義不大,甚至沒(méi)有意義,但對(duì)于創(chuàng)構(gòu)所需結(jié)果則具有重要價(jià)值。典型的如出自沃爾瑪?shù)闹咐捌【婆c尿布”和“蛋撻與手電筒”。
“啤酒與尿布”和“蛋撻與手電筒”都是大數(shù)據(jù)技術(shù)應(yīng)用的經(jīng)典案例。由于沃爾瑪最早在商品零售中應(yīng)用信息技術(shù),并擁有相應(yīng)的數(shù)據(jù)挖掘技術(shù)——“購(gòu)物籃方法”,當(dāng)用這種方法分析消費(fèi)者購(gòu)物行為時(shí),發(fā)現(xiàn)一些男性顧客在購(gòu)買(mǎi)嬰兒尿布時(shí),常常會(huì)順便買(mǎi)幾瓶啤酒。原來(lái)美國(guó)家庭生了小孩,一般是母親在家照顧孩子,父親出外采購(gòu),因而為家里添丁忙碌的年輕父親們?cè)谫?gòu)買(mǎi)尿布時(shí),常常會(huì)稍帶給自己配上幾瓶啤酒解乏。沃爾瑪由此推出啤酒和尿布擺在一起的促銷(xiāo)方式,使尿布和啤酒的銷(xiāo)量都大幅增加。沃爾瑪還根據(jù)大數(shù)據(jù),通過(guò)顧客對(duì)蛋撻和手電筒各自相對(duì)于顧客購(gòu)買(mǎi)的相關(guān)關(guān)系,得到在貨架上把二者擺放在一起而提高銷(xiāo)售量的結(jié)果。這是同一個(gè)購(gòu)買(mǎi)行為構(gòu)成的直接結(jié)果內(nèi)部?jī)煞N商品購(gòu)買(mǎi)之間的相關(guān)關(guān)系。由于具有由因果性而來(lái)的強(qiáng)相關(guān),這種常與虛假因果關(guān)系相聯(lián)系的相關(guān)關(guān)系卻可以有效用于預(yù)測(cè),典型的案例是谷歌成功預(yù)測(cè)冬季流感,微軟成功預(yù)測(cè)奧斯卡大獎(jiǎng)等。
2009年,谷歌公司通過(guò)分析五千萬(wàn)條美國(guó)人谷歌檢索最頻繁的詞匯,將結(jié)果與美國(guó)疾病中心2003年至2008年之間季節(jié)性流感傳播期的數(shù)據(jù)進(jìn)行比較,建立起數(shù)學(xué)模型,成功預(yù)測(cè)2009年冬季流感的傳播,預(yù)測(cè)甚至精確到具體的地區(qū)和州。與此相似,2013年,微軟紐約研究院也是通過(guò)大數(shù)據(jù)分析,成功預(yù)測(cè)24個(gè)奧斯卡獎(jiǎng)項(xiàng)中的19個(gè),次年更成功預(yù)測(cè)第86屆奧斯卡金像獎(jiǎng)24個(gè)獎(jiǎng)項(xiàng)中的21個(gè)。更有意思的是,美國(guó)明尼蘇達(dá)州一家百貨店根據(jù)大數(shù)據(jù)分析,將嬰兒產(chǎn)品優(yōu)惠券寄給一個(gè)高中女生,遭致女生父親投訴。但不久這位父親來(lái)電道歉,因?yàn)榕畠撼姓J(rèn)了自己懷孕的事實(shí)。百貨店正是通過(guò)用戶購(gòu)物數(shù)據(jù)的分析,根據(jù)相關(guān)關(guān)系得到這么精確的結(jié)果。這些案例中的檢索詞、購(gòu)物行為和電影引發(fā)各種結(jié)果都是由同一原因產(chǎn)生的復(fù)合結(jié)果,這些復(fù)合的直接結(jié)果所構(gòu)成的相關(guān)關(guān)系正是直接結(jié)果內(nèi)部要素之間的相關(guān)關(guān)系。
這些案例不僅表明大數(shù)據(jù)的重要預(yù)測(cè)功能,而且同時(shí)表明了大數(shù)據(jù)與人的需要的內(nèi)在關(guān)聯(lián)。因?yàn)槿藗兊男袨榉从沉巳藗兊男枰?,行為是有需要根?jù)的。由于行為是需要的反映,因此行為之間也具有非常復(fù)雜的相關(guān)關(guān)系。當(dāng)涉及連續(xù)人類(lèi)行為時(shí),大數(shù)據(jù)預(yù)測(cè)可能對(duì)產(chǎn)生數(shù)據(jù)的行為有重要心理影響。這種情況常常發(fā)生在間接結(jié)果間的相關(guān)關(guān)系中,特別是自相關(guān)的情況下
(二)間接結(jié)果間的相關(guān)關(guān)系
結(jié)果作為因素相互作用過(guò)程的效應(yīng)及其痕跡的累積,又可以作為新的因素與其他因素構(gòu)成新的相互作用,生成新的結(jié)果。由于因素相互作用過(guò)程的結(jié)果又可以是構(gòu)成另一原因的因素,由此可以形成一個(gè)開(kāi)放的因素和結(jié)果鏈,在鏈上不同層次的結(jié)果之間,可以構(gòu)成又一種相關(guān)關(guān)系。由于因素和結(jié)果鏈不同于傳統(tǒng)因果概念意義上的因果鏈,這些間接結(jié)果間的關(guān)系不是具有必然聯(lián)系的因果關(guān)系,而只構(gòu)成具有某種確定性聯(lián)系的相關(guān)關(guān)系。這種相關(guān)關(guān)系不僅有共時(shí)相關(guān),還有歷時(shí)相關(guān)。歷時(shí)相關(guān)是因素相互作用過(guò)程不同階段性結(jié)果之間的相關(guān)關(guān)系,統(tǒng)計(jì)學(xué)和計(jì)量經(jīng)濟(jì)學(xué)稱為序列相關(guān)的“自相關(guān)”(autocorrelation),事實(shí)上就是指的歷時(shí)過(guò)程不同時(shí)段結(jié)果之間的相關(guān)性。在實(shí)踐中,“自相關(guān)”和“序列相關(guān)”(serial correlation)之所以普遍作為同義詞使用[6],在這種相關(guān)關(guān)系的派生機(jī)制中可以找到原因,這只是一個(gè)把相關(guān)關(guān)系看作自身內(nèi)部關(guān)系還是一種外部關(guān)系的問(wèn)題。
在自相關(guān)情況下,大數(shù)據(jù)可能對(duì)預(yù)測(cè)本身構(gòu)成影響,著名的“丁蟹效應(yīng)”和“一蚊雞”現(xiàn)象就是典型案例。
“丁蟹效應(yīng)”和“一蚊雞”都是股票市場(chǎng)的奇特現(xiàn)象?!岸⌒沸?yīng)”又稱“秋官效應(yīng)”,因?yàn)樽詮泥嵣偾?992年在《大時(shí)代》中飾演丁蟹,凡有鄭少秋主演的電視劇播出,恒生指數(shù)便出現(xiàn)不同程度下跌。只有一次例外,那是當(dāng)鄭少秋主演的新劇《心戰(zhàn)》2012年5月21日播出后,港股卻結(jié)束4日連跌。但人們期待的逆襲未現(xiàn),次年鄭少秋主演的新電影《忠烈楊家將》上映后,“丁蟹效應(yīng)”又一再應(yīng)驗(yàn),創(chuàng)下20年間多達(dá)近30次的紀(jì)錄,以致在實(shí)際操作中,不少小股民把“丁蟹效應(yīng)”看作一個(gè)股市指標(biāo)。比“丁蟹效應(yīng)”更為詭異,香港2008年起,稻香酒樓的“一蚊雞”也成為港股走勢(shì)另一個(gè)風(fēng)向標(biāo)。從2008年開(kāi)始,稻香酒樓6次推出“一蚊雞”優(yōu)惠,都遇港股下跌。最嚴(yán)重的一次發(fā)生在2009年2月,“一蚊雞”優(yōu)惠一推出,一個(gè)月內(nèi)恒生指數(shù)累計(jì)跌幅近兩成。這些現(xiàn)象或效應(yīng)的“詭異”并不神秘,都跟大數(shù)據(jù)中行為數(shù)據(jù)構(gòu)成的自相關(guān)關(guān)系密切相關(guān)。在大數(shù)據(jù)預(yù)測(cè)中,行為數(shù)據(jù)對(duì)產(chǎn)生數(shù)據(jù)的行為主體的影響是一個(gè)很重要的問(wèn)題。如果產(chǎn)生數(shù)據(jù)的行為是連續(xù)的,在大數(shù)據(jù)預(yù)測(cè)中就會(huì)構(gòu)成間接結(jié)果間的自相關(guān)關(guān)系。由于這種自相關(guān)性對(duì)產(chǎn)生數(shù)據(jù)的行為主體的影響包括心理效應(yīng),大數(shù)據(jù)預(yù)測(cè)將對(duì)自身構(gòu)成復(fù)雜而重要的影響,典型的結(jié)果類(lèi)似心理學(xué)上的“一念成讖”①現(xiàn)象。正如在個(gè)人行為中,由于行為的自相關(guān)關(guān)系,行為效率在很大程度上取決于對(duì)自己行為自相關(guān)關(guān)系的把握。在大數(shù)據(jù)預(yù)測(cè)中,預(yù)測(cè)精度與對(duì)預(yù)測(cè)行為的自相關(guān)關(guān)系的把握密切相關(guān),因?yàn)殚g接結(jié)果間的自相關(guān)關(guān)系由于結(jié)果生成距離而高度復(fù)雜化。
不僅因素有不同的作用方式和作用距離,在因素相互作用生成的系列效應(yīng)及其累積的不同結(jié)果形態(tài)之間,也具有由結(jié)果的間接性所確定的生成距離。間接結(jié)果之間的相關(guān)關(guān)系具有與直接結(jié)果內(nèi)部要素的相關(guān)關(guān)系同樣的基本特點(diǎn),但這種相關(guān)關(guān)系無(wú)論在因果關(guān)系質(zhì)的理解上,還是在變量關(guān)系量的把握上,都隨著間接結(jié)果生成距離的增加而遞減,直到完全被不斷加入的后續(xù)因素的作用效應(yīng)所淹沒(méi)。
在大數(shù)據(jù)中,相對(duì)于一定原因的間接結(jié)果間的相關(guān)關(guān)系,正是最易導(dǎo)致虛假因果關(guān)系的相關(guān)關(guān)系。相對(duì)于特定原因的結(jié)果間關(guān)系,特別是間接結(jié)果之間的關(guān)系,所反映的往往是因果關(guān)系的現(xiàn)象關(guān)聯(lián)。這種現(xiàn)象關(guān)聯(lián)對(duì)因果關(guān)系的反映是間接的。作為非常間接的因果聯(lián)系的現(xiàn)象關(guān)聯(lián),這種相關(guān)性可能僅僅是在空間上并存,時(shí)間上同時(shí)出現(xiàn)或先后相隨的關(guān)系。比如季節(jié)交替就是太陽(yáng)系運(yùn)動(dòng)這一復(fù)雜因果關(guān)系的光照現(xiàn)象關(guān)聯(lián)。而且,作為反映因果關(guān)系的現(xiàn)象關(guān)聯(lián),相對(duì)于特定原因的結(jié)果間相關(guān)關(guān)系所涉及的,可以不是對(duì)象性的因素,不可能構(gòu)成對(duì)象化過(guò)程。
三、因素間相關(guān)關(guān)系
與結(jié)果間相關(guān)關(guān)系不同,因素間相關(guān)關(guān)系所反映的是相對(duì)于一定結(jié)果的相關(guān)性。由于作為特定因素相互作用的結(jié)果既可以是現(xiàn)實(shí)的,也可以是潛在的,因而這類(lèi)相關(guān)關(guān)系的兩個(gè)亞類(lèi),分別在科學(xué)發(fā)現(xiàn)和基于大數(shù)據(jù)的創(chuàng)構(gòu)活動(dòng)中具有特殊意義。
(一)現(xiàn)實(shí)因素間的相關(guān)關(guān)系
現(xiàn)實(shí)因素間相關(guān)關(guān)系是凝固在相互作用結(jié)果中的因素關(guān)系,一種由于因素與特定的結(jié)果內(nèi)在相聯(lián)系而具有的相關(guān)關(guān)系。這種相關(guān)關(guān)系只有和結(jié)果相聯(lián)系才能發(fā)現(xiàn),或者說(shuō)只有相對(duì)于結(jié)果才有這種相關(guān)關(guān)系。離開(kāi)結(jié)果,因素間則不具有這種相關(guān)關(guān)系,就像不是因?yàn)樽优苫?,親家之間可以沒(méi)有關(guān)系一樣。這種相關(guān)關(guān)系的意義在于由果溯因(素),包括由結(jié)果追溯原因以及由結(jié)果和相關(guān)因素預(yù)見(jiàn)其他某因素的存在,因而在科學(xué)發(fā)現(xiàn)中具有重要價(jià)值。很多科學(xué)發(fā)現(xiàn)都與這種類(lèi)型的相關(guān)關(guān)系有關(guān),如太陽(yáng)系第九大行星和很多元素的發(fā)現(xiàn)。
(二)潛在因素間的相關(guān)關(guān)系
潛在因素間相關(guān)關(guān)系是相對(duì)于潛在結(jié)果的因素關(guān)系,一種由于因素與可構(gòu)成或要構(gòu)成的可能結(jié)果相聯(lián)系而具有的相關(guān)關(guān)系。這種相關(guān)關(guān)系只有和潛在結(jié)果相聯(lián)系才得以構(gòu)成,或者說(shuō)只有在潛在結(jié)果的觀照中才存在這種相關(guān)關(guān)系。不僅離開(kāi)潛在的結(jié)果,事物或變量不會(huì)構(gòu)成因素關(guān)系,而且相對(duì)于不同的潛在結(jié)果,所構(gòu)成的因素關(guān)系也不相同。由于創(chuàng)構(gòu)活動(dòng)既不同于描述活動(dòng),但又與之相對(duì)稱,因而這種類(lèi)型的相關(guān)關(guān)系對(duì)于創(chuàng)構(gòu)活動(dòng)至關(guān)重要,不僅是大數(shù)據(jù)中最具價(jià)值的重要相關(guān)關(guān)系,而且在人類(lèi)認(rèn)識(shí)和實(shí)踐活動(dòng)中具有重要理論和實(shí)踐意義,從而又與因果關(guān)系具有更深層次關(guān)聯(lián)。
潛在因素間相關(guān)關(guān)系的重要性,能夠根據(jù)因素關(guān)系進(jìn)行創(chuàng)構(gòu)。美國(guó)網(wǎng)貍公司(Netflix)的首部原創(chuàng)自制系列劇美版《紙牌屋》的成功制作,就是一個(gè)最早的經(jīng)典例子。作為網(wǎng)上影像制品租賃公司,Netflix可以在大數(shù)據(jù)中看到幾個(gè)要素:一個(gè)是英國(guó)BBC的《紙牌屋》是一個(gè)很受歡迎的連續(xù)?。灰粋€(gè)是演員Kevin Spacey很受歡迎,而且與《紙牌屋》中的主角關(guān)聯(lián)特別大;還有一個(gè)就是導(dǎo)演David Fincher深得觀眾青睞。關(guān)鍵是這三個(gè)要素是相關(guān)的,是因素關(guān)系。把三個(gè)因素放在一起,讓它們相互作用,就可以生成很有價(jià)值的結(jié)果,這就是美版《紙牌屋》。所以,美版《紙牌屋》一推出來(lái)就大受歡迎,這是他們意料之中的。任何一個(gè)導(dǎo)演用明星拍一部電影,都不可能預(yù)計(jì)到票房?jī)r(jià)值會(huì)怎樣,但Netflix公司在推出之前就已經(jīng)知道,因?yàn)閺拇髷?shù)據(jù)中的相關(guān)因素可以直觀地看到一個(gè)幾乎是可以完全確定的結(jié)果。在某種意義上,這確實(shí)是運(yùn)用大數(shù)據(jù)“傻瓜”獲得成功的一個(gè)范例。
潛在因素間相關(guān)關(guān)系不僅能夠根據(jù)因素關(guān)系進(jìn)行創(chuàng)構(gòu),而且最典型地表明,在因果關(guān)系和相關(guān)關(guān)系之間,具有更深層次的內(nèi)容。
在因素之間的關(guān)系中,不同因素在特定原因的構(gòu)成中具有不同的地位和作用。由此而表現(xiàn)出不同程度的相關(guān)性。當(dāng)所有因素都處于非主導(dǎo)地位,因而談不上重要作用時(shí),沒(méi)有任何因素相對(duì)結(jié)果顯著相關(guān),相關(guān)關(guān)系就是彌散的。而某一因素地位越是重要,作用越具有主導(dǎo)性,這一因素對(duì)結(jié)果的生成影響權(quán)重就越大。當(dāng)這一因素地位的重要性和作用之大達(dá)到一定程度,其他因素的作用可以在某種意義上被忽略時(shí),在實(shí)踐意義上,這一因素就相當(dāng)于原因了,這就是作為重新刻畫(huà)的因果概念的特例——傳統(tǒng)因果觀的因果性。而在創(chuàng)構(gòu)活動(dòng)中,人的創(chuàng)造活動(dòng)越來(lái)越是主導(dǎo)因素。在這一領(lǐng)域,因果關(guān)系和相關(guān)關(guān)系不僅涉及物能和信息關(guān)系,而且越來(lái)越多地涉及社會(huì)和心理關(guān)系。因果關(guān)系和相關(guān)關(guān)系的研究不僅涉及自然因素,而且越來(lái)越深入廣泛地涉及人和人為的因素,從而涉及人的需要。與潛在結(jié)果相聯(lián)系的因素之間的關(guān)系,還可以指可能結(jié)果觀照中的事物之間的相關(guān)關(guān)系,這種相關(guān)關(guān)系正與人們的特定需要和目的有關(guān)。比如在醫(yī)生那里,刀可以與救死扶傷相關(guān);而在兇手那里,刀則可能與謀財(cái)害命相關(guān)。只是這種相關(guān)性還不是一個(gè)涉及實(shí)際相互作用的對(duì)象化過(guò)程,只有當(dāng)相關(guān)因素進(jìn)入實(shí)際的相互作用過(guò)程,才構(gòu)成現(xiàn)實(shí)的因果關(guān)系,形成對(duì)象化過(guò)程。
由此可見(jiàn),相關(guān)關(guān)系不僅由因果派生,而且與因果關(guān)系具有更深層次關(guān)聯(lián)。一方面,作為因果派生關(guān)系,相關(guān)關(guān)系深植于自己的因果根基;另一方面,作為生成新的因果關(guān)系的基礎(chǔ),相關(guān)關(guān)系又具有更深層次的因果關(guān)系意蘊(yùn)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10